Retour d’expérience : #TranslationCafé, Littératie de la traduction automatique

Par Sophie Vandenmersch, étudiante M1 TSM

Qu’on l’adopte ou non, la traduction automatique (TA) ou traduction machine s’implante de plus en plus dans le secteur. En 2016, la traduction automatique neuronale (TAN) fait son apparition dans le grand public avec Google Traduction, qui a développé son propre système de TAN appelé Google Neural Machine Translation (lien en anglais). Le principe repose sur des réseaux neuronaux profonds qui fonctionnent grâce à l’apprentissage profond (deep learning), un type d’intelligence artificielle. L’année suivante, DeepL, un autre système de TAN également accessible en ligne, voit le jour. Cependant, leur utilisation éclairée requiert d’en comprendre les tenants et aboutissants. Pour en savoir un peu plus, j’ai décidé de participer à la conférence organisée par #Translationcafé qui s’est déroulée le 22 avril dernier et de vous partager quelques points abordés.

Le #TranslationCafé, kézako ?

Il s’agit d’une table ronde mensuelle en ligne, au cours de laquelle trois spécialistes de la traduction échangent de façon informelle autour d’une thématique liée au monde de la traduction. Elle a lieu à 16 heures (heure française) et dure une heure. Les sujets sont divers et variés : de l’histoire de la traduction des langues asiatiques jusqu’au sous-titrage, en passant par l’impact de la crise sanitaire dans le secteur. Les internautes ont la possibilité de poser des questions en direct. Enfin, cet évènement est libre d’accès, sur simple inscription.

Cette deuxième édition portait sur la littératie de la traduction automatique (Machine Translation literacy) avec pour invités : Lynne Bowker, professeure de traduction et sciences de l’information à l’Université d’Ottawa, Lettie Dorst, professeure de linguistique anglaise et de traduction à l’Université de Leyde, et Rudy Loock, professeur de traductologie et de linguistique anglaise à l’Université de Lille.

Dans quelle mesure et comment les professionnels des langues peuvent-ils assister le grand public dans l’utilisation et la confiance en la traduction automatique ?

Lynne Bowker : Tout d’abord, selon moi, la littératie de la traduction automatique suppose certains pré-requis à une utilisation efficace et réfléchie. Contrairement aux autres types de connaissances informatiques, celle-ci relève plus d’un processus cognitif que technique. Autrement dit, de savoir si le contenu à traduire se prête à la TA ou non, mais aussi comment optimiser le résultat, en pré-éditant le texte source par exemple. Trois grandes catégories de personnes utilisent la TA :

  • le grand public, à des fins personnelles ;
  • les professionnels de la traduction souhaitant intégrer la TA dans leur processus ;
  • les étudiants en langues ou linguistique.

Toutes ces personnes ont des connaissances relatives à la traduction et des finalités différentes. De ce fait, l’enseignement doit être adapté aux différents types d’utilisateurs pour répondre à leurs besoins respectifs. Je constate un manque d’objectivité de la part de certains acteurs du monde de la traduction, qui ont tendance à véhiculer une image catastrophique de la TA. Ces idées reçues ne renseignent en aucun cas le grand public qui, en fin de compte, l’utilisera tout de même, donc autant les aider à utiliser cet outil de la manière la plus éclairée possible.

Lettie Dorst : Je confirme dans la mesure où ces affirmations, quelles qu’elles soient, n’instruisent en rien l’utilisateur lambda. J’ai remarqué qu’il y a deux types de messages qui reviennent concernant l’informatique en général : soit tout fonctionne à merveille, soit pas du tout. Certes, grâce à la traduction automatique, nous obtenons une certaine équivalence linguistique concernant la syntaxe et la terminologie, mais le travail des traducteur ne se résume pas à cela. C’est une des problématiques que j’aborde dans le cadre de mon projet sur la traduction automatique (lien en anglais). Techniquement, il ne s’agit pas de « traduction automatique », car ce n’est pas de la traduction à proprement parler, mais plutôt une application d’algorithmes informatiques. J’enseigne à mes étudiants que c’est une machine qui ne comprend pas ce qu’elle produit, qui ne lit pas le texte et qui ne communique rien du tout. Ils adoptent en conséquence un raisonnement plus critique, notamment pour une éventuelle utilisation ainsi que les motifs de cette démarche.

Rudy Loock : En effet, la TA est trop facile d’utilisation. Je le constate avec les étudiants qui, qu’ils soient en traduction ou non, accordent une confiance totale à ce que la machine propose. Ce qui apparaît à l’écran n’est jamais exact et, de fait, il est impératif de disposer d’un esprit critique. Les étudiants toutes spécialités confondues utilisent la TA. La technologie a ses limites, car on y rencontre des problèmes de richesse lexicale, des ambiguïtés, et elle peut même générer un langage discriminatoire. Concernant les étudiants en traduction, l’enseignement de la TA est abordé sous un autre angle, étant donné qu’ils ont une différente approche envers cet outil. Lors d’un projet de traduction, ils doivent être en mesure de déterminer si la TA peut intégrer le processus traductif. De plus, le type d’outil a aussi son importance, car à l’heure actuelle, les entreprises développent leurs propres outils de TA. Je dirais qu’une sensibilisation à la TA est donc impérative et doit être définie selon le profil de l’utilisateur.

Le processus cognitif n’est pas le même en traduction ni en révision ou bien en post-édition, et je crains que, en ayant recours à cette dernière, les étudiants en oublient la formation à l’élaboration d’une traduction et aux processus cognitifs qui y sont liés.

LD : Avant toute chose, je pense qu’il faut garder en tête le profil des étudiants dont il est question, notamment s’il s’agit d’étudiants en langues, en traduction ou d’étudiants d’autres filières qui utilisent la TA comme simple outil. Concernant les étudiants en traduction, il est capital d’approfondir leurs propres compétences en traduction, de même que pour la relecture, tout en les couplant à l’utilisation d’outils de TAO. En outre, ils doivent apprendre à la fois la révision et la post-édition. Lorsque je corrige des travaux d’étudiants, ils sont en mesure de différencier chacune de ces tâches, les compétences liées à celles-ci, qui se complètent les unes les autres. Avec la pratique, ils se rendent compte qu’il s’agit d’opérations bel et bien distinctes. J’estime qu’il est de notre devoir de faire prendre conscience à nos étudiants de leurs forces et faiblesses. Certains sont très à l’aise en traduction et moins en révision. L’inverse est aussi vrai. D’autres brillent en post-édition ; en revanche, ils feraient de mauvais traducteurs. D’autres encore sont de très bons traducteurs mais ne remarquent pas les erreurs produites par la TA ou ne savent pas comment les corriger sans retraduire de zéro.

RL : Traduire et post-éditer sont deux tâches différentes en effet. La plupart conviendra qu’on ne peut être un bon post-éditeur sans être au départ un bon traducteur, la difficulté principale étant de corriger les erreurs et d’améliorer le résultat généré par la machine. Pour appuyer le fait que le traducteur humain doit rester au cœur du processus traductif, certains parlent de « traduction orientée vers l’humain » (human-centered translation).

LB : La question de l’introduction des outils de TA ne date pas d’hier, même quand celle-ci ne jouait pas encore un rôle majeur. Cette même problématique s’est posée lors de l’arrivée des mémoires de traduction. Il n’existe aucune solution prédéterminée. D’une part, posséder de bonnes compétences traductionnelles serait bénéfique à une utilisation efficace de la TA. D’autre part, la post-édition est une compétence, tout comme la traduction, qui peut être améliorée au fil du temps. Par conséquent, il subsiste un certain avantage à l’introduire tôt et à développer lesdites compétences en parallèle. Certains étudiants sont susceptibles de se spécialiser en post-édition. A contrario, on trouve des étudiants destinés à devenir traducteurs et qui vont se servir de leur expérience en TA afin de défendre leur valeur ajoutée lors du processus traductif. Je suis d’avis que les traducteurs et post-éditeurs peuvent se compléter.

Comme le résultat de la TA est une probabilité statistique d’une proposition de traduction, serait-il pertinent de former les utilisateurs afin de déterminer si une suggestion n’a rien à voir avec le sens du texte source ?

RL : Tout à fait. Pour moi cela fait partie des notions à acquérir, et cela vaut également pour la langue maternelle. Pour ce faire, une maîtrise de la langue cible est de rigueur.

LB : Une majeure partie du métier de traducteur et l’utilisation de la TA consiste en des prises de décisions et d’appréciations. Un outil de TA, qui repose en partie sur la probabilité statistique, fera en sorte de suggérer une proposition de traduction. Vient le rôle du traducteur de se prononcer pour un choix plutôt qu’un autre.

Un module dédié à la sensibilisation à la TA dans l’enseignement secondaire serait-il judicieux ?

RL : Personnellement, je ne consacrerais pas de cours spécifique à la TA, même pour les étudiants de licence. Il aurait plutôt sa place en cours de langues ou de traduction.

LD : Je l’aurais intégré aux modules du tronc commun de première année à l’université qui abordent l’accès, l’utilisation des plateformes universitaires en ligne ainsi que l’utilisation des logiciels de bureautique.

LB : Je pense que les étudiants en fin de cycle secondaire ou au début à l’université sont les cibles idéales, étant donné qu’ils commencent à forger leur propre opinion. Cependant,associer des cours de sensibilisation à la TA exclusivement aux cours de langues serait réducteur, car une grande majorité d’utilisateurs lambda de la TA ne parlent pas la langue source.

Avoir recours à un outil gratuit permettrait au site d’exploiter nos données afin d’enrichir leurs services. Quels sont les risques et problèmes ?

LB : Tout dépend du type de contenu. S’il contient des informations sensibles, il est préférable de faire preuve de conscience professionnelle en respectant le souhait du client, et donc de s’en abstenir. Il ne faut pas hésiter à en discuter avec le client ; la solution parfaite n’existe pas.

RL : L’éthique fait partie des fondamentaux, notamment pour les futurs professionnels de la traduction. Négliger cet aspect peut engendrer de lourdes répercussions, comme l’illustre cette histoire (en anglais) d’une agence de voyages norvégienne dont les informations confidentielles ont été exposées au grand public, à la suite de l’utilisation d’un outil de TA en ligne gratuit. J’ajoute que, pour avoir un outil de TA efficace, ce dernier doit être alimenté par des données de qualité, issues de corpus parallèles de traductions réalisées par des humains. Lorsqu’on utilise un outil de TA, il est important de savoir sur quelles bases de données il a été créé. Quant à la collecte des données et à l’accord des utilisateurs, c’est une autre histoire. Bien sûr, l’éthique est essentielle à une utilisation éclairée de la TA par les professionnels du secteur, mais elle concerne tout autant les utilisateurs lambda.

LD : Ce qui est étonnant, c’est que les gouvernements ne prennent pas position sur ce sujet. Prenons l’exemple des Pays-Bas : par manque de traductions officielles, la population s’en remet à la TA pour comprendre les informations personnelles à caractère médical qui leur sont transmises. De plus,le service de l’immigration communique uniquement en néerlandais. Les traducteurs se retrouvent à gérer la question de l’éthique alors que ce ne sont pas les seules personnes à blâmer. Je pense qu’il faudrait aborder le sujet avec ceux qui obligent à utiliser la traduction machine. Dans les Conditions générales d’utilisation de ces outils, il est clairement mentionné que ces derniers sont en mesure de publier le contenu. Par ailleurs, Google lui-même indique que son outil de TA ne remplace pas la traduction humaine.

Comment utiliser la TA de façon responsable et éthique ?

LB : Il s’agit d’une question de morale. Si vous n’êtes pas disposé à l’utiliser, alors ne le faites pas. À mon avis, les utilisateurs prennent des décisions, mais pas en toute connaissance de cause, ou alors ils font au mieux avec ce qu’ils ont sous la main. En tant que représentants du domaine, notre rôle est d’informer le grand public. Pour finir, pourquoi devrions-nous attendre des personnes n’étant pas issues du métier de tout savoir sur ce que nous avons mis cinq à dix ans à apprendre ?

J’étudie la traduction et redoute le jour où l’on me demandera uniquement de post-éditer. Partagez-vous cette inquiétude ?

LD : Il faut s’en inquiéter seulement si vous n’excellez pas en traduction. Certes, de plus en plus d’agences tentent d’instaurer la traduction automatique, mais j’ai aussi l’impression que les étudiants ignorent une partie du secteur de la traduction où la TA n’est pas de mise et où est pratiquée une bien meilleure rémunération. Enfin, certains étudiants préfèrent post-éditer, et le résultat est satisfaisant. Je suis certaine que chacun y trouvera son compte.

LB : Comme mentionné auparavant, tous les types de contenu ne sont pas adaptés à la TA. De fait, les traducteurs humains ont une plus-value à faire valoir. C’est ce que nous explique dans cette vidéo David Jemielty, responsable du département des traductions à la Banque Cantonale Vaudoise (BCV).

Pour aller plus loin concernant la TA et les étudiants, je vous invite à consulter cet article rédigé par mes collègues de formation.

Un grand merci au #Translationcafé d’avoir accepté que je revienne sur cette table ronde dans le cadre du blog du Master TSM.

Retrouvez toutes les actualités du #TranslationCafé sur le compte Twitter (en anglais) : @LetsTalkXl8.

Ce billet est une retranscription partielle des propos énoncés.

Sources :

Ahmad, Sami. 2017. « Google Neural Machine Translation – AI to Improve Translation Accuracy ». Technobyte. 28 avril 2017. https://technobyte.org/google-neural-machine-translation-translate/.

Gouvernement du Canada, Services publics et Approvisionnement Canada. 2020. « Littératie de la traduction automatique : pour une éthique de l’intérêt commun – Blogue Nos langues – Ressources du Portail linguistique du Canada – Langues – Identité canadienne et société – Culture, histoire et sport – Canada.ca ». 19 octobre 2020. https://www.noslangues-ourlanguages.gc.ca/fr/blogue-blog/litteratie-traduction-automatique-machine-translation-ethics-fra.

« O’Brien et Ehrensberger-Dow – 2020 – MT Literacy—A cognitive view.pdf ». s. d. https://digitalcollection.zhaw.ch/bitstream/11475/20864/3/2020_OBrien-Ehrensberger-Dow_MT-Literacy_JBE.pdf.

O’Brien, Sharon, et Maureen Ehrensberger-Dow. 2020. « MT Literacy—A Cognitive View ». Translation, Cognition & Behavior 3 (2): 145‑64. https://doi.org/10.1075/tcb.00038.obr.

« Traduction automatique : faire les bons choix avant de commencer ». 2021. MasterTSM@Lille (blog). 14 février 2021. https://mastertsmlille.wordpress.com/2021/02/14/traduction-automatique-faire-les-bons-choix-avant-de-commencer/.

« Traduction automatique : les algorithmes ont-ils des préjugés ? » 2019. MasterTSM@Lille (blog). 10 novembre 2019. https://mastertsmlille.wordpress.com/2019/11/10/traduction-automatique-les-algorithmes-ont-ils-des-prejuges/.

« Traduction automatique : nouvelle alliée des étudiants en traduction ? » 2020. MasterTSM@Lille (blog). 13 décembre 2020. https://mastertsmlille.wordpress.com/2020/12/13/traduction-automatique-nouvelle-alliee-des-etudiants-en-traduction/.

Traduction, par Colivia. 2021. « Le Deep Learning en traduction automatique, qu’est-ce que c’est ? » Colivia Traduction (blog). 28 mai 2021. https://colivia-traduction.com/le-deep-learning-en-traduction-automatique-quest-ce-que-cest/.

« Translate.Com Exposes Highly Sensitive Information in Massive Privacy Breach ». 2017. Slator. 7 septembre 2017. https://slator.com/technology/translate-com-exposes-highly-sensitive-information-massive-privacy-breach/.

Translating for Europe. s. d. #2019TEF – KEYNOTE SPEECH – The added value of translation. https://www.youtube.com/watch?v=qGGaEnRECHc.

« #Translation Cafe ». s. d. Eventbrite. https://www.eventbrite.co.uk/e/136411876595?aff=efbneb.

« Understanding (the Value of) Machine Translation ». s. d. Leiden University. https://www.universiteitleiden.nl/en/news/2020/05/understanding-the-value-of-machine-translation.

J’ai testé pour vous… Traduire, la nouvelle application de traduction d’Apple

Par Margaux Mackowiak, étudiante M2 TSM

Que vous possédiez un iPhone ou non, vous aurez peut-être entendu parler de la nouvelle application de traduction développée par Apple : Apple Translate, ou tout simplement nommée Traduire en français. L’app (nom donné par la marque à la pomme à ses applications) a été introduite avec la version iOS 14 annoncée en juin dernier lors de la WWDC 2020, à savoir la conférence mondiale des développeurs Apple, et installée automatiquement en effectuant la mise à jour iOS 14 depuis septembre. Parmi l’ensemble des moteurs de traduction automatique déjà présents sur le marché, l’app Traduire a-t-elle les atouts nécessaires pour leur faire concurrence ? C’est l’enquête que j’ai décidé de mener pour vous dans ce billet.

Prise en main et ergonomie

Lors du premier lancement de l’app, vous pourrez suivre un tutoriel vous indiquant de façon claire et simple les différentes fonctionnalités de l’outil de traduction et la manière de l’utiliser.

D’un point de vue ergonomique, l’interface est fluide et épurée, les couleurs sont neutres et agréables et s’adaptent en fonction du mode clair ou sombre paramétré dans les réglages de votre appareil. L’outil est simple d’utilisation, seuls quelques boutons sont présents à l’écran et leur utilité est rapidement identifiable, notamment après avoir lu le tutoriel. Sur ce point, nous pouvons admettre que l’interface est ergonomique.

Fonctionnalités

Nous avons le choix parmi 11 langues sources et cibles disponibles, et une supplémentaire selon la région géographique : l’allemand, l’anglais (des États-Unis ou du Royaume-Uni), l’arabe, le chinois (mandarin simplifié), le coréen, l’espagnol (d’Espagne), le français (de France), l’italien (d’Italie), le japonais, le portugais (du Brésil), ainsi que le russe.

Ce nombre est conséquent puisque, par comparaison, le moteur de traduction automatique à base de réseaux neuronaux DeepL ne propose qu’une variante géographique de plus. En incluant l’anglais britannique et l’anglais américain, nous arrivons ainsi à 130 combinaisons de paires de langues possibles pour Traduire.

De plus, l’outil d’Apple propose non seulement un système de traduction textuel, mais aussi vocal.

Qualité de traduction

Pour évaluer la qualité de Traduire, je vais comparer les traductions proposées par l’outil avec celles de DeepL et de Google Traduction et je vais le tester sur les problèmes récurrents rencontrés lors de l’utilisation des autres moteurs de traduction automatique.

Pour commencer, j’ai choisi un extrait du tutoriel officiel d’Apple en anglais, How to use Translate on your iPhone. Voici la traduction proposée par Traduire :

Traduire a donc traduit “When you download a language to use offline, it might take up space on your iPhone. You can remove a downloaded language whenever you want.” par « Lorsque vous téléchargez une langue pour utiliser hors ligne, cela pourrait prendre de la place sur votre iPhone. Vous pouvez supprimer une langue téléchargée quand vous le souhaitez. » Or, la version française de ce passage sur la page du tutoriel d’Apple en français est : « Le téléchargement d’une langue hors ligne peut occuper de l’espace sur votre iPhone. Vous pouvez à tout moment supprimer une langue téléchargée. »

On observe ainsi que la traduction de Traduire est compréhensible, certes, mais très littérale. L’app nous offre une traduction mot à mot, ce qui ne ferait pas l’affaire dans un texte officiel.

Pour tester l’outil sur la traduction de titres d’articles, j’en ai sélectionné un sur un sujet on ne peut plus d’actualité : celui de la Covid-19.

Ainsi, pour Coronavirus: UK ‘remains in containment phase’ – Johnson, l’app Traduire le traduit en français par Coronavirus : UK « reste en phase de confinement » – Johnson. On voit donc que l’outil n’a pas traduit ‘UK’ par ‘Le Royaume-Uni’, comme le font DeepL et Google Traduction. En français, il est aussi coutume d’ajouter le prénom et de ne pas uniquement nommer une personnalité par son nom de famille, ce que les moteurs de traduction automatique ne prennent pas encore en compte.

Ensuite, j’ai voulu vérifier si l’outil saurait localiser des éléments propres à différents pays. Pour ce faire, j’ai choisi un extrait de mode d’emploi d’un trotteur pour bébé. Voici la traduction d’une phrase tirée de la partie information des consommateurs :

Traduire a donc traduit “Call Consumer Relations 8 AM – 6 PM EST Monday through Friday.” par « Appelez Relations avec les consommateurs de 8 h à 18 h HNE du lundi au vendredi ». Pour cette même phrase, DeepL et Google Traduction proposent « Appelez le service des relations avec les consommateurs de 8 h à 18 h HNE du lundi au vendredi. »

L’app d’Apple a traité ‘Consumer Relations’ comme un nom propre, contrairement aux deux autres moteurs qui l’ont correctement traduit. En outre, les trois outils ont traduit EST (Eastern Standard Time) par HNE (heure normale de l’Est), mais n’ont pas localisé les chiffres en UTC+1, l’heure locale.

Voyons à présent ce qu’il en est des préjugés. Les moteurs de traduction automatique sont connus pour contenir des algorithmes qui reproduisent des stéréotypes racistes ou sexistes provenant des humains, comme en témoigne le billet de blog d’Estelle Peuvion de novembre 2019.

Qu’en est-il du cas de Traduire ? Pour le savoir, j’ai choisi deux métiers du corps hospitalier, à savoir les termes infirmier/infirmière et chirurgien/chirurgienne. Découvrons comment se comporte Traduire avec ces mots.

Si je saisis le texte suivant : “The nurse entered the room. He gave me my medicine.”, Traduire propose « L’infirmière est entrée dans la chambre. Il m’a donné mes médicaments. »

En plus de traduire ‘nurse’ par ‘infirmière’ par défaut, l’outil ne corrige pas le genre alors même que j’ai précisé qu’il s’agissait d’un homme dans la phrase suivante. DeepL et Google Traduction reproduisent la même erreur.

Dans l’exemple suivant, Traduire traduit “The surgeon asked her colleague to give her a scalpel.” par « Le chirurgien a demandé à sa collègue de lui donner un scalpel. »

Là encore, le genre n’est pas inconnu puisque j’ai indiqué à deux reprises qu’il s’agissait d’une femme. Toutefois, la machine considère que le spécialiste est un homme et que le collègue est une femme. Google Traduction propose la même solution, tandis que pour DeepL, les deux protagonistes sont des hommes.

Il est donc clair que l’ensemble des moteurs de traduction automatique reproduisent des clichés, et que, depuis l’article d’Estelle Peuvion mentionné précédemment, la situation n’a pas réellement évolué.

Pour terminer, j’ai choisi un exemple simple en me mettant à la place d’une touriste qui désire prendre un repas dans un restaurant.

Ici, la machine nous propose un faux sens. En retraduisant vers le français, le texte obtenu signifierait : « Bonjour, voudriez-vous savoir si vous mangez encore ? », ce qui est loin de notre texte source d’origine. La traduction correcte en anglais aurait été “Hello, I would like to know if you are still serving food?”. On constate que l’outil peut donc commettre des erreurs, même pour des questions simples que n’importe quel individu pourrait poser lors d’un séjour à l’étranger.

J’ai ici mis en exergue des erreurs qu’a commises la machine lorsque je l’ai testée, mais évidemment, cela n’arrive pas pour chaque phrase entrée par l’utilisateur. L’outil peut proposer des traductions correctes, toutefois, il est important de soulever les erreurs qu’il est susceptible de commettre pour savoir dans quelle mesure l’utiliser.

Aspects positifs et négatifs

S’offre à nous la possibilité de consulter l’historique récent de nos recherches en balayant l’écran vers le bas, ainsi que d’ajouter des traductions en favori qui seront enregistrées dans l’onglet Favorites en cliquant sur l’étoile.

Un dictionnaire est également intégré et accessible en touchant l’icône associée ou en appuyant directement sur un mot de la traduction proposée.

En outre, nous avons l’option de télécharger les langues que nous souhaitons pour pouvoir les utiliser en mode hors ligne, lors d’une absence de connexion Internet.

Lorsque le téléphone est incliné en mode paysage, l’outil permet de traduire des mots prononcés oralement en appuyant sur l’icône du micro. Si l’option de détection automatique est activée au préalable, l’outil reconnaîtra la langue parmi les deux sélectionnées et une voix lira automatiquement la traduction. Celle-ci pourra être réécoutée en appuyant sur l’icône de lecture (le symbole du triangle). L’icône de flèches en sens opposé permet, quant à elle, d’afficher la traduction proposée par l’outil en grands caractères blancs sur fond bleu.

Néanmoins, l’insertion de texte se fait uniquement en mode portrait, l’utilisation du micro étant requise en mode paysage.

L’app est gratuite mais uniquement accessible aux utilisateurs d’Apple propriétaires d’un iPhone avec la version iOS 14 ou une version ultérieure, elle ne détecte pas automatiquement les langues, et il se peut qu’elle commette des erreurs de traduction majeures.

Conclusion

Traduire s’avère particulièrement utile pour les personnes possédant un iPhone. À portée de main, cette application intégrée au smartphone permet de communiquer assez facilement dans une langue qu’on ne maîtrise guère, en voyage à l’étranger ou tout simplement en complément lorsqu’on désire en apprendre une nouvelle, et cela est d’autant plus vrai grâce au micro intégré. L’app est épurée, facile d’accès et simple d’utilisation.

Cependant, il faut se méfier des erreurs types des moteurs de traduction automatique, telles que la reproduction des stéréotypes, les contresens ou encore la non-traduction. Nous avons également vu que l’app peut fournir des traductions erronées, même pour des phrases simples.

Pour pouvoir être utilisée pour de la post-édition comme DeepL Pro par exemple, il faudrait que l’app soit disponible sur MacBook, ce qui n’est pas (encore) le cas, et qu’elle s’améliore sur les aspects négatifs mentionnés tout au long de cette analyse.

Évidemment, ce billet est basé en grande partie sur mon avis et mon expérience en tant qu’utilisatrice de l’application et étudiante en traduction. Des études seraient nécessaires pour mesurer le taux d’erreurs de l’outil et il faudrait les comparer avec celles réalisées jusqu’à présent pour les autres moteurs de traduction automatique. Il s’agit d’une application prometteuse, utile pour les particuliers, mais qui est pour l’instant loin d’être suffisante pour les professionnels de la traduction dans un contexte de post-édition. L’app Traduire ayant été introduite récemment, gardons toutefois à l’œil ce qu’Apple lui réserve, d’autant plus que peu d’éléments sont dévoilés à son sujet, comme le type de corpus qui la constitue et son degré de confidentialité.

Les images de ce billet sont des captures d’écran réalisées par mes soins via l’application pour iPhone ‘Traduire’, propriété d’Apple.

Sources :

App Store. « ‎Traduire ». https://apps.apple.com/fr/app/traduire/id1514844618

Apple Support. « How to Use Translate on Your IPhone », 16 septembre 2020. https://support.apple.com/en-us/HT211671

Apple Support. « Traduire du texte et des voix sur l’iPhone ». https://support.apple.com/fr-fr/guide/iphone/iphd74cb450f/ios

Apple Support. « Utiliser Traduire sur votre iPhone », 29 octobre 2020. https://support.apple.com/fr-fr/HT211671

« Containment Phase “Unlikely to Work on Its Own” ». BBC News, 9 mars 2020. https://www.bbc.com/news/av/uk-51809498

Innocente, Florian. « iOS 14 : « Traduire », l’app d’Apple pour les vacances à l’étranger ». iGeneration, 27 juin 2020. https://www.igen.fr/ios/2020/06/ios-14-une-app-traduire-pour-les-francais-mauvais-en-langues-etrangeres-115921

« Instruction d’utilisation Fisher-Price STRIDE-TO-RIDE WALKER 73499 ». Manualsbase.com. https://www.manualsbase.com/fr/manual/640474/baby_walker/fisher-price/stride-to-ride_walker_73499/

Loock, Rudy. Cours de recherche en traduction automatique dispensé en Master 2 de Traduction spécialisée multilingue à l’Université de Lille.

Peuvion, Estelle. « Traduction automatique : les algorithmes ont-ils des préjugés ? » MasterTSM@Lille (blog), 10 novembre 2019. https://mastertsmlille.wordpress.com/2019/11/10/traduction-automatique-les-algorithmes-ont-ils-des-prejuges/

Turcan, Marie. « iOS 14 est disponible : voici toutes les nouveautés sur votre iPhone ». Numerama, 17 septembre 2020. https://www.numerama.com/tech/632269-ios-14-toutes-les-nouveautes-a-venir-sur-iphone.html

Van der Vorst, Sarah et Pacinella, Quentin. Cours de traduction automatique et post-édition dispensé en Master 2 de Traduction spécialisée multilingue à l’Université de Lille.

Traduction automatique : nouvelle alliée des étudiants en traduction ?

Par Marisa Dos Santos, étudiante M2 TSM

Bien que son utilisation, ou non, reste un choix personnel, on ne peut plus nier aujourd’hui l’utilité de la traduction automatique pour les traducteurs. De plus en plus présente, on sait qu’elle inquiète certains professionnels du marché, mais également les futurs diplômés en traduction. Quel étudiant (ou professionnel d’ailleurs) n’a jamais entendu une fois dans sa vie quelqu’un lui dire « Ah oui mais tu sais, dans dix-quinze ans tu n’auras plus de travail… Je le sais moi, j’ai utilisé Google traduction la semaine dernière, c’est top ce truc, ça marche super bien ! » ? Premièrement, pas d’inquiétude : si l’on écoutait tous les détracteurs du métier, la traduction automatique aurait dû nous évincer il y a déjà de ça 50 ans.

Ensuite, le métier de traducteur, eh bien oui, il évolue comme bien d’autres métiers. Et surprise : lui aussi doit s’adapter aux avancées technologiques. Alors, depuis quelques années, un nouveau nom de métier est apparu et commence tout doucement à faire son nid : celui du post-éditeur. L’apparition de ce genre de nouveaux métiers demande au traducteur d’être constamment à l’affut des nouveautés et des actualités du marché. Mais alors, qu’en est-il des étudiants en traduction ? Peuvent-ils réellement atteindre ce principe de « MT literacy » selon lequel un universitaire devrait, entre autres, savoir dans quel contexte utiliser ou non la traduction automatique, pratiquer correctement la pré-édition afin que la traduction machine soit de meilleure qualité ou encore post-éditer efficacement les productions de la traduction automatique afin que le texte final soit de qualité optimale ?

Les chiffres clés de la traduction automatique

La traduction automatique a fait son apparition sur le marché du grand public dans les années 1980 sous la forme de traduction automatique à base de règles. Rapidement, l’intérêt pour cette nouvelle technologie s’est développé et de grandes avancées ont été accomplies, pour arriver au lancement de la traduction statistique dans les années 2000. Cette technologie fonctionnait déjà bien mieux que la précédente, mais est arrivée en 2015 la fameuse traduction automatique neuronale, celle qui a bouleversé le marché et qui effraie ou fascine tant de personnes.

En effet, ce nouveau modèle de traduction utilise des réseaux neuronaux pour produire des traductions très similaires aux traductions humaines. Décriée par certain, adulée par d’autres, elle est au centre du débat traductologique ces dernières années. Elle occupe une place de plus en plus importante dans le marché du travail, et ce n’est pas près de s’arrêter. En effet, d’après l’enquête European Language Industry Survey menée en 2020, 78 % des sociétés de services linguistiques participant à ladite enquête prévoient de commencer ou d’augmenter l’utilisation de la traduction automatique et de la post-édition au sein de leur structure. Alors pour beaucoup de professeurs, il est impératif que les étudiants en traduction soient formés à ces nouvelles disciplines afin de ne pas se retrouver perdus une fois dans le marché.

Qu’en pensent donc les étudiants ?

De nombreux chercheurs se sont penchés sur les capacités de post-édition d’étudiants n’ayant jamais pratiqué la matière ou à qui elle n’avait jamais été enseignée, ainsi que sur leurs ressentis face à cette nouvelle tâche. Leur but était de savoir comment enseigner la traduction automatique et en conséquence, la post-édition, et de comprendre si ces deux disciplines représenteraient une réelle aide, voire un réel atout, pour eux. Pour ce faire, nombre d’entre eux ont alors demandé à leurs étudiants de post-éditer un texte et ont ainsi analysé différents paramètres. Certains élèves ont été amenés à répondre à des questionnaires pré-test, et généralement, les résultats étaient plutôt similaires.

Les étudiants qui prenaient part aux études estimaient généralement qu’ils ne se sentaient pas capables d’utiliser correctement la traduction automatique et de produire une post-édition convenable. Toutefois, en général, les étudiants ont jugé que la traduction automatique et la post-édition pouvaient leur permettre d’améliorer leur productivité bien qu’ils y voient des risques, qu’ils en aient peur ou qu’ils ne sachent pas l’utiliser. Ces résultats antérieurs aux tests prouvent que la traduction automatique et la post-édition font encore débat, même chez les étudiants et qu’il serait utile de lever leurs doutes lors de la formation universitaire.

Évaluation des besoins des étudiants

C’est exactement ce sur quoi se sont penchés plusieurs professeurs-chercheurs. Leur but : comprendre comment enseigner la traduction automatique et la post-édition afin que son enseignement soit vu comme une compétence à maîtriser plutôt que comme un simple outil technologique à appréhender. Alors certains professionnels, comme Sandrine Peraldi, ont mis en place des ateliers lors desquels les étudiants de master ont tenté d’évaluer les taux de réussite de plusieurs traducteurs automatiques afin de la proposer à un véritable client. Au travers de cette expérience, ils ont pu, entre autres, découvrir l’activité de post-édition et, grâce à quantification et classification des erreurs de la traduction automatique, d’évaluer les efforts cognitifs que leur demandait cette tâche. Ils ont ainsi réussi à proposer une solution de post-édition à leur client avec de véritables résultats.

Aussi, pour connaître les besoins des étudiants, d’autres professeurs ont adopté un mode de fonctionnement différent : ils ont tenté de voir si les étudiants arrivaient à reconnaître correctement les erreurs de la traduction automatique et comment les corrigeaient-ils. La plupart des résultats concordaient : les étudiants n’avaient, généralement, pas de mal à reconnaître les erreurs de syntaxe ou les erreurs très évidentes que produisait l’outil de traduction automatique, mais avaient quelques difficultés à reconnaître certaines erreurs typiques de la traduction automatique comme les calques et contre-sens, notamment avec les faux-amis.

Erreurs de correction

Pourquoi cela ? Eh bien, il y a diverses explications. Pour certains, c’est parce qu’ils font trop confiance à la machine, et ont donc tendance à laisser passer certaines erreurs. Cette confiance excessive les amène même à effectuer moins de modifications lors d’une post-édition que lors de la révision de leurs propres traductions. D’autres ont observé que les erreurs de la traduction neuronale étaient certes, moins nombreuses que celles de la statistique, mais plus dures à corriger et à repérer puisque très similaires aux erreurs humaines et étaient généralement les mêmes que faisaient naturellement les étudiants dans leurs traductions, à savoir les faux et contre-sens : elles passent donc souvent à la trappe. Pour d’autres, cela pouvait aussi être dû au fait que les étudiants se sentaient facilement débordés par la quantité d’information à traiter lors de cet exercice et ajoutaient même parfois des erreurs au texte. Lié à ce manque de concentration, plusieurs études ont révélé que lors d’une post-édition, le traducteur passera moins de temps à lire et à observer le texte source que lors d’une traduction humaine, alors même que dans le cas d’une post-édition complète, il faut autant prêter attention au texte source que pour une traduction sans traducteur automatique. Généralement, les étudiants ayant pris part à une expérience d’eye-tracking ont passé deux fois plus de temps à regarder le texte cible lors d’une post-édition que lors d’une traduction humaine.

Pour conclure, dans l’étude de Masaru Yamada de 2019, il a été démontré que même avec la traduction automatique neuronale, les étudiants ne réussissaient pas à atteindre le taux de 85 % d’erreurs corrigées demandé pour atteindre les standards de qualité professionnels.

Tous ces résultats prouvent qu’il est nécessaire pour les étudiants de connaître à l’avance quelles sont les erreurs les plus communes que produisent les outils de traduction automatique, qu’elle soit neuronale ou statistique, afin de correctement les repérer, les corriger plus facilement et être aptes à maîtriser et utiliser ces outils individuellement ou en modèle hybride. C’est donc un point que plusieurs chercheurs proposent d’aborder dans l’enseignement de ces disciplines.

Effort cognitif et retour des étudiants

Mais qu’en est-il de l’effort que demande une post-édition et du ressenti des étudiants face à cette discipline ?

Un phénomène a été observé dans plusieurs études : bien que parfois, le ressenti des participants puisse être contraire à ce postulat, la post-édition demande autant, si ce n’est plus, d’effort et de compétence que la traduction humaine. Certaines études ayant été menées avec comme texte de référence des textes spécialisés, il a parfois été démontré que la post-édition rendait même la tâche plus compliquée pour les étudiants, et qu’ils se retrouvaient perdus ou perdaient énormément de temps à détecter et corriger les erreurs de la machine, résultant en la production d’un texte qui n’atteignait pas du tout les standards de qualité professionnelle, surtout d’un point de vue stylistique.

Après les tests, certains étudiants ont déclaré avoir une meilleure perception des outils de traduction automatique, quand d’autres ont affirmé que leur vision avait empiré. Néanmoins, nombre d’entre eux ont avoué avoir peur de la traduction automatique car ils craignaient d’être remplacés.

Ces observations prouvent une fois de plus qu’il est impératif de considérer la traduction automatique et la post-édition comme des matières ayant toute leur place au sein d’un cursus en traduction et qu’il ne faut pas, ou plus, les mépriser, puisque sans formation préalable, les étudiants ont beaucoup de mal à produire un texte satisfaisant.

Conclusion

Cette année, au sein du master TSM, nous avons pu découvrir le processus de post-édition et nous avons appris à appréhender les outils de traduction automatique. Et je pense que grâce à cela, nous avons peut-être moins peur de la traduction automatique ou de la post-édition par rapport à des étudiants qui n’auraient jamais eu l’occasion de démystifier la traduction machine.

Il est donc possible de conclure que oui, la traduction automatique constitue une nouvelle alliée pour les étudiants en traduction, à condition qu’ils soient mis en garde des faiblesses des moteurs et qu’ils apprennent à les manier pour pouvoir répondre aux exigences du marché. La traduction automatique ne doit plus constituer une crainte pour l’avenir des futurs professionnels mais doit devenir un outil du quotidien leur permettant d’augmenter leur productivité. Il est également nécessaire de guider les professeurs lors de l’enseignement de ces matières afin qu’ils guident à leur tour les étudiants vers une meilleure identification des erreurs et par conséquent, une meilleure correction. Ce sont pour toutes ces raisons que la mise en place d’enseignements autour de ces disciplines est essentielle : il faut prouver aux élèves que la machine représente une aide pour leur futur métier plutôt qu’une menace.

Ce billet est issu d’une mini-conférence tenue aux côtés de Margaux Mackowiak dans le cadre du cours de recherche en traduction automatique de la deuxième année de master.

Sources :

EUROPEAN LANGUAGE INDUSTRY SURVEY (2020), https://ec.europa.eu/info/sites/info/files/2020_language_industry_survey_report.pdf

de Faria Pires, Loïc. (2020). Master’s students’ post-editing perception and strategies. FORUM. Revue internationale d’interprétation et de traduction / International Journal of Interpretation and Translation. 18. 24-44. 10.1075/forum.19014.pir, https://www.researchgate.net/publication/341408521_Master’s_students’_post-editing_perception_and_strategies/citation/download

Peraldi, Sandrine (2018). Les 12 travaux de la Traduction automatique. Journée d’études Traduction et qualité : « Biotraduction et traduction automatique ». / Université de Lille, https://tq2018.sciencesconf.org/data/pages/Lille_SPeraldi_Les_12_travaux.pdf

Yamada, Masaru. (2019). The impact of Google Neural Machine Translation on Post-editing by student translators. The Journal of Specialised Translation. 87-106. https://www.researchgate.net/publication/330831614_The_impact_of_Google_Neural_Machine_Translation_on_Post-editing_by_student_translators/citation/download

Sycz-Opoń, Joanna & Gałuskina, Ksenia. (2017). Machine Translation in the Hands of Trainee Translators – an Empirical Study. Studies in Logic, Grammar and Rhetoric. 49. 10.1515/slgr-2017-0012. https://www.researchgate.net/publication/316530023_Machine_Translation_in_the_Hands_of_Trainee_Translators_-_an_Empirical_Study/citation/download

O’Brien, Sharon & Ehrensberger-Dow, Maureen (2020). MT Literacy – A cognitive view. Translation Cognition & Behavior. 3. 145-164. 10.1075/tcb.00038.obr. https://www.researchgate.net/publication/345984536_MT_Literacy_-_A_cognitive_view

#TQ2020 Biotraduction et traduction automatique : retour sur la journée d’études Traduction et Qualité du 31 janvier 2020

 

Par Oriane Briand, étudiante M2 TSM

tq2020_site

 

Le laboratoire « Savoirs, Textes, Langage » du CNRS et l’UFR Langues Étrangères Appliquées de l’université de Lille ont organisé, pour sa 7e édition, une journée d’études consacrée à la biotraduction et à  la traduction automatique. Petit bilan du cru 2020.

L’année 2020 vient à peine de commencer, une décennie 2.0 pour cette journée d’études 2.0 elle aussi, puisque l’édition de 2018 était déjà dédiée à la traduction automatique (TA), aussi appelée traduction machine.

Le programme est chargé, l’amphithéâtre est bondé en cette belle journée de fin janvier. Cette journée a pour but de redéfinir le lien entre l’humain et la machine dans le monde de la traduction, un monde qui a en effet été chamboulé par l’arrivée de la traduction automatique neuronale. La journée se découpe en trois thématiques : traduction automatique et monde professionnel, traduction automatique et métiers de la traduction et enfin analyse de la traduction automatique. Dix intervenants se sont succédé sur l’estrade, universitaires comme professionnels, et ont tenté d’apporter leurs éléments de réponse.

La traduction automatique neuronale (TAN) a fait son apparition vers le milieu des années 2010. Auparavant, d’autres systèmes étaient utilisés comme la traduction automatique statistique (TAS). Alors que pouvons-nous attendre de la TAN et comment pouvons-nous l’utiliser comme un outil pour le traducteur, et non plus le voir comme une menace, comme elle est souvent perçue ?

Le fonctionnement de la TAN n’est pas évident pour tout le monde. Les algorithmes utilisés sont complexes et mystérieux. Et pourtant, elle est partout. Elle est utilisée par des millions de personnes tous les jours et fait partie intégrante de notre quotidien comme de notre environnement de travail. Mais quelle posture faudrait-il adopter face à ce trop-plein d’intelligence artificielle ?

Tout d’abord, il faut comprendre ce qu’est la traduction automatique neuronale et surtout, connaître ses points forts et ses points faibles. Car c’est en connaissant la machine avec laquelle nous travaillons que nous pouvons en retirer le meilleur. Par exemple, la TAN est capable de produire des sorties de textes fluides, ce qui peut parfois nous  tromper et donner l’illusion d’un texte bien traduit. Or, cette fluidité se fait, par exemple, au détriment de la terminologie. C’est lorsqu’on se penche sur le résultat qu’on se rend compte que le texte produit est incorrect. C’est pour cette raison que l’utilisation de la TAN ne peut se faire sans une intervention humaine, et, si cela peut vous rassurer, ne peut supplanter le traducteur comme on peut le penser. Mais comme pour chaque nouvelle avancée technologique, il faut se former et former les générations futures. Ainsi, enseigner de manière raisonnée l’utilisation de ce nouvel outil est crucial.

Aujourd’hui, l’intervention humaine face aux résultats de productions machine existe déjà. C’est le métier de post-éditeur. Lorsque nous regardons le marché de la traduction, il existe une certaine segmentation. Chacun son rôle et les moutons sont bien gardés. Mais l’émergence des nouvelles technologies (re)pose la question de l’organisation et de la gestion du projet de traduction. Par exemple, le post-éditeur ne pourrait-il pas être plus qu’un simple post-éditeur ? Il semble logique de demander son expertise à quelqu’un qui s’y connaît, qui est sur le terrain. Alors pourquoi ne pas faire appel aux connaissances et à l’expérience de quelqu’un qui travaille avec le contenu. Il est alors possible de redéfinir ce rôle et de l’impliquer à chaque étape du projet, que ce soit dans l’analyse de celui-ci (il peut estimer les délais, définir le processus le plus adapté…) ou dans ses étapes techniques. Il est important de redéfinir le rôle du post-éditeur dans les projets de TA, mais également redéfinir la gestion de ces projets. Chaque projet est unique, les résultats de TA sont variables tout comme l’effort de post-édition qui suit, et le post-éditeur ne peut qu’ajouter une plus-value.

Car la TAN n’est pas parfaite,  aujourd’hui encore, on tente de la décrypter. Il est important de comprendre ses faiblesses, mais également d’évaluer ce qu’elle produit. Il existe plusieurs méthodes. Quelques exemples :

  • La méthode BLEU, qui consiste à comparer une sortie machine avec une traduction humaine de référence
  • L’observation du système en le manipulant : modifier le texte source et observer si le texte cible se modifie en changeant les temps, les modes, les adjectifs, etc., et son inverse.
  • La dissection du système en ouvrant sa boite noire : interroger celle-ci pour tenter de prédire le résultat.
  • L’évaluation humaine : classement des résultats (par des professionnels ou non), identification et classement des erreurs.

Plusieurs études ont prouvé un gain de temps dans l’utilisation de la post-édition de traduction automatique neuronale, mais il est possible d’améliorer ses sorties de traduction en y incorporant de meilleures données d’apprentissage. Par exemple, une manière d’améliorer ce problème de terminologie serait d’incorporer des séries de textes spécialisés. Y incorporer ses propres corpus semble pour le moment compliqué, car les systèmes sont basés sur l’optimisation des algorithmes. Or, y incorporer ces données ferait baisser ce score d’optimisation. Il faudrait alors repenser le système et lui injecter ces connaissances dès le début de processus.

Comme vous pouvez l’avoir constaté, la traduction automatique neuronale génère de nombreuses questions et suscite un intérêt dans le monde de la traduction. Ses progrès ne semblent pas près de s’arrêter et en parler permet de découvrir de nombreux angles d’approche qui se complètent. Une approche raisonnée et scientifique permet de poser un regard critique sur la machine, et de réconcilier peut-être ce qui ne semblait pas être un couple évident : l’humain et la machine.

 

Un grand merci à Joss Moorkens, Caroline Rossi, Nathalie de Sutter, Geert Benoit, Guillaume Deneufbourg, Sarah van der Vorst, François Yvon, Hanna Martikainen, Orphée De Clercq et Rudy Loock, ainsi qu’à l’université de Lille en partenariat avec le laboratoire « Savoirs, Textes, Langage » du CNRS et l’Association française des formations universitaires aux métiers de la traduction (AFFUMT).

 

La #TQ2020 a été filmée, vous pourrez la visionner dès cette semaine sur la webTV de l’université de Lille et sur le site dédié à cette journée.

BLEU, un algorithme qui calcule la qualité des traductions machine

Par Loréna Abate, étudiante M2 TSM

De nos jours, la traduction machine occupe une place très importante sur le marché de la traduction, et fait couler beaucoup d’encre. Si vous êtes intéressés par le secteur de la traduction machine, il se peut même que vous ayez déjà entendu parler des métriques d’évaluation permettant d’évaluer la qualité des traductions machine. Classer les différents systèmes ou métriques d’évaluation peut donc s’avérer pertinent. Alors, qu’en est-il de ces systèmes d’évaluation ? Eh bien, il en existe une multitude. En effet, on trouve sur le marché les métriques BLEU, ROUGE, METEOR, NIST, WER, etc.

Pour ne pas finir par rédiger un mémoire de 120 pages, il fallait donc faire un choix. Dans ce billet, nous ferons un focus sur l’algorithme BLEU. Pourquoi BLEU, me direz-vous ? Car cette métrique, élaborée et développée en 2002 par Kishore Papineni pour la société IBM, est aujourd’hui l’une des métriques automatisées les plus populaires et les moins coûteuses.

BLEU permet d’attribuer un score à une traduction machine grâce à un système de mesure reposant sur des morceaux de phrases. Ces parties sont appelées « N-grammes », et leur fréquence est également évaluée à l’aide d’une comparaison entre un texte source et un texte cible. Je vous ai perdus ? Accrochez-vous, la suite de l’article arrive.

A background of rippled and folded deep royal blue fabric material.

Pas évident de dénicher une image agréable à regarder sur un sujet si théorique… Vous vous contenterez donc de ce joli bleu roi.

Dis-moi Jamy, qu’est-ce que BLEU ?

BLEU, acronyme pour Bilingual Evaluation Understudy, est en fait une mesure des différences entre une traduction machine et une ou plusieurs traductions de référence créées par l’humain pour une même phrase source. BLEU part donc du postulat que plus une traduction machine se rapprochera d’une traduction humaine et professionnelle, plus elle sera qualitative.

Une fois ces comparaisons réalisées, un score est attribué pour chaque phrase traduite. Puis, une moyenne est calculée sur l’ensemble du corpus afin d’estimer la qualité globale du texte traduit.

Le score BLEU se définit par un nombre compris entre 0 et 1 qui indique la similitude du texte dit « candidat » par rapport aux textes de « référence ». Tout se joue au niveau du nombre de correspondances. En effet, plus le score se rapproche de 1, plus les textes sont similaires. Une valeur égale à 0 indiquerait que la traduction automatique ne correspond en rien à la traduction de référence et serait donc de mauvaise qualité, tandis qu’un score égal à 1 signalerait une correspondance parfaite avec les traductions de référence et serait ainsi de bonne qualité.

Intéressant comme outil, comment ça fonctionne ?

Formation littéraire oblige, nous n’avons pas revu les exponentielles depuis le lycée (et j’en fais encore des cauchemars…) je vous épargne donc les explications de sa formule mathématique qui n’est pas des plus simples :

123

… vous voyez, l’image bleue du début n’était pas si mal.

 

Bref, voici quelques éléments nécessaires à la génération d’un score BLEU :

  • Une ou plusieurs traductions de référence humaine, qui devraient être inconnues du développeur du système de TA
  • Un texte d’au moins 1 000 phrases dans le but d’obtenir une mesure plus pertinente,
  • Si le texte candidat est jugé trop court par rapport à la référence, une pénalité de concision est appliquée sur la traduction,
  • La correspondance de « n-grammes », qui consiste à compter le nombre d’unigrammes (mot unique), de bigrammes (paire de mots), de trigrammes et de quadrigrammes (i = 1,…, 4) qui correspondent à leur équivalent de n-grammes au sein des traductions de référence. Les unigrammes permettent de calculer l’exactitude, tandis que les n-grammes plus longs rendent compte de la fluidité de la traduction.

En pratique, il est impossible d’obtenir un score parfait de 1, et ce, même pour un traducteur humain (à moins d’avoir une traduction mot pour mot identique à la traduction de référence). À titre d’exemple, sur un corpus d’environ 500 phrases, un traducteur humain a obtenu une note de 0,346 8 contre quatre références et de 0,257 1 contre deux références.

Un exemple, peut-être ?

Si l’on prend cette phrase simple : « Le renard brun et rapide sauta sur le chien paresseux », comment l’auriez-vous traduite ?

  1. The quick brown fox jumped over the lazy dog
  2. The fast brown fox jumped over the lazy dog
  3. The fast brown fox jumped over the sleepy dog

Si je vous dis que la traduction de référence est « The quick brown fox jumped over the lazy dog », voyons voir votre score BLEU :

  1. On obtient alors un score de… ? Oui, c’est bien ça, 1,0. Vous voyez, ce n’est pas si compliqué !
  2. En remplaçant le mot « quick » par le mot « fast », votre score chute alors à 0,750.
  3. Cette fois-ci, deux mots sont différents… Désolée, mais vous n’obtenez que 0,48.

Avec cet exemple simple, vous avez d’ores et déjà un aperçu du système de notation. Voici un deuxième cas de figure :

  • Si tous les mots sont différents sur le texte candidat, on obtient le pire score possible: 0,0.
  • Si le texte candidat comporte moins de mots que le texte de référence, mais que les mots sont tous corrects, le score est alors très semblable au score obtenu avec un seul mot différent, à savoir : 0,751.
  • Et avec deux mots de plus que le texte de référence ? À nouveau, nous pouvons voir que notre intuition était la bonne et que le score est équivalent à celui qui comporte deux mots erronés, à savoir: 0,786.
  • Enfin, prenons l’exemple d’une phrase qui serait trop courte en comportant seulement deux mots. L’exécution de cet exemple entraînerait d’abord l’apparition d’un message d’avertissement indiquant que l’évaluation portant sur les trigrammes et quadrigrammes ne peut pas être effectuée, puisque nous n’avons que les bigrammes avec lesquels travailler pour le candidat. Au-delà de cela, nous risquerions d’obtenir un score très bas : 0,030.

Est-ce pour autant suffisant pour évaluer la qualité ?

« Most of us would agree that competent human evaluation is the best way to understand the output quality implications of different MT systems. However, human evaluation is generally slower, less objective and more expensive, and thus may not be viable in many production use scenarios, where multiple comparisons need to be made on a constant and ongoing basis. » (Kirti Vashee, 2019, Understanding MT Quality)

La traduction automatique est un défi particulièrement difficile pour l’IA. Les ordinateurs sont amateurs de résultats binaires. Vous savez tout autant que moi que la traduction, c’est tout l’inverse. Quel choix de traduction serait plus correct qu’un autre ? Difficile à dire. En effet, il peut y avoir autant de traductions correctes qu’il y a de traducteurs et, par conséquent, l’utilisation d’une seule référence humaine pour mesurer la qualité d’une solution de traduction automatisée pose problème.

Vous l’aurez compris, on en revient au même problème que pour la traduction neuronale, mais ici cela devient encore plus complexe, car c’est une machine qui juge une machine. Une vraie machineception.

Le problème avec BLEU…

Les scores BLEU ne reflètent en effet que les performances d’un système sur un ensemble spécifique de phrases sources et les traductions de référence sélectionnées pour l’évaluation. Puisque le texte de référence pour chaque segment n’est évidemment pas la seule traduction correcte et « de qualité », il arrive fréquemment de mal noter (« scorer ») de bonnes traductions. On peut donc dire que ces scores ne reflètent pas systématiquement le rendement potentiel réel d’un système.

Bien que l’objectif de BLEU soit de mesurer la qualité globale de la traduction, le résultat que l’on obtient est plutôt une mesure de la similitude entre deux chaînes de caractères dans un texte. Considérée par certains comme une mesure fiable de la qualité, la majeure partie des experts considèrent que les scores BLEU seraient plus précis si les comparaisons étaient faites au niveau du corpus entier plutôt qu’à chaque phrase. Ainsi, on remet en question la performance de cet outil qui n’a en réalité aucune « intelligence » linguistique qui lui permettrait d’évaluer la qualité d’une traduction machine.

Un système critiqué, et pour cause !

BLEU ne prend pas en compte le sens

Texte original : J’ai mangé la pomme.

Traduction de référence : I ate the apple.

Si l’on en croit BLEU, les trois traductions suivantes, ayant obtenu le même score, seraient aussi mauvaises les unes que les autres :

  1. I consumed the apple.
  2. I ate an apple.
  3. I ate the potato.

Pourtant, la troisième traduction n’a rien à voir avec le sens du texte original, à savoir J’ai mangé la pomme.

BLEU ne prend pas en compte la structure des phrases

Une phrase complètement absurde, avec des mots « corrects », mais simplement placés dans un ordre aléatoire est susceptible d’obtenir un score élevé !

BLEU gère mal les langues « riches » morphologiquement

La métrique BLEU ne fait pas la distinction entre le contenu et les mots-outils. Par exemple, la pénalité liée à l’omission d’un mot-outil tel que « un » est identique à la pénalité appliquée en cas de remplacement du terme « NASA » par « ESA ».

BLEU ne correspond finalement pas tant à une évaluation humaine

Avant le calcul du score BLEU, les traductions de référence et les traductions automatiques doivent être normalisées et « tokenisées », ce qui affecte considérablement le score BLEU final.

En bref…

Le score BLEU, quoiqu’imparfait, offre certains avantages : rapide et peu coûteux à calculer, facile à comprendre *hum hum*, indépendant de la langue, très proche d’une évaluation humaine, cette métrique a largement été adoptée ces vingt dernières années.

Malgré ses imperfections, BLEU est un outil utile et prometteur, et demeure encore aujourd’hui une mesure de référence pour tous les développeurs de traduction automatique. Pour preuve, dans son concours annuel des outils de TA, le NIST (National Institute of Standards & Technology) a choisi d’utiliser BLEU comme indicateur approximatif de la qualité.

Le BLEU « idéal » serait un système dans lequel seraient prises en considération toutes les propriétés linguistiques fondamentales, telles que la structure de la langue, la cohérence, le style d’écriture, le contenu, l’organisation, l’exactitude des propos… À l’heure actuelle, le seul moyen d’obtenir d’excellents résultats est d’associer les métriques automatiques à une évaluation humaine et unilingue.

Sources

Sources en anglais

Sources en français

Parce que cet article vous a passionné…

Traduction automatique : les algorithmes ont-ils des préjugés ?

Par Estelle Peuvion, étudiante M2 TSM

traductionautomatique

Depuis plusieurs années, la traduction automatique connaît des avancées spectaculaires. La traduction neuronale s’impose de plus en plus face à la traduction statistique. Résultat : les moteurs de traduction machine sont capables de traiter de longues phrases, voire des textes complets, en respectant la grammaire, la syntaxe, et en conservant la cohérence terminologique. Certains moteurs de traduction automatique traduisent (presque) aussi bien que les traducteurs humains et de nombreuses entreprises n’hésitent plus à recourir à leurs services pour traduire leurs sites et leurs produits. Cependant, ces résultats remarquables connaissent leurs limites. En effet, les algorithmes sur lesquels reposent ces moteurs de traduction reproduisent en quelque sorte la manière de traduire des humains, mais ne risquent-ils pas de reproduire également nos aspects les plus négatifs ?

Reproduction des préjugés

La réponse est oui : les moteurs de traduction automatique reproduisent les préjugés (sexistes, racistes…) des humains. Cela a été démontré, et nous pouvons le vérifier par nous-même, en quelques clics seulement.

L’exemple le plus flagrant est celui des professions, notamment lorsque l’on traduit d’une langue qui n’a pas de genre lexical vers une langue qui en a. Les femmes sont communément associées aux professions artistiques, aux métiers de soins (infirmière, sage-femme…), au foyer, alors que les hommes sont associés aux professions scientifiques, politiques, et plus globalement aux postes « importants »: le moteur de traduction machine va, dans la majorité des cas, reproduire ces clichés.

Depuis plusieurs années, de nombreux internautes recensent les « dérapages » des moteurs de traduction automatique, et les exemples ne manquent pas. Sur Google Translate, incontournable de la traduction machine, il est facile de se retrouver face à des phrases reprenant des préjugés sexistes. En tapant « The engineer is from Germany », le logiciel nous propose automatiquement « L’ingénieur est allemand. » En revanche, lorsque l’on remplace engineer par nurse, nous obtenons « L’infirmière est allemande »…

Au-delà de ces observations simples, qui peuvent être formulées par n’importe qui, des scientifiques ont également étudié plus en profondeur ce phénomène et sont arrivés aux mêmes conclusions.

Des chercheurs des universités de Princeton et de Bath ont étudié la technologie GloVe, développée par l’université de Stanford, qui calcule les associations entre les mots. GloVe est entraîné à partir du corpus Common Crawl, qui regroupe plusieurs milliards de textes venant du web et est utilisé pour la traduction machine. Les chercheurs ont conclu que le programme GloVe associait très bien les mots, mais ils ont aussi remarqué des dérives racistes et sexistes : les personnes afro-américaines étaient associées à des mots bien plus négatifs que les personnes blanches, et les noms de femmes étaient liés à la famille, alors que les noms masculins étaient associés à la vie professionnelle.

À l’université de Washington, trois chercheurs ont étudié les préjugés sexistes dans la traduction machine (Evaluating Gender Bias in Machine Translation) et ont fait une découverte « amusante ». Ils ont constitué des phrases comprenant deux professions, une communément associée aux hommes et une associée aux femmes. Ils ont féminisé la profession masculine à l’aide d’un pronom ajouté plus loin dans la phrase, et ont laissé une ambiguïté quant à la profession féminine.

Par exemple, dans la phrase « The doctor asked the nurse to help her in the procedure », la profession de médecin a été féminisée grâce au pronom her, et la profession d’infirmier/infirmière est neutre. L’expérience avait deux objectifs : voir si doctor était bien féminisé, et voir si nurse était mis au masculin ou au féminin. Dans la majorité des cas, doctor était au masculin, nurse au féminin et le pronom her était traduit par un pronom féminin dans la langue cible, ce qui changeait le sens de la phrase !

Les chercheurs ont donc tenté d’ajouter un adjectif associé aux femmes au mot doctor, et dans ce cas, doctor était féminisé. Si nous reprenons l’exemple cité plus-haut et rajoutons l’adjectif pretty devant engineer, Google Translate nous propose « La jolie ingénieure est allemande ». En revanche, si l’on remplace pretty par courageous, l’ingénieur redevient un homme ! Conclusion : dans cette expérience, le cliché sexiste a été dépassé par l’ajout d’un autre cliché sexiste.

Comment expliquer ce phénomène ?

Pourquoi donc les moteurs de traduction automatique reproduisent-ils nos préjugés ? Les chercheurs ayant étudié cette problématique ont plusieurs réponses à nous offrir.

Les moteurs de traduction automatique sont basés sur des corpus parallèles et monolingues : des textes en langue cible et des traductions. Ces textes se comptent par millions voire par milliards pour certains moteurs de traduction, et ils proviennent du web dans la majorité des cas. Par conséquent, il est tout simplement impossible de contrôler chacun des textes composant le corpus : cela demanderait trop de main-d’œuvre et de temps. Voilà la première explication à notre problème : les données qui permettent aux moteurs de traduction automatique de nous proposer des traductions fluides, quasi-parfaites dans certains cas, proviennent du web. Ce sont des données que nous, humains, produisons, et nous produisons forcément des données affectées par nos préjugés, que nous le voulions ou non.

Prenons par exemple le corpus utilisé par le site de traduction Reverso Context : il contient des textes provenant de domaines différents, et notamment des sous-titres de films et de séries. Une particularité qui a amené le site à proposer début 2019 des résultats de traduction antisémites, racistes et sexistes. Le fondateur de l’outil s’est excusé et a expliqué que ces résultats pouvaient provenir de films et de séries, et qu’il était difficile de contrôler un corpus aussi conséquent.

De plus, la majorité des moteurs de traduction fonctionnent grâce au word embedding, une technique d’apprentissage automatique qui représente les mots ou phrases d’un texte par des vecteurs de nombres réels. La représentation vectorielle d’un mot représente son « contexte », c’est-à-dire les mots, expressions et phrases qui entourent le plus souvent ce mot.

Il est donc tout à fait logique que les moteurs de traduction reproduisent nos préjugés : ils utilisent nos textes, apprennent nos langues. Ils apprennent aussi les associations culturelles et historiques qui nous mènent à avoir ces préjugés.

La seconde explication se trouve entre les corpus et le processus de traduction en lui-même : les algorithmes. En effet, les concepteurs de ces algorithmes sont en majorité des hommes, blancs, il est donc possible qu’ils prêtent moins attention à la manière dont seront traitées certaines problématiques par l’algorithme.

Lutter contre les « préjugés » de la traduction automatique

Maintenant que nous connaissons l’origine de ce phénomène de reproduction des préjugés sexistes, nous pouvons réfléchir à des solutions.

Les entreprises ayant conçu les principaux moteurs de traduction automatique, et qui utilisent l’intelligence artificielle, se trouvent en première ligne de cette lutte. La majorité d’entre elles ont conscience du problème et ces dernières années, elles ont commencé à proposer des solutions.

Facebook a annoncé il y a quelques mois la création d’un outil servant à trouver les biais dans les algorithmes, « Fairness Flow ». L’outil sera normalement capable de déterminer si un algorithme reproduit les préjugés ; il est pour l’instant en développement.

Récemment, Google Translate a admis avoir proposé des traductions aux préjugés sexistes. Suite à cette annonce, le moteur de traduction prendra en compte le genre grammatical dans les traductions. En proposant un nom neutre en anglais, on peut obtenir deux traductions en français, le féminin et le masculin. Cependant, cette nouvelle fonctionnalité est pour l’instant restreinte à certaines langues et à un certain nombre de mots.

La modification de la langue pourrait également être une solution : par exemple, un pronom neutre a été introduit dans la langue suédoise. Néanmoins, ce genre de modification représente un vrai défi : comment inciter des locuteurs d’une langue à changer de manière radicale leur utilisation de la langue ? De plus, le remplacement des corpus actuels prendrait un temps considérable, et les effets ne seraient pas visibles immédiatement.

L’amélioration des corpus semble être un axe évident dans la résolution de ce problème. Trois chercheurs des universités de Dublin et d’Uppsala (Getting gender right in neural machine translation) ont mené une enquête et ont tenté d’atténuer la reproduction des préjugés sexistes dans la traduction automatique. Ils ont taggué le corpus utilisé par le moteur de traduction et y ont introduit des tags genrés, pour plusieurs paires de langues, aussi bien pour les accords que pour le style et le vocabulaire. Ils ont vu dans les traductions proposées des améliorations significatives, en particulier pour les accords. Cependant, ils ont noté un manque de cohérence dans certaines traductions.

Nous pouvons donc améliorer les corpus en changeant la façon dont nous les utilisons (grâce aux tags, par exemple), mais également en privilégiant les textes avec une écriture non-sexiste.

La diversification des équipes qui conçoivent les algorithmes représente également une idée de résolution du problème, afin qu’elles puissent plus facilement se rendre compte des préjugés reproduits par l’intelligence artificielle.

Enfin, la solution qui serait évidemment la plus efficace, serait que la société change et que tous nos préjugés disparaissent. Malheureusement, c’est un objectif difficile à atteindre, mais nous, traducteurs et traductrices, pouvons apporter notre pierre à l’édifice. Utiliser l’écriture inclusive (quand nous en avons la possibilité), encourager l’amélioration des moteurs de traduction automatique, prêter attention au vocabulaire que nous utilisons, voilà des pistes simples que nous sommes tous et toutes aptes à suivre.

 

Bibliographie :

J’ai testé pour vous eTranslation !

Par Céline Gherbi, étudiante M2 TSM

 

Si j’ai choisi d’intégrer le master TSM pour me former aux métiers de la traduction, c’est en grande partie parce qu’il me permet non seulement de me perfectionner dans mes langues de travail que sont le français, l’anglais et l’espagnol, mais également parce qu’il est au fait des nouveaux outils qui affluent sur le marché et offre donc une formation en phase avec son temps. Et bien entendu, aujourd’hui, la révolution ne se situe plus dans la traduction assistée par ordinateur, mais bien dans la traduction automatique et plus précisément, la traduction automatique de type neuronale. Nous avons donc testé pour vous l’outil de la Commission européenne : eTranslation !

 

etranslation1

Qu’est-ce que c’est ?

eTranslation est la plateforme de traduction automatique neuronale de la commission européenne créée à partir de la mémoire de traduction Euramis qui contient le travail des traducteurs des institutions européennes, c’est-à-dire une base de données d’environ 1 milliard de phrases dans les 24 langues de l’Union. Comprenez donc que si vous devez traduire un catalogue de décorations de Noël en japonais, cet outil ne pourra rien pour vous, en revanche, si vous êtes traducteur juridique et que vous traduisez vers une langue européenne, c’est sans doute l’outil à vous procurer absolument. Pour cela vous devrez vous créer un compte sur le site EU Login et faire une demande officielle par courrier électronique auprès de la commission dans lequel vous devrez indiquer pour quel organisme vous travaillez, votre poste ainsi que votre signature électronique complète. En effet, seuls les fonctionnaires travaillant pour l’Union européenne ou dans un organisme national ont accès à cet outil en ligne. En revanche, si vous êtes simple citoyen, cela risque d’être plus compliqué. Toutefois, cette démarche d’enregistrement permet une plus grande sécurité pour vos fichiers dont la confidentialité est assurée puisqu’ils ne viennent pas nourrir la mémoire de traduction.

Comment ça marche ?

Son interface, accessible dans toutes les langues de l’UE, est simple, ergonomique et sobre. Elle est donc facile d’utilisation : il vous suffit de cocher les options qui vous sont proposées. Avant toute chose, vous pouvez paramétrer vos préférences par défaut, choisir par exemple la langue de l’interface ainsi que la page d’accueil ou encore vos langues de travail habituelles.

etranslation2

Pour commencer, le logiciel vous propose de traduire soit des documents, soit un texte que vous devrez taper ou copier/coller.

etranslation3

Voyons d’abord comment l’outil se comporte avec des documents.

etranslation4

Vous pouvez lui faire traduire jusqu’à 10 documents en même temps, simplement en les sélectionnant puis en les glissant sur la page. Un des gros points forts du logiciel est qu’il prend en charge de nombreux formats : Word, Excel, PowerPoint, PDF, OpenOffice, html, mais également des formats liés aux outils de traduction tels que des .xliff, .sdlxliff, .tmx et bien d’autres encore. La taille des fichiers quant à elle ne doit pas dépasser les 10 Mo.

Vous devez ensuite choisir votre langue source, qui doit être la même pour tous les documents, puis la ou les langues cibles.

Par ailleurs, il vous faut spécifier le domaine, ou plus précisément, le corpus avec lequel la machine travaillera. C’est de cela que dépendra la qualité de la traduction. Pour un texte plutôt général, préférez « cutting edge », qui est le moteur neuronal qui rassemble toutes les données de la commission, en revanche si vous avez un texte économique à traduire du français vers l’anglais, vous pouvez plutôt vous tourner vers un moteur plus spécialisé comme celui du Ministère des Finances. Ces derniers sont au nombre de 9, toutefois, ils ne prennent pas en charge toutes les paires de langues contrairement au cutting edge ou au Legacy MT@ec, qui n’est autre que l’ancien outil de traduction automatique de la commission.

La prochaine option à choisir concerne le format de sortie et là encore une belle surprise nous attend… En effet, vous pouvez récupérer votre document dans un format identique ou similaire en cochant la case « Identique à la source ». Notez que si vous demandez à traduire un PDF vous obtiendrez un .docx que vous pourrez retravailler et convertir en PDF par la suite. Par ailleurs, vous pouvez également récupérer vos données dans un format différent de l’original puisque le site vous propose également de vous les transmettre sous forme de fichiers .xliff ou même de mémoire de traduction compatible avec les outils de TAO, ce qui peut être très utile pour un traducteur professionnel.

Enfin, il ne vous reste plus qu’à indiquer si vous désirez recevoir vos documents par mail ou si vous préférez les télécharger sur la page « Mes demandes de traduction ». Si vous avez demandé plusieurs langues de traductions en même temps, sachez que vous recevrez un mail par langue, la machine n’est pas en mesure de gérer un projet multilingue dans son ensemble. Cela dit, la plateforme propose de télécharger vos documents via un troisième onglet qui rassemble l’historique de vos demandes. Si vous ne voulez pas laisser vos documents sur cet historique, vous pouvez cocher l’option « supprimer après téléchargement » sans quoi ils seront accessibles pendant 24 heures.

etranslation5

À présent, traduisons un texte.

etranslation6

Sur cet onglet vous pouvez traduire un texte de 2 500 mots maximum par un copier-coller ou en le tapant.

Comme vous pouvez le constater, on retrouve nos options de langues et de domaines, et il est également possible de recevoir la traduction par courrier électronique, mais dans ce cas le texte se trouve dans le corps du mail et non en pièce jointe. Il n’est pas possible non plus de récupérer le texte autrement qu’en passant par un copier-coller ou en l’imprimant. De plus, rien n’est conservé dans votre historique.

etranslation7

Pourquoi le logiciel gère-t-il autant de formats ?

Parce qu’il s’adresse à différents types de public. Cet outil fait partie d’un projet plus vaste, qui a pour but de faciliter les échanges entre les différents pays européens afin de promouvoir la croissance, l’emploi et la compétitivité, et pour cela il est nécessaire que les différents acteurs de cette communauté se comprennent. Ainsi les fonctionnaires qui travaillent dans les institutions de l’UE ou dans les organismes nationaux et qui ont besoin d’avoir accès immédiatement à certaines informations dans leur langue, sans nécessité d’une traduction de haute qualité, peuvent avoir recours à ce service de traduction automatique. Mais ce dernier peut également venir en aide aux traducteurs professionnels de l’UE qui ont la charge de traduire les volumes importants des différents organismes. Il n’est pas question ici de remplacer les biotraducteurs, mais de leur faire gagner du temps au travers d’un processus hybride alliant les résultats fournis par la plateforme et ceux des mémoires de traduction. Le biotraducteur pourra ainsi effectuer un travail de post-édition de qualité grâce au corpus compilé à partir de documents officiels traduits. Nous pourrions d’ailleurs imaginer la création d’un corpus parallèle bilingue de référence, dans un domaine particulier, accessible directement dans SDL Studio ou memoQ. Pour cela, il serait simplement nécessaire de se procurer des textes officiels de la commission dans la langue cible et de les faire traduire par eTranslation pour obtenir un corpus dont la langue cible, qui est celle qui nous intéresse, est parfaite, et la langue source de moins bonne qualité car générée par la machine, mais qui nous apporterait tout de même le contexte dont nous avons besoin. Il faudrait toutefois tester plus en avant ce processus pour en connaître la réelle portée.

Et au niveau de la qualité de la traduction et de la mise en page ?

La qualité de la traduction dépend bien évidemment de la qualité du document source ainsi que de la paire de langues choisie. Certaines paires de langues sont plus proches et/ou ont une mémoire de traduction plus fournie, elles seront donc de meilleure qualité que des paires de langues éloignées et sur lesquelles il existe encore peu de documentation traduite. De plus, comme je l’ai déjà mentionné, cet outil contient de la documentation à caractère juridique, institutionnel ou encore économique, n’essayez pas de lui faire traduire Harry Potter, le résultat serait vraiment de piètre qualité. À chacun son domaine de spécialisation, c’est aussi vrai pour les machines. De plus, bien que la traduction neuronale fasse des merveilles au niveau de la fluidité des textes traduits, elle n’est pas à l’abri de contresens ou de faux-sens, il est important de réaliser, au minimum une post-édition par un traducteur connaissant les deux langues de travail et non pas une simple révision du texte traduit.

En ce qui concerne la traduction de l’anglais vers le français nous avons examiné quelques phénomènes linguistiques et, comme attendu, eTranslation, à l’instar d’autres moteurs de traduction automatique, a tendance à traduire de façon littérale might/may, les voix passives, there is/there are. En revanche, elle fait preuve de plus « d’imagination », si je puis dire, en ce qui concerne les adverbes en –ly anglais qu’elle ne traduit pas systématiquement par un adverbe en –ment, mais elle opère parfois une recatégorisation : « only » a été traduit par « ne… que… » dans un de nos segments, par exemple.

Par ailleurs, si on retrouve les apostrophes courbes, certaines spécificités de la langue française ne sont pas prises en compte, comme les guillemets ou les espaces insécables (sauf pour les pourcentages).

Enfin, dans le but d’estimer la qualité de la traduction de la machine et de savoir si en effet elle permet un gain de temps au traducteur, nous avons fait un test de production en post-édition. Suite à cet exercice nous pensons qu’avec un document source de bonne qualité, et un post éditeur/traducteur expérimenté, il serait possible d’atteindre une productivité de 1 500 mots/heure pour une post-édition légère et 750  mots/heure pour une post-édition complète.

La qualité de la mise en page quant à elle, dépend également du format source. Le logiciel ne fera pas de miracle sur un PDF de mauvaise qualité, mais il possède de bonnes bases, il reconnait par exemple les notes de bas de page. Il se maintient donc en bonne position par rapport à certains logiciels de traduction assistée par ordinateur.

En résumé : les plus et les contres !

Les points forts :

  • C’est un logiciel très intuitif, facile d’utilisation.
  • La qualité de la traduction est bonne dans les domaines spécifiques à la commission européenne et la productivité peut être accrue grâce à la MT.
  • La mise en page est également de bonne qualité.
  • Il reconnait énormément de formats.
  • Il prend en charge plusieurs documents et plusieurs langues à la fois.
  • Il est possible de récupérer la traduction dans des formats reconnus par les outils de traduction (.tmx, .xliff).
  • La sécurité est optimale et les données restent confidentielles.

Les points faibles :

  • L’outil est difficile à trouver et il n’est pas accessible au citoyen lambda.
  • Il n’est pas directement accessible dans les outils de TAO sous forme de plug-in, par exemple.
  • La traduction est bonne, mais cela reste une traduction machine dans laquelle se glissent des faux-sens ou des contresens, les espaces insécables ne sont pas insérées sauf pour les pourcentages, les guillemets ne sont pas localisés. De plus, la qualité reste tributaire des corpus qui pour certaines paires de langues sont moins fournis que pour d’autres.
  • La machine ne traite pas les sites web.
  • Le temps d’arrivée des fichiers n’est pas immédiat même s’il reste raisonnable.

Enfin, pour conclure…

Vous l’aurez compris, il n’est pas question de remplacer le biotraducteur par une machine, pas encore tout du moins, mais bien de lui fournir un nouvel outil, efficace, tant au niveau de la qualité que du rendement, pour lui permettre de ne plus rester figé sur sa page blanche et surtout de gagner en productivité. Comme pour l’utilisation de n’importe quel autre outil, il est nécessaire de posséder certaines compétences particulières, un savoir-faire, afin de ne pas tomber dans ses pièges et faire en sorte qu’une fois le travail terminé, c’est avant tout les exigences du client qui soient satisfaites. Nous avons donc réellement apprécié eTranslation et ses résultats et espérons qu’il sera bientôt mis à la disposition d’un plus large public, d’autant que nous ne sommes qu’aux balbutiements de la traduction automatique neuronale et qu’il est fort probable qu’un jour, il soit impossible de s’en passer…

 

Un grand merci à la Direction générale de la traduction de nous avoir donné l’autorisation d’illustrer le billet par des captures d’écran.

La NMT vue par une agence de traduction

Par Jimmy Gabreau, étudiant M1 TSM

 

Translate

 

Ces dernières années, la traduction neuronale (NMT) a peu à peu pris le pas sur la traduction statistique (SMT) grâce à l’obtention de résultats largement considérés comme bien plus convaincants, ayant conduit à sa démocratisation. Il me parait donc intéressant de voir comment cela est pris en compte par les acteurs du secteur. Afin de rassembler quelques éléments de réponse, je vous propose un entretien avec Liesbet Steyaert et Madeleine Barois, de l’agence de traduction Telelingua à Paris, qui œuvrent toutes deux à l’implémentation de cette technologie au sein de l’entreprise.

 

Tout d’abord, pouvez-vous vous présenter, ainsi que votre parcours ?

LS : Moi c’est Liesbet, je travaille depuis plus de dix ans chez Telelingua en tant que chef de projet, j’ai fait deux ans en ingénierie linguistique, dans les années 2000, l’époque où la traduction automatique s’appuyait encore sur des règles grammaticales (rule-based machine translation). Depuis les choses ont pas mal évolué. Depuis quelques mois, je coordonne la mise en place d’une solution de traduction automatique dans l’entreprise. Pour cela, je suis surtout aidée par Madeleine. Pour l’instant, nous sommes encore en phase de test. L’idée est de ne pas fermer les yeux devant la traduction automatique mais d’examiner comment cette technologie peut nous aider. Cela peut par exemple être utile face à des clients qui ont des budgets très réduits et/ou qui ne cherchent pas une qualité optimale pour certains projets. La MT peut aussi utile pour gérer des traductions très urgentes et volumineuses. Nous voulons donc explorer si cette technologie peut accélérer le processus de traduction et/ou réduire les coûts.

MB : Je m’appelle Madeleine, je suis chez Telelingua depuis septembre 2017, je suis apprentie dans l’équipe process pour assister les gestionnaires de projets dans la préparation de fichiers, la traduction, la localisation en assistant à l’optimisation des outils destinés à l’automatisation des processus. J’ai effectué une formation en linguistique au Canada et je suis actuellement en alternance dans un Master orienté sur le développement de sites internet multilingues. Je suis, en quelque sorte, l’assistante de Liesbet pour tout ce qui relève de l’entrainement de moteurs de traduction et de la rédaction des guides d’utilisation des outils de traduction automatique. Nous mettons en place des tests, bien que nous ne proposions pas encore officiellement de service de traduction automatique, afin de voir comment cela se déroule au sein de vrais projets et ainsi déterminer si cela sera rentable.

 

Jusqu’à présent, quel usage aviez-vous de la traduction statistique ?

LS : Nous ne l’avons utilisée que pendant quelques mois, l’outil MT que nous utilisons ne fournira plus de support SMT à partir de septembre, cela nous donne donc davantage de raisons pour passer à la traduction neuronale, et c’est ce que nous sommes actuellement en train de faire.

 

Dans quels types de projets allez-vous utiliser la traduction neuronale ?

LS : Nous avons créé des moteurs de traduction par domaine ainsi que par client, cela concerne évidemment davantage la traduction technique et s’adresse aux clients les plus sensibles au niveau du prix mais qui nous envoient un volume important à traduire. Pour le moment, nous avons élaboré des moteurs destinés à la traduction de texte dans des domaines tels que l’industrie, les arts graphiques, l’énergie ainsi que le juridique. Cela peut paraître étonnant, mais cela marche plutôt bien vu que le langage est assez standardisé. Évidemment, nous utilisons la NMT pour aider le traducteur en pré-traduisant d’abord le texte à l’aide d’une mémoire de traduction, la NMT intervient uniquement sur les « no matches », les segments qui n’ont pas de remontées de nos mémoires de traduction. C’est une façon hybride de travailler, cela ne change pas les habitudes du traducteur, il aura simplement des suggestions de traduction issues de la NMT sur chaque « no match » à post-éditer. Cela n’empêche pas qu’une révision sera effectuée suite à la traduction afin d’obtenir le même niveau de qualité que celui que nous avons actuellement.

MB : Afin mesurer le gain de productivité des traducteurs apporté par la NMT, nous leur envoyons un formulaire d’évaluation de la NMT pour qu’ils nous rapportent les erreurs qu’ils ont trouvées dans les traductions proposées. C’est assez compliqué de juger et de formaliser, c’est pourquoi nous essayons de mettre en place un système qui le ferait de manière automatique, quantifiable, qui pourrait comparer un segment issu de la MT avec celui issu de la post-édition du traducteur et ainsi voir les changements effectués pour obtenir une traduction de qualité. Nous développons un outil de mesure de « distance de post-édition », qui nous permettra de connaître les efforts fournis par le traducteur, mais aussi de savoir quels moteurs auraient le plus besoin de post-édition et devraient donc être davantage entraînés.
Pour le moment, le feedback se base sur le ressenti du traducteur, nous aimerions avoir quelque chose de plus précis et standardisé, ce qui est, je pense, le défi auquel sont confrontées toutes les entreprises de traduction en ce moment. Il existe déjà des outils, des plug-ins Studio pour cela, mais ils ne sont pas tout à fait adaptés à nos besoins.

 

Voyez-vous des inconvénients à l’utilisation de la NMT ?

LS : La SMT découpe et traite les phrases par petits groupes de mots, c’est un système qui gère difficilement la grammaire d’une phrase entière. Ceci peut mener à des résultats peu convaincants, en fonction de la qualité des corpus utilisés pour entraîner les moteurs, la NMT parvient à remédier à ce problème grâce à l’utilisation d’une intelligence artificielle capable de donner des traductions plus naturelles. Mais une phrase pourrait être mal traduite et ne plus du tout correspondre à la phrase source, tout en étant parfaitement formée au niveau grammatical. C’est donc un problème potentiellement trompeur dont les traducteurs doivent être conscients. C’est une aide, mais ils ne doivent pas considérer leur travail comme étant une simple relecture des résultats du moteur. C’est sur ce point que nous ne sommes pas certains du gain de temps que cela peut nous apporter, d’où l’importance d’un bon entraînement des moteurs.

 

Les traducteurs sont-ils réticents à l’utilisation de la NMT ?

LS : Il faut souligner que, dans l’esprit des traducteurs, cela a pas mal évolué puisqu’on entend beaucoup parler de la traduction automatique, et de ses progrès, grâce à l’introduction de l’intelligence artificielle et donc la solution neuronale. Je pense qu’ils sont donc un peu plus ouverts qu’il y a quelques années. Les universités ou écoles de formation linguistiques forment aujourd’hui leurs étudiants à la gestion ou à l’utilisation de traduction automatique. Les traducteurs doivent surtout comprendre qu’on aura toujours besoin d’eux. Cela fait des décennies que l’on pense être tout proche de la solution pour les remplacer, mais nous en sommes probablement encore loin car la NMT n’est pas encore assez fiable pour obtenir la même qualité qu’une traduction humaine. Par contre, l’introduction de la traduction automatique dans le processus de traduction peut jouer sur la productivité des traducteurs et sur leur valeur ajoutée. Certains contenus ne se prêtent pas à la traduction automatique. Les nuances, figures de style restent l’apanage de l’intelligence humaine, donc des traducteurs. Il risque d’y avoir des agences qui appliqueraient des prix beaucoup plus bas, sans prêter attention aux résultats donnés par les moteurs de traduction automatique et qui paieraient les traducteurs bien en dessous des efforts fournis. C’est un fait, mais le monde de la traduction ne va pas migrer intégralement vers la traduction automatique. Certains types de contenus, oui, d’autres non.

MB : Le système de tarification est une question importante, il faut que les agences prennent en compte que différents projets, différents moteurs, différents types de texte source, engendrerons différents efforts de post-édition, nous estimons donc qu’il serait plus pertinent d’appliquer des tarifs en fonction du travail réellement effectué par le traducteur, c’est pourquoi nous créons cet outil de « mesure de similarité. ».

 

Je tiens à remercier Liesbet et Madeleine d’avoir pris le temps de répondre à ces questions et de m’avoir donné quelques clés pour mieux comprendre les changements en cours dans le secteur de la traduction et mieux les anticiper.

Le futur n’a pas besoin de traducteurs*

Article original en anglais The Future Does Not Need Translators, écrit par Jaap van der Meer et publié le 24.02.2016 sur le blog de la TAUS (Translation Automation User Society).

Traduction française de Pierre Ferré, étudiant M1 TSM.

 

traductionautomatique.jpg

 

* Ce titre est inspiré d’un article écrit par Bill Joy (alors chercheur principal chez Sun Microsystems) et publié dans Wired Magazine en avril 2000. (Why the future does not need us, lien en anglais)

 

Cet article quelque peu lugubre nous mettait en garde contre un avenir dans lequel les machines nous domineraient, nous, les humains. « C’est maintenant qu’il faut agir si nous ne voulons pas nous laisser surprendre et choquer […] par les conséquences de nos inventions. » Projeter ce problème fondamental et existentiel sur notre propre secteur, celui de la traduction, pourrait facilement provoquer d’accablantes et déprimantes visions sur l’avenir de l’industrie de la traduction pour les décennies à venir. En conséquence, cela pourrait nous disposer (tous les travailleurs de ce secteur) dans un état d’esprit défensif et réactif ou bien passif. Nous nous devrions plutôt d’être réalistes, d’avoir un esprit ouvert sur les avantages et sur les inconvénients. Le futur n’a peut-être pas besoin de nous, mais nous avons bien besoin de lui.

Le jour viendra où les machines seront plus performantes qu’un traducteur humain pour traduire un texte d’une langue à une autre. Ce moment est dénommé la singularité. Le débat porte sur la question de savoir si cette singularité est vraiment quelque chose que nous devrions espérer. La réalité est que nous sommes tellement engagés sur cette voie qu’il est devenu difficile, si ce n’est impossible, d’inverser la tendance.

La singularité est proche. Ce que cela signifie, en termes simplifiés, pour la traduction qui jusqu’alors a été le domaine exclusif de l’homme, c’est que les machines vaincront le cerveau humain et continueront de se perfectionner dans une sorte d’apothéose d’intelligence. Elles n’auront plus besoin de nous, les humains, pour en apprendre plus et pour s’entraîner. Nous leur avons donné les moyens de s’améliorer elles-mêmes : une incroyable capacité de traitement, l’accès à des volumes de données en constante augmentation et des techniques d’imitation de notre cerveau grâce au deep learning et aux réseaux neuronaux.

Imaginez une machine capable de traduire dans une centaine de langues et tout cela en temps réel. Aucun être humain ne serait capable d’en faire autant. La qualité et l’exactitude de ces traductions automatiques ne sont peut-être pas toujours parfaites, mais elles sont tellement pratiques que nous apprenons à nous en accommoder,  nous nous adaptons et nous la modifions lorsque c’est nécessaire.

A quel point cette singularité est-elle vraiment proche ? Ray Kurzweil (auteur du livre « Humanité 2.0 » et directeur de l’Ingénierie chez Google depuis 2012) prédit qu’en 2019, les traductions automatiques seront suffisamment performantes pour pouvoir remplacer les traducteurs humains. (Interview dirigée par Nataly Kelly, publiée dans Huffington Post en juin 2011,lien en anglais) Nous en sommes suffisamment proches pour en parler sérieusement.

Le TAUS ouvrira cette année un débat sur l’avenir de la traduction. À l’occasion des principaux évènements TAUS (Dublin, 6-7 juin et Portland, 24-25 octobre), nous invitons les chefs de file de la recherche en traduction automatique (TA) et les chefs d’entreprise de traduction à venir discuter de certaines questions fondamentales :

  1. À quel point la singularité en traduction est-elle proche ?
  2. Quelles en sont les limites du point de vue de la recherche?
  3. À quelles avancées vous attendez-vous ?
  4. Quels sont les impacts commerciaux, les avantages et les inconvénients ?
  5. De quelle façon la profession se verra-t-elle affectée ?

En guise d‘introduction au débat, nous avons demandé à certains des participants de partager leur point de vue sur ces questions dans cet article. Permettez-moi d’ouvrir le débat avec mon propre point de vue. À quel point la singularité est-elle réellement proche ? Je ne suis pas le mieux placé pour répondre à cette question. Mais je pense qu’il est concevable qu’elle se produise dans les dix ou vingt prochaines années. Par ailleurs, il s’agira probablement d’une évolution graduelle ponctuée de prises de conscience. Nous parviendrons effectivement à la FAUT (Fully Automated Useful Translation), bien différente du saint Graal qu’est la FAHQT (Fully Automated High Quality Translation) qui a été définie comme étant un objectif réalisable par les concepteurs de la première TA dans les années 50 (en cinq ans !). En ce qui concerne les impacts commerciaux, je crois que la singularité en traduction dynamisera considérablement le commerce mondial. Qu’en sera-t-il du métier de la traduction ? Comme je l’ai dit précédemment, l’accès universel aux FAUT pourra entraîner une croissance de la demande de traductions particulièrement créatives. Je ne pense pas que cela soit une coïncidence si l’on entend souvent les termes « hyper-localisation » et « transcréation » pour faire référence à de nouveaux services du secteur de la traduction. Non, je ne pense pas que les métiers de la traduction soit totalement mis en danger, mais ils changeront profondément. Les tâches ennuyeuses disparaîtront. Les questions que je me pose et qui seront, je l’espère, débattues cette année lors des évènements TAUS, sont les suivantes : où seront construites ces nouvelles machines de traductions puissantes et qui en aura le contrôle ? Verrons-nous de nouveaux innovateurs et changements de donne non influencés par l’héritage de dizaines d’années dans le milieu la traduction et qui, par conséquent, évoluent beaucoup plus vite, dans d’autres parties du monde et dans les économies émergentes ?

Le point de vue sur le débat d’Alex Waibel :

Bien entendu, cette question n’est pas nouvelle : les machines remplaceront-elles les humains et rendront-elles leurs efforts redondants, ou bien ne seront-elles qu’un piètre détail qui jamais n’égalera la véritable performance humaine ? Je suis quelque peu sceptique sur ces deux opinions. Il est exact que nous avons su accroître considérablement les performances de la traduction automatique et de la reconnaissance vocale et qu’elles ont progressé spectaculairement. Et ces progrès se poursuivront. Je crois qu’une performance dépassant celle d’un humain, en fonction du cas d’utilisation, sera possible dans une ou deux décennies. Mais jusqu’à présent, ces avancées ont mené à un élargissement des services et  donc également à une augmentation de la demande et de l’utilisation, en phase avec la mondialisation et la quantité de matériel produit. Les prédictions selon lesquelles nous n’auront plus besoin de traducteurs humains me semblent pour le moins alarmistes et extrêmes. Il est plus probable que nous soyons témoin d’une accélération et d’une augmentation de la quantité des traductions, mais que les humains continuent de jouer leur rôle dans cette demande croissante. Il y aura davantage de symbiose entre les humains et les machines, et l’amélioration de la communication et de la compréhension entre les langues sera bénéfique pour notre espèce. (Alex Waibel est professeur en informatique à la Carnegie Mellon University and Karlsruhe Institute of Technology, il est également directeur d’interACT, International Center for Advanced Communication Technologies.)

 

Le point de vue sur le débat de Marcello Federico :

Ces questions reviennent chaque fois qu’une nouvelle avancée se produit. Les voitures sans chauffeurs remplaceront-elles les chauffeurs humains ? La traduction automatique neuronale éliminera-t-elle les traducteurs humains ?  La vérité est que nous aimons les explications et les conclusions simples (et qu’elles nous fascinent). Le monde réel est bien plus complexe. Le progrès refaçonne constamment les relations entre la technologie et l’humain, bien souvent de manière imprévisible. Il est donc très difficile de faire des prévisions dans ce domaine. La technologie a tendance à progresser de façon verticale, s’efforçant de résoudre des tâches spécifiques qui peuvent mener à des applications  intéressantes. Mais l’action de traduire, de même que celle de conduire une voiture, présente plusieurs facettes et niveaux de difficultés. La traduction automatique de documents techniques du français vers l’anglais ou laisser une voiture sans chauffeur évoluer sur une autoroute américaine sont certainement des avancées technologiques qui ouvrent la voie vers des applications intéressantes. Cependant, ces dernières ne peuvent généralement pas être interprétées comme des solutions pour la traduction ou la conduite. Ce qui est particulièrement important, c’est qu’elles ne prouvent pas à quel point nous nous rapprochons de la résolution de ces problèmes généraux. Quand verrons-nous une voiture autonome capable de naviguer dans les rues de Naples ou une traduction automatique de haute qualité de l’allemand vers le turc ? Bonne question ! En tant que scientifique, je suis optimiste et prudent : il est clair que nous accomplissons des progrès en termes de traduction automatique, mais ils sont difficiles à quantifier.  En tant qu’humain, je préfère l’aspect coopératif de l’IA à l’aspect compétitif : Comment la technologie peut-elle permettre aux traducteurs de travailler mieux et plus rapidement ? Comment les machines peuvent-elles apprendre directement des traducteurs humains ? Comment les machines peuvent-elles débarrasser les traducteurs des tâches ennuyeuses et répétitives afin qu’ils puissent se concentrer sur l’aspect créatif de leur profession ?  Selon moi, hormis le fait qu’elles ouvrent la voie à de nombreuses problématiques de recherche, elles incarnent l’approche qui produira les technologies de demain les plus performantes de notre domaine. (Marcello Federico est directeur de recherche du département de recherche HLT-MT de la Fondazione Bruno Kessler, Trente, Italie. Son équipe participe à plusieurs projets recherche de recherche européens axés sur une nouvelle génération de systèmes de TA, tel que le projet MMT [Modern Machine Translation].)

 

Le point de vue sur le débat de Marco Trombetti :

Le concept de la singularité me fascine depuis mon plus jeune âge. À l’époque, ce terme était davantage associé aux trous noirs qu’à la technologie. Aujourd’hui, la singularité m’effraie de la même manière que les trous m’effrayaient alors. Le mélange de curiosité et de crainte explique ma passion pour ce sujet et pourquoi je passe du temps à travailler sur l’intelligence artificielle (IA).  L’IA, devant la singularité, est en passe de devenir le prochain grand changement dans notre futur proche. Je suis convaincu qu’elle portera l’humanité vers une nouvelle ère d’accessibilité et d’organisation de l’information. La traduction est probablement la tâche humaine la plus complexe à apprendre pour une machine, mais c’est aussi celle avec le meilleur potentiel. Elle pourrait faire du monde une seule grande famille, rapprocher les individus les uns des autres en abattant les barrières linguistiques et permettre un plus grand partage de l’information. Le langage, par rapport à de nombreux autres secteurs pour lesquels l’IA doit analyser une réalité statique, évolue en même temps que les humains.  Les machines ont besoin de l’aide constante de l’homme pour rester à la page. (Marco Trombetti est PDG de Translated, les créateurs de MateCat. Également entrepreneur et investisseur, il vit et travaille à Rome.)

 

Le point de vue sur le débat de Khalil Sima’an :

Il est bien évidemment impossible de prédire quand se produira la « singularité » et quelle forme prendra alors le marché. Pourtant, sur la base de ce que je peux observer en termes de technologie, j’ai le sentiment que nous nous trouvons aujourd’hui à un point où, dans moins de deux décennies, la plupart des tâches de traduction standard seront effectuées par des machines pour un bon nombre des paires de langues économiquement dominantes. Les traducteurs humains continueront de jouer un rôle défini par des besoins très spécifiques des clients, qui auront souvent pour objectif de collecter des nouvelles données afin d’améliorer la TA. Certains types de traductions les plus intéressants, comme la littérature et la poésie de haute qualité, pourraient encore demeurer du ressort de quelques traducteurs humains doués pour un certain temps. Mais le gros de l’industrie de la traduction traditionnelle fera les frais de cette automatisation. Ce qui va changer le marché n’est en fait pas tant l’automatisation totale en soi, mais le fait que celle-ci sera proposée comme « production de masse » représentant une grande part (voire l’ensemble ?) des commandes de traduction. Il est probable que ce service sera offert par une poignée de nouveaux acteurs qui oseront opérer ce changement déstabilisant. Ces derniers auront l’avantage de s’adapter rapidement à l’évolution des besoins du marché et accepteront toutes les commandes de traduction sans distinction. (Khalil Sima’an est professeur de linguistique informatique à la Faculté des Sciences de l’université d’Amsterdam [FNWI]. Son équipe travaille sur plusieurs projets de nouvelle génération de traduction automatique, tel que DatAptor et les projets QT.)

 

Note du traducteur : Ce sujet m’a paru particulièrement intéressant car, en tant qu’étudiant.e.s en Traduction Spécialisée, la traduction automatique et les progrès spectaculaires qu’a accompli celle-ci lors de ces dernières années peut préoccuper certains d‘entre nous quant à l’avenir du métier vers lequel nous nous dirigeons. La traduction automatique neuronale remplacera-t-elle effectivement le traducteur humain ? Les opinions divergent, même au sein des professionnels œuvrant pour son développement. Quelle que soit notre opinion sur le sujet, il est important de rester attentif à l’évolution de cette technologie.

 

La traduction automatique : menace ou opportunité ? Retour sur la journée d’études #TQ2018 du 2 février 2018

Par Simon Watier, étudiant M1 TSM

 

A3_Conférence #TQ2018

À l’occasion de la sixième édition de la journée d’études dédiée à la traduction, l’Université de Lille  et le laboratoire « Savoirs, Textes, Langage » (STL) du CNRS ont organisé le vendredi 2 février une série de conférences qui ont pour objectif de définir le lien entre la biotraduction et la traduction automatique. Afin de dresser un portrait exhaustif de cette thématique complexe mais néanmoins essentielle neuf intervenants ont apporté leurs réponses, fruit de plusieurs années de recherches et de réflexions : Emmanuel Planas, Rudy Tirry, Véronique Huyghebaert, Sandrine Peraldi, Stéphanie Labroue, Fleur Schut, Daniel Prou, Aljoscha Burchardt et Antonio Balvet.

Pour comprendre l’impact de la traduction automatique il convient de retracer l’évolution des outils de TAO (Traduction Assistée par Ordinateur) pour mieux appréhender leur incidence dans le secteur de la traduction. En effet, les premiers outils de traduction automatique remontent avant les années 40, notamment avec le linguiste italien Federico Pucci, véritable précurseur de la traduction automatique moderne. En revanche celle-ci  était davantage considérée comme un outil de décryptage et non comme un véritable acteur de la traduction. La traduction automatique neuronale (TAN) imite le fonctionnement du cerveau humain et créer des voies neuronales pour traduire une phrase dans sa totalité. Elle succède ainsi à la traduction statistique (TAS) qui utilisait également un corpus, découpé en unités de traduction auxquelles on attribuait un score de probabilité.

 

220px-Triangle_de_vauquois.svg

Le triangle de Vauquois est le modèle de base de la traduction automatique.

 

La traduction automatique neuronale connait une véritable « hype » relayée, entre autre, par la presse. En effet la TAN ne se cantonne plus uniquement à la sphère professionnelle, elle fait désormais partie intégrante du quotidien (Google Translate, Facebook, Amazon, DeepL, les exemples sont légion). Pour mieux illustrer le propos, une opposition entre  la TAN et la TAS semble nécessaire afin d’exposer les avantages et les inconvénients de chacun. Le verdict n’en est que plus complexe car si la TAN assure une traduction plus fluide notamment au niveau de la syntaxe, la TAS est plus performante sur la terminologie, un point pourtant essentiel dans le travail du traducteur. Il ne faut pas omettre pour autant la post-édition qui est constituée de 3 niveaux : Full MTPE (Machine Translation Post-Editing) qui ne se distingue pas de la biotraduction, Light MTPE qui se concentre avant tout sur le sens et non sur l’approche stylistique et Focused MTPE qui examine des éléments spécifiques comme les nombres, les noms. Au final l’approche humaine demeure la clef de voûte de la traduction car si la technologie ne cesse de se perfectionner, celle-ci est incapable de retranscrire la créativité et la subtilité de l’Homme.

Heureusement les traducteurs ne sont pas en reste question ressources. Jonckers, une société de traduction créée il y a une vingtaine d’années et présente dans 10 pays a développé des outils afin de fluidifier la gestion de la post-édition, source de nombreux défis à relever. En effet différents maux liés au volume demandé peuvent affecter l’ensemble du processus (retards, client insatisfait, burn-out des traducteurs). Pour y remédier, l’entreprise a créé le Loclab, un centre de post-édition en interne qui a permis de favoriser l’échange et la proximité entre les traducteurs et les formateurs. L’aspect commercial est évidemment de mise puisque les ventes d’un produit peuvent directement dépendre d’une bonne traduction. Ainsi, un système de contrôle de qualité est instauré, 5 % du contenu est extrait puis vérifié, afin de transmettre le score obtenu au post-éditeur. La post-édition est basée sur un moteur de traduction automatique qui permet à la fois un gain de flexibilité et de productivité. Le plus important réside dans la compréhension et l’adaptation aux besoins du client.

 

photo2fev

 

Désormais la traduction automatique est perçue de manière positive, elle ne représente plus une menace pour le traducteur mais bien une aide précieuse. Son implantation dans la formation des traducteurs constitue une preuve irréfutable. Paradoxalement peu d’articles ont été consacrés à ce sujet alors que plusieurs auteurs se sont penchés sur la question d’un point de vue épistémologique. 85 % des formations privilégient les outils les plus utilisés sur le marché, ce choix est directement lié aux pratiques des traducteurs.

Cependant plusieurs études consacrées à l’intégration des outils de TAO ont montré que la plupart des formations privilégiaient l’apprentissage de l’outil sur l’acquisition de véritables compétences en conditions de travail réelles. Il convient de prendre en considération deux aspects : la dimension professionnalisante qui désigne la compréhension des difficultés inhérentes au déploiement d’un nouvel outil dans le travail et la dimension cognitive, liée à la gestion des émotions des traducteurs face aux nouvelles technologies qui peuvent les déstabiliser. De même, l’automatisation d’une partie du processus peut perturber des stratégies de traduction (éloignement du texte source, multiplication des efforts cognitifs). Ainsi les émotions jouent une place prépondérante dans la perception mais aussi dans la performance des outils.

 

photo2fev2

Divers outils comme Euramis (base de données des traductions effectuées dans les institutions européennes), MT@EC (moteurs statistiques avec 79 paires de langues directes), et eTranslation (moteurs neuronaux avec 6 paires de langues) sont quant à eux davantage destinés aux traducteurs de la Commission européenne. La TA peut être utilisée de deux manières : par segment entier ou par fragments successifs. De même la traduction automatique est plus efficace avec certaines langues que les moteurs statistiques, notamment l’estonien.

Systran, qui n’est autre que le leader mondial des technologies de la traduction, a développé un moteur PNMT (Pure Neural Machine Translation) basé sur des réseaux de neurones artificiels et du deep learning. Trois principaux composants constituent la chair de ce système PNMT à savoir le word embedding (prolongement de mots) qui se focalise sur l’apprentissage d’une représentation de mots, les réseaux de neurones récurrents dans lesquels l’information peut se propager dans les deux sens, et l’attention model (modèle d’attention) qui désigne la capacité du moteur à collecter des informations sur des mots spécifiques. Ce moteur pourra s’appliquer dans un futur proche aux correcteurs informatiques et aux chatbot (agents conversationnels). Toutefois cela soulève de nouveaux défis à relever : comment analyser et corriger une erreur ? Comment configurer un moteur pour une tâche très spécifique ? L’IA sera-t-elle capable de rivaliser avec l’être humain en termes de pertinence ?

 

photo2fev3

 

Ainsi s’achève la journée d’études qui a permis de dépoussiérer les notions de bases de la traduction automatique pour mieux cibler les tenants et la aboutissants auxquels devront faire face les traducteurs pour intégrer le marché du travail. Si la technologie ne cesse de se perfectionner, elle pose également ses limites quant à sa capacité à s’adapter. Celle-ci fait toujours l’objet de certaines critiques qui voient en elle une menace pour le biotraducteur. Cependant l’expérience et la recherche combinées des professionnels ont permis de démontrer son apport vital au sein de ce secteur. La traduction automatique neuronale constitue une nouvelle avancée qui imite les réseaux et les connections synaptiques humaines pour mieux cibler le contexte et la terminologie des mots. Cela ouvre tout un nouveau champ de possibilités qui amènera peut-être une imitation quasi-parfaite de la réflexion humaine.

 

NB : la plupart des présentations de la journée du 2 février sont disponibles en ligne sur le site de la conférence : https://tq2018.sciencesconf.org/