Comment bien utiliser la traduction automatique ?

Par Yohann Tsangue, étudiant M1 TSM

Inutile de se cacher, en 2022, et depuis de nombreuses années déjà, l’utilisation de la traduction automatique s’est démocratisée. Que ce soit pour traduire un tweet dans une langue que l’on ne maîtrise pas à l’aide d’un simple bouton, ou bien pour chercher la traduction d’un simple mot, tout le monde a déjà fait usage d’un outil de traduction automatique.

Mais c’est bien connu, cette technologie reste imparfaite malgré ses progrès ces dernières années. Avant que je ne vous donne quelques conseils pour exploiter au mieux cette technologie, laissez-moi faire un petit historique des technologies de traduction automatique.

La Rule-Based Machine Translation (RBMT)

Comme son nom l’indique, cette technique s’appuie sur un ensemble de règles linguistiques, ainsi qu’un dictionnaire. Apparue au début des années 1970, elle fut la première méthode de traduction automatique. Le processus de traduction de la machine se fait en trois étapes.  Pour plus d’informations sur l’évolution de la traduction automatique avant les années 1970, je vous invite à cliquer juste ici.

L’analyse : la machine examine la phrase source et produit une analyse syntaxique de cette dernière, sous la forme d’un arbre syntaxique.

Le transfert :  l’arbre syntaxique de la langue source est converti dans la langue cible.

La sortie : l’arbre syntaxique de la langue cible est converti en une phrase en langue cible.

Pour chaque paire de langue, cet algorithme est utilisé avec un dictionnaire qui contient des mots et des phrases avec des informations grammaticales détaillées, telles que la classe grammaticale d’un mot.

Lors de la traduction, pour chaque phrase source, la machine va étiqueter tous les mots, c’est-à-dire leur associer la classe grammaticale correspondante et les règles auxquels ils obéissent (ex : sujet, verbe, doit s’accorder ou pas en genre et en nombre, etc.). La machine va ensuite chercher la traduction de tous les mots étiquetés qui seront placés dans le bon ordre grâce à l’arbre syntaxique cible généré par la machine.

Cette technique présente certains avantages, elle permet un haut niveau de contrôle de la terminologie et des règles grammaticales.

Cependant, elle est très chronophage car il faut établir un ensemble de règles et un dictionnaire pour chaque paire de langue. Étant donné qu’il existe environ 6 000 langues vivantes sur Terre, il y a encore beaucoup de chemin à faire ! De plus, certaines règles grammaticales s’appliquent seulement dans certains contextes, tandis que d’autres sont ambigües. Bien que les phrases générées soient toujours grammaticalement correctes, elles peuvent manquer de fluidité.

Statistical Machine Translation (SMT)

Cette approche consiste en l’analyse statistique d’un volume important de données déjà traduites. Voici son fonctionnement : une base de données de segments alignés (phrases sources avec leurs traductions en langue cible) sert d’entrée à un système d’apprentissage statistique. La machine apprend à traduire en se basant sur les relations statistiques entre les données sources et cibles. Cette base de données, que l’on peut appeler corpus bilingue, peut contenir des millions de mots traduits. En analysant ce corpus, la machine établit la traduction la plus probable pour un segment donné, c’est-à-dire celle qui revient le plus souvent dans le corpus. Par exemple, dans un corpus de langue générale d’anglais vers le français le mot “power” est plus souvent traduit par “pouvoir” que par “électricité”.

Cette analyse statistique marche pour l’aspect terminologique mais aussi pour la grammaire, la machine déduit également l’ordre des mots le plus probable dans la langue cible grâce aux données. La qualité de la traduction dépend donc de la qualité du corpus (pas forcément de sa taille) et du niveau d’entraînement de la machine d’apprentissage.

Contrairement à la RBMT, il n’y pas besoin d’analyser grammaticalement les phrases sources à l’aide d’arbres syntaxiques, les phrases sources sont découpées en segments et la machine utilise les données statistiques sur la probabilité d’une traduction et l’ordre des mots pour déterminer le meilleur candidat pour la sortie de la traduction.

Cette méthode produit des phrases fluides et relativement sensibles au contexte. Cependant, elle requiert des larges bases de données et offre peu de contrôle sur la terminologie.

La traduction neuronale

La traduction neuronale est la plus récente des méthodes de traduction automatique. Elle utilise l’intelligence artificielle et un réseau de neurones artificiels qui sont associés à des outils sophistiqués. Elle est capable de comprendre les mots mieux que les technologies précédentes, en les replaçant dans leur contexte afin de choisir le sens correct. La marge d’erreur est réduite car la traduction neuronale apprend en continu de ses erreurs. Et ce, dans un laps de temps relativement court.

On peut voir que l’outil de Google s’est amélioré en l’espace de quelques années. Dans sa vidéo de 2016 sur Google traduction, le youtubeur Linguisticae montre les limites de l’outil face à la phrase ambigüe suivante : “Do British people drive on the right side?”. L’ambiguïté porte sur “right side” qui peut autant vouloir dire “côté droit” que “bon côté”. Au moment de la sortie de la vidéo, Google proposait comme unique traduction “Les gens britanniques en voiture sur le côté droit ?”, cette confusion liée à l’ambiguïté de la phrase donne un résultant peu satisfaisant. Mais aujourd’hui l’outil a évolué, pour ce même exemple il propose deux possibilités de traduction.

Cela ne résout toujours pas l’ambiguïté de la phrase mais c’est un bon début. DeepL fait mieux et propose plusieurs traductions possibles en cliquant sur un mot, ce qui va affecter le reste de la phrase.

En cliquant sur “côté” une liste apparaît et propose d’autres traductions de ce mot, lorsque l’on clique sur une de ces propositions, l’outil va automatiquement changer le reste de la phrase pour garder un résultat cohérent (ici en supprimant le mot “droit”).

Toutefois ce système n’est pas infaillible et peut présenter des problèmes de confidentialité. À moins de payer un abonnement, les outils de traduction automatiques en ligne se nourrissent des données que vous leur fournissez pour améliorer leurs algorithmes.

Conseils

Ne pas l’utiliser comme dictionnaire. Si vous demandez à un traducteur la traduction d’un mot il vous répondra certainement “ça dépend”. En effet un mot peut se traduire de différentes manières suivant le contexte dans lequel il est utilisé, ainsi, “way” peut être rendu par “chemin”, “manière”, voire “sens”. Mieux vaut passer par un dictionnaire, papier ou en ligne, lorsque l’on cherche simplement la traduction d’un seul mot. Il est préférable de rentrer une, voire plusieurs phrases à la fois dans un outil de traduction automatique.

La traduction automatique peut se révéler utile dans l’apprentissage d’une langue. Il m’arrive d’utiliser le bouton “Écouter” de Google traduction pour déchiffrer la prononciation de certains mots. Cette fonctionnalité est particulièrement utile pour des langues comme le mandarin et le japonais qui utilisent des caractères chinois, qui doivent être mémorisés un à un. La prononciation de certains caractères peut varier selon le contexte (en particulier avec le japonais). C’est notamment le cas du caractère 日 qui veut dire “jour” ou “soleil”. Dans l’exemple ci-dessous, 日 est utilisé trois fois pour autant de prononciations différentes, respectivement “hi”, “nichi” et “bi”.

Savoir reconnaître les erreurs de la traduction automatique. Humains comme machine, nous faisons tous des erreurs lorsque nous traduisons. Grâce aux progrès technologiques, la traduction automatique est capable de générer des phrases très fluides et crédibles à première vue, mais des erreurs peuvent très bien s’y cacher. Souvent, il n’y a pas d’erreur à proprement parler mais un défaut de style. Cette notion importera plus aux professionnel·le·s de la traduction qu’au grand public, car le style est un des indicateurs de la qualité d’une traduction. Par exemple, pour “the above modifications” un outil de traduction automatique donne “les modifications ci-dessus » mais selon le registre ou le type du texte, mieux vaut employer “les modifications susmentionnées”. C’est ce genre de détail qui fait la différence entre une traduction machine et une traduction humaine.

Conclusion

Malgré les progrès notables de la traduction automatique années après années, l’intervention humaine reste toujours d’actualité. Les projets de traductions professionnelles ayant recours à la traduction automatique font souvent appel à des post-éditeurs, des traducteurs humains formés à reconnaître les erreurs de la machine et qui savent les corriger selon le projet. La valeur ajoutée du traducteur humain est sa capacité à comprendre les nuances de la langue, les aspects culturels et à les rendre fidèlement dans sa langue maternelle. Ainsi la traduction automatique se prête bien à la traduction de textes techniques (juridiques, spécialisés, etc.) mais pas à la traduction de textes créatifs (littéraires, transcréation, etc.).

Bibliographie

Aslan E. « La Place de la Traduction Automatique dans l’Enseignement de la Traduction ». HUMANITAS – Uluslararası Sosyal Bilimler Dergisi [En ligne]. 15 octobre 2021. Vol. 9, p. 16‑32. Disponible sur : < https://doi.org/10.20304/humanitas.944629 >

Écormier-Nocca F. « Thierry POIBEAU, Babel 2.0 : où va la traduction automatique ?, Paris, Odile Jacob, 2019, 216 p. » Reseaux. 31 juillet 2020. Vol. 222, n°4, p. 199‑204.

Européennes C. La traduction automatique met-elle réellement en danger le métier de traducteur ? [En ligne]. Communications Européennes. 9 juin 2021. Disponible sur : < https://communications-europeennes.fr/la-traduction-automatique-met-elle-reellement-en-danger-le-metier-de-traducteur > (consulté le 23 mars 2022)

Hearne M., Way A. « Statistical Machine Translation: A Guide for Linguists and Translators ». Language and Linguistics Compass [En ligne]. 2011. Vol. 5, n°5, p. 205‑226. Disponible sur : < https://doi.org/10.1111/j.1749-818X.2011.00274.x >

Ibanez F. « Traduction Neuronale : Ce Que Vous Devez Savoir ». In : Alphatrad [En ligne]. [s.l.] : [s.n.], 2020. Disponible sur : < https://www.alphatrad.fr/actualites/savoir-traduction-neuronale > (consulté le 23 mars 2022)

Kadiu S. « Human vs. Machine Translation: Henri Meschonnic’s poetics of translating ». In : Reflexive Translation Studies [En ligne]. [s.l.] : UCL Press, 2019. p. 71‑94. Disponible sur : < https://doi.org/10.2307/j.ctv6q5315.9 > (consulté le 23 mars 2022)ISBN : 978-1-78735-252-0.

Loffler-Laurian A.-M. La traduction automatique [En ligne]. [s.l.] : Presses universitaires du Septentrion, 1996. Disponible sur : < https://doi.org/10.4000/books.septentrion.74824 >ISBN : 978-2-85939-502-5.

Mazet F., Mikic J. « Traducteurs automatiques et apprentissage des langues ». p. 8.

Yvon F. « Les deux voies de la traduction automatique ». Hermes, La Revue. 28 novembre 2019. Vol. 85, n°3, p. 62‑68.

« What is Machine Translation? Rule Based vs. Statistical | SYSTRAN ». [s.l.] : [s.n.], [s.d.]. Disponible sur : < https://www.systransoft.com/systran/translation-technology/what-is-machine-translation/ > (consulté le 6 mai 2022)

J’ai testé pour vous : Différents aspects de la sensibilisation à la traduction automatique et la notion de traduction « non professionnelle »

Par Katarzyna Alekoglu , étudiante M2 TSM

Au-delà d’enrichir mes connaissances en métiers de la traduction, mon stage de Master 1 m’a permis de comprendre dans quelle mesure le rôle de fournisseur de services linguistiques s’avère important dans un contexte de crise sanitaire. Avec ma participation aux actions de l’agence, j’ai nettement renforcé mes connaissances pratiques dans la gestion de projets, la traduction, la révision, le service client et la rédaction. J’ai aussi gagné en quelques anecdotes que je voulais partager avec cette communauté. Ce billet de blog se développe ainsi au prisme de la problématique des différents acteurs de l’industrie face au concept de la sensibilisation à la traduction automatique ou bien « MT Literacy » en anglais.

L’expérience que j’ai acquise pendant mon stage m’a appris à optimiser l’utilisation de nombreuses langues et outils de productivité afin de travailler de manière plus efficace et efficiente au quotidien. L’une des choses que j’ai pu découvrir dans une nouvelle perspective est la façon exacte dont les gens perçoivent la traduction automatique (TA), que ce soit du point de vue d’un client, d’un collègue ou autre stagiaire, d’un chef de projet ou bien du PDG d’une entreprise spécialisée dans les services linguistiques.

Créativité : le dernier espoir ?

Lors d’une des conférences #LocFromHome, un événement de 12 heures sur la localisation organisé par SmartCAT, auquel j’ai assisté et sur lequel j’ai par la suite écrit mon premier billet de blog, j’ai écouté l’analyse d’Alex Chernenko, PDG de Translit, sur les dernières tendances en matière d’intelligence artificielle (AI) et d’apprentissage automatique (AA), ainsi que leur impact respectif sur l’industrie linguistique. Interrogé sur la célèbre citation d’Arle Richard Lommel, selon laquelle « la traduction automatique ne remplacera que ceux qui traduisent comme des machines, » il a souligné l’importance de créativité dans le travail humain, notamment dans le cadre du marché de localisation.

Si l’on sait qu’il existe une crainte générale des traducteurs professionnels à l’égard des progrès de cette technologie (Cadwell et al. 2018), la clé de succès de chaque traducteur professionnel aujourd’hui est effectivement de l’exploiter de façon productive et informée, et d’utiliser sa propre créativité pour conquérir le marché. De ce point de vue, on pourrait dire que malgré les changements en cours dans l’industrie de la langue, il existe de multiples solutions et des moyens par lesquels les utilisateurs professionnels, ainsi que des personnes individuelles peuvent s’adapter et même profiter de cette évolution. Cette découverte peut ensuite être suivie par une étape de sensibilisation de leurs collègues afin de contribuer au renforcement des connaissances continu sur cette technologie.

Par exemple, la post-édition des traductions automatiques (en anglais Machine Translation Post-Editing ou MTPE) est un sujet fascinant qui commence à gagner du terrain en dehors des études universitaires. Petit à petit, il démolit le stéréotype de la machine qui remplace progressivement l’humain et montre que nous pouvons coexister et utiliser la traduction automatique neuronale (NMT) comme n’importe quel autre outil d’aide à la traduction afin de produire un travail de haute qualité en moins de temps.

La TA parmi les étudiants

Le multitâche était l’une des compétences les plus importantes à maîtriser lors de mon stage de M1. Pendant des journées particulièrement chargées, lorsqu’il s’agissait de gérer un grand nombre de projets, il n’était pas rare de manquer de temps pour certaines tâches, notamment pour les délais les plus urgents. Parfois, quand un stagiaire recevait une demande de traduire un document plus long que d’habitude et qu’il ou elle parlait la langue source et la langue cible, il était possible de se charger de cette tâche à titre d’exercice pratique pour le stage. Une fois, ainsi, un collègue-stagiaire m’a demandé de relire sa traduction du français vers l’anglais afin de l’aider à respecter le délai du projet. Bien qu’il soit de langue maternelle française et non pas anglaise (je ne m’attendais donc pas à un très haut niveau d’idiomaticité), je n’ai pu m’empêcher de remarquer des tournures de phrases qui n’étaient pas du tout naturelles et j’ai vite compris que mon collègue s’était probablement servi de la traduction automatique pour gagner du temps.

Il a été prouvé que les étudiants d’aujourd’hui sont très favorables à la NMT et la considèrent comme un outil pratique qui peut facilement les aider à gagner du temps (Moorkens 2018). Qu’ils aient des connaissances approfondies des côtés positifs et négatifs de cette technologie ou non, ils ont tendance à avoir des doutes sur leurs instincts « naturels » et à recourir à la traduction automatique quand ils subissent une certaine pression, par exemple lors d’un examen à distance ou d’une semaine chargée pendant un stage. L’éducation étant plus numérisée que jamais, de tels cas sont de moins en moins rares, ce qui rend indispensable que tous les étudiants se familiarisent avec les bases de la traduction automatique, peut-être déjà à partir du cycle secondaire (Bourdais et Guichon 2020).

Les clients ont-ils le droit d’utiliser la TA ?

En tant que stagiaire en administration de bureau et gestion de projets, j’ai rencontré une grande variété de clients et de contextes situationnels qu’ils apportaient avec leurs demandes. On recevait parfois un message avec une demande de révision d’un texte déjà traduit. Un jour, on m’a attribué une tâche de révision d’un article, où il était évident que la traduction avait été faite par l’un des services de traduction automatique en ligne les plus connus. Les excuses les plus courantes pour ce type de demande étaient l’argent et le manque de communication. Quoi qu’il en soit, il était nécessaire que le client soit traité et qu’il se sente respecté. Dans ce genre de cas, ma stratégie consistait à proposer deux montants préalablement convenus avec l’une des cheffes de projet avant d’envoyer le devis au client : le premier prix correspondait à la relecture du document en question et le deuxième, souvent légèrement inférieur, au service de MTPE, à condition que le client fournisse le document dans sa langue d’origine. Il s’agissait ici d’un moyen efficace de récupérer le texte original pour assurer un bon rendu final et le client était heureux de recevoir un service de haute qualité dont le coût ne dépassait pas ses attentes.

La traduction non professionnelle

Cette anecdote n’est qu’un exemple parmi de nombreux cas que je connais, où une personne a décidé de recourir à la traduction automatique. Ce phénomène peut être comparé à celui des traducteurs « non professionnels, » c’est-à-dire des personnes qui pratiquent la traduction seulement sur la base d’un bilinguisme et non de formation dédiée. La traduction non professionnelle est un terme abordé par Luis Pérez-González, professeur de traductologie au département des langues étrangères et de la traduction à l’Université d’Agder en Norvège. Le professeur explique qu’il s’agit, en effet, d’un cas de majorité (Pérez-González 2012) :

« La traductologie, en tant que domaine d’étude, s’adresse potentiellement à un domaine conceptuel et discursif beaucoup plus vaste. Certains diraient même que c’est la traduction professionnelle, plutôt que non professionnelle, qui devrait être perçue comme l’exception dans le contexte plus large de la traduction. Si l’on considère la question sous cet angle, la traduction professionnelle devient simplement un sous-type de traduction, plutôt que la forme prototypique et normative. Les termes utilisés pour désigner le phénomène de la traduction et de l’interprétation non professionnelles (scanlation, romhacking, language brokering, parmi d’autres exemples en anglais) sont désormais très variés et rappellent avec force que la traduction et l’interprétation non professionnelles sont aussi bien, voire plus établies et diversifiées que la traduction et l’interprétation professionnelles. »

Beaucoup de personnes maîtrisant plus d’une langue se retrouvent dans des situations où elles exercent la traduction non professionnelle dans leur vie quotidienne. Cette expérience m’a fait prendre conscience que chaque personne qui s’intéresse à la traduction ne doit pas nécessairement concentrer toute sa vie ou son temps libre à cette tâche et ne doit donc pas non plus être privée des informations vérifiées sur le développement du marché de la traduction, à savoir la NMT. En revanche, à l’instar de l’apprentissage des langues en soi, l’intérêt porté au domaine de la traduction devrait être utilisé comme une opportunité et non comme un obstacle.

Conclusion

En pratique, si un client décide de se servir la traduction automatique, que ce soit en raison d’un manque de compétences, du temps ou de l’argent, et qu’il demande l’aide d’un traducteur professionnel, il convient de respecter son initiative et sens des responsabilités, tout en lui fournissant un service de qualité et des informations utiles sur les enjeux de la traduction automatique. À une époque fondée sur l’intelligence artificielle et l’apprentissage automatique, cette approche peut contribuer, et contribue effectivement, à une sensibilisation accrue et plus répandue à la traduction automatique (Bowker 2021), non seulement parmi les experts, mais aussi auprès du grand public. Une éthique de travail correcte et adaptée rendra alors ce terme moins effrayant et plus familier pour tout le monde, professionnels ou non.

Sources

Alekoglu, K. (2021, juin 15). Retour d’expérience : Conférence virtuelle sur la localisation #LocFromHome « Mettez-vous à la place de votre client. » MasterTSM@Lille. https://mastertsmlille.wordpress.com/2021/06/15/retour-dexperience-locfromhome/

Alekoglu, K. (2021). Traduction, gestion de projets, marketing et soutien aux actions administratives auprès d’un prestataire de services linguistiques. Rapport de stage. Master 1 Traduction Spécialisée Multilingue, Université de Lille.

Bourdais, A. ; Guichon, N. (2020). Représentations et usages du traducteur en ligne par les lycéens. Alsic, v. 23, n. 1. https://doi.org/10.4000/alsic.4533

Bowker, L. (2021, février 1). Translation: It’s not just for translators! The Our Languages Blog – Resources of the Language Portal of Canada – Languages – Canadian Identity and Society – Culture, History and Sport – Canada. https://www.noslangues-ourlanguages.gc.ca/en/blogue-blog/traduction-translation-eng

Cadwell, P. ; O’Brien, S. ; Teixeira, C. S. C. (2018). Resistance and accommodation: Factors for the (non-) adoption of machine translation among professional

translators. Perspectives, 26(3), 301–321. https://doi.org/10.1080/0907676X.2017.1337210

Moorkens, J. (2018). What to expect from Neural Machine Translation: A practical in-class translation evaluation exercise. The Interpreter and Translator Trainer, 12(4), 375–387. https://doi.org/10.1080/1750399X.2018.1501639

Pérez-González, L. (2012). Non-professionals Translating and Interpreting: Participatory and Engaged Perspectives. The Translator, 18(2), 18.

Smartcat. (2021). Alex Chernenko: Disruptive Trends in Multimedia Localization, Speech-to-Text, and Video Streaming. YouTube. Retrieved 26 June 2021, from https://www.youtube.com/watch?v=_HkLOA32MHM

Retour d’expérience : #TranslationCafé, Littératie de la traduction automatique

Par Sophie Vandenmersch, étudiante M1 TSM

Qu’on l’adopte ou non, la traduction automatique (TA) ou traduction machine s’implante de plus en plus dans le secteur. En 2016, la traduction automatique neuronale (TAN) fait son apparition dans le grand public avec Google Traduction, qui a développé son propre système de TAN appelé Google Neural Machine Translation (lien en anglais). Le principe repose sur des réseaux neuronaux profonds qui fonctionnent grâce à l’apprentissage profond (deep learning), un type d’intelligence artificielle. L’année suivante, DeepL, un autre système de TAN également accessible en ligne, voit le jour. Cependant, leur utilisation éclairée requiert d’en comprendre les tenants et aboutissants. Pour en savoir un peu plus, j’ai décidé de participer à la conférence organisée par #Translationcafé qui s’est déroulée le 22 avril dernier et de vous partager quelques points abordés.

Le #TranslationCafé, kézako ?

Il s’agit d’une table ronde mensuelle en ligne, au cours de laquelle trois spécialistes de la traduction échangent de façon informelle autour d’une thématique liée au monde de la traduction. Elle a lieu à 16 heures (heure française) et dure une heure. Les sujets sont divers et variés : de l’histoire de la traduction des langues asiatiques jusqu’au sous-titrage, en passant par l’impact de la crise sanitaire dans le secteur. Les internautes ont la possibilité de poser des questions en direct. Enfin, cet évènement est libre d’accès, sur simple inscription.

Cette deuxième édition portait sur la littératie de la traduction automatique (Machine Translation literacy) avec pour invités : Lynne Bowker, professeure de traduction et sciences de l’information à l’Université d’Ottawa, Lettie Dorst, professeure de linguistique anglaise et de traduction à l’Université de Leyde, et Rudy Loock, professeur de traductologie et de linguistique anglaise à l’Université de Lille.

Dans quelle mesure et comment les professionnels des langues peuvent-ils assister le grand public dans l’utilisation et la confiance en la traduction automatique ?

Lynne Bowker : Tout d’abord, selon moi, la littératie de la traduction automatique suppose certains pré-requis à une utilisation efficace et réfléchie. Contrairement aux autres types de connaissances informatiques, celle-ci relève plus d’un processus cognitif que technique. Autrement dit, de savoir si le contenu à traduire se prête à la TA ou non, mais aussi comment optimiser le résultat, en pré-éditant le texte source par exemple. Trois grandes catégories de personnes utilisent la TA :

  • le grand public, à des fins personnelles ;
  • les professionnels de la traduction souhaitant intégrer la TA dans leur processus ;
  • les étudiants en langues ou linguistique.

Toutes ces personnes ont des connaissances relatives à la traduction et des finalités différentes. De ce fait, l’enseignement doit être adapté aux différents types d’utilisateurs pour répondre à leurs besoins respectifs. Je constate un manque d’objectivité de la part de certains acteurs du monde de la traduction, qui ont tendance à véhiculer une image catastrophique de la TA. Ces idées reçues ne renseignent en aucun cas le grand public qui, en fin de compte, l’utilisera tout de même, donc autant les aider à utiliser cet outil de la manière la plus éclairée possible.

Lettie Dorst : Je confirme dans la mesure où ces affirmations, quelles qu’elles soient, n’instruisent en rien l’utilisateur lambda. J’ai remarqué qu’il y a deux types de messages qui reviennent concernant l’informatique en général : soit tout fonctionne à merveille, soit pas du tout. Certes, grâce à la traduction automatique, nous obtenons une certaine équivalence linguistique concernant la syntaxe et la terminologie, mais le travail des traducteur ne se résume pas à cela. C’est une des problématiques que j’aborde dans le cadre de mon projet sur la traduction automatique (lien en anglais). Techniquement, il ne s’agit pas de « traduction automatique », car ce n’est pas de la traduction à proprement parler, mais plutôt une application d’algorithmes informatiques. J’enseigne à mes étudiants que c’est une machine qui ne comprend pas ce qu’elle produit, qui ne lit pas le texte et qui ne communique rien du tout. Ils adoptent en conséquence un raisonnement plus critique, notamment pour une éventuelle utilisation ainsi que les motifs de cette démarche.

Rudy Loock : En effet, la TA est trop facile d’utilisation. Je le constate avec les étudiants qui, qu’ils soient en traduction ou non, accordent une confiance totale à ce que la machine propose. Ce qui apparaît à l’écran n’est jamais exact et, de fait, il est impératif de disposer d’un esprit critique. Les étudiants toutes spécialités confondues utilisent la TA. La technologie a ses limites, car on y rencontre des problèmes de richesse lexicale, des ambiguïtés, et elle peut même générer un langage discriminatoire. Concernant les étudiants en traduction, l’enseignement de la TA est abordé sous un autre angle, étant donné qu’ils ont une différente approche envers cet outil. Lors d’un projet de traduction, ils doivent être en mesure de déterminer si la TA peut intégrer le processus traductif. De plus, le type d’outil a aussi son importance, car à l’heure actuelle, les entreprises développent leurs propres outils de TA. Je dirais qu’une sensibilisation à la TA est donc impérative et doit être définie selon le profil de l’utilisateur.

Le processus cognitif n’est pas le même en traduction ni en révision ou bien en post-édition, et je crains que, en ayant recours à cette dernière, les étudiants en oublient la formation à l’élaboration d’une traduction et aux processus cognitifs qui y sont liés.

LD : Avant toute chose, je pense qu’il faut garder en tête le profil des étudiants dont il est question, notamment s’il s’agit d’étudiants en langues, en traduction ou d’étudiants d’autres filières qui utilisent la TA comme simple outil. Concernant les étudiants en traduction, il est capital d’approfondir leurs propres compétences en traduction, de même que pour la relecture, tout en les couplant à l’utilisation d’outils de TAO. En outre, ils doivent apprendre à la fois la révision et la post-édition. Lorsque je corrige des travaux d’étudiants, ils sont en mesure de différencier chacune de ces tâches, les compétences liées à celles-ci, qui se complètent les unes les autres. Avec la pratique, ils se rendent compte qu’il s’agit d’opérations bel et bien distinctes. J’estime qu’il est de notre devoir de faire prendre conscience à nos étudiants de leurs forces et faiblesses. Certains sont très à l’aise en traduction et moins en révision. L’inverse est aussi vrai. D’autres brillent en post-édition ; en revanche, ils feraient de mauvais traducteurs. D’autres encore sont de très bons traducteurs mais ne remarquent pas les erreurs produites par la TA ou ne savent pas comment les corriger sans retraduire de zéro.

RL : Traduire et post-éditer sont deux tâches différentes en effet. La plupart conviendra qu’on ne peut être un bon post-éditeur sans être au départ un bon traducteur, la difficulté principale étant de corriger les erreurs et d’améliorer le résultat généré par la machine. Pour appuyer le fait que le traducteur humain doit rester au cœur du processus traductif, certains parlent de « traduction orientée vers l’humain » (human-centered translation).

LB : La question de l’introduction des outils de TA ne date pas d’hier, même quand celle-ci ne jouait pas encore un rôle majeur. Cette même problématique s’est posée lors de l’arrivée des mémoires de traduction. Il n’existe aucune solution prédéterminée. D’une part, posséder de bonnes compétences traductionnelles serait bénéfique à une utilisation efficace de la TA. D’autre part, la post-édition est une compétence, tout comme la traduction, qui peut être améliorée au fil du temps. Par conséquent, il subsiste un certain avantage à l’introduire tôt et à développer lesdites compétences en parallèle. Certains étudiants sont susceptibles de se spécialiser en post-édition. A contrario, on trouve des étudiants destinés à devenir traducteurs et qui vont se servir de leur expérience en TA afin de défendre leur valeur ajoutée lors du processus traductif. Je suis d’avis que les traducteurs et post-éditeurs peuvent se compléter.

Comme le résultat de la TA est une probabilité statistique d’une proposition de traduction, serait-il pertinent de former les utilisateurs afin de déterminer si une suggestion n’a rien à voir avec le sens du texte source ?

RL : Tout à fait. Pour moi cela fait partie des notions à acquérir, et cela vaut également pour la langue maternelle. Pour ce faire, une maîtrise de la langue cible est de rigueur.

LB : Une majeure partie du métier de traducteur et l’utilisation de la TA consiste en des prises de décisions et d’appréciations. Un outil de TA, qui repose en partie sur la probabilité statistique, fera en sorte de suggérer une proposition de traduction. Vient le rôle du traducteur de se prononcer pour un choix plutôt qu’un autre.

Un module dédié à la sensibilisation à la TA dans l’enseignement secondaire serait-il judicieux ?

RL : Personnellement, je ne consacrerais pas de cours spécifique à la TA, même pour les étudiants de licence. Il aurait plutôt sa place en cours de langues ou de traduction.

LD : Je l’aurais intégré aux modules du tronc commun de première année à l’université qui abordent l’accès, l’utilisation des plateformes universitaires en ligne ainsi que l’utilisation des logiciels de bureautique.

LB : Je pense que les étudiants en fin de cycle secondaire ou au début à l’université sont les cibles idéales, étant donné qu’ils commencent à forger leur propre opinion. Cependant,associer des cours de sensibilisation à la TA exclusivement aux cours de langues serait réducteur, car une grande majorité d’utilisateurs lambda de la TA ne parlent pas la langue source.

Avoir recours à un outil gratuit permettrait au site d’exploiter nos données afin d’enrichir leurs services. Quels sont les risques et problèmes ?

LB : Tout dépend du type de contenu. S’il contient des informations sensibles, il est préférable de faire preuve de conscience professionnelle en respectant le souhait du client, et donc de s’en abstenir. Il ne faut pas hésiter à en discuter avec le client ; la solution parfaite n’existe pas.

RL : L’éthique fait partie des fondamentaux, notamment pour les futurs professionnels de la traduction. Négliger cet aspect peut engendrer de lourdes répercussions, comme l’illustre cette histoire (en anglais) d’une agence de voyages norvégienne dont les informations confidentielles ont été exposées au grand public, à la suite de l’utilisation d’un outil de TA en ligne gratuit. J’ajoute que, pour avoir un outil de TA efficace, ce dernier doit être alimenté par des données de qualité, issues de corpus parallèles de traductions réalisées par des humains. Lorsqu’on utilise un outil de TA, il est important de savoir sur quelles bases de données il a été créé. Quant à la collecte des données et à l’accord des utilisateurs, c’est une autre histoire. Bien sûr, l’éthique est essentielle à une utilisation éclairée de la TA par les professionnels du secteur, mais elle concerne tout autant les utilisateurs lambda.

LD : Ce qui est étonnant, c’est que les gouvernements ne prennent pas position sur ce sujet. Prenons l’exemple des Pays-Bas : par manque de traductions officielles, la population s’en remet à la TA pour comprendre les informations personnelles à caractère médical qui leur sont transmises. De plus,le service de l’immigration communique uniquement en néerlandais. Les traducteurs se retrouvent à gérer la question de l’éthique alors que ce ne sont pas les seules personnes à blâmer. Je pense qu’il faudrait aborder le sujet avec ceux qui obligent à utiliser la traduction machine. Dans les Conditions générales d’utilisation de ces outils, il est clairement mentionné que ces derniers sont en mesure de publier le contenu. Par ailleurs, Google lui-même indique que son outil de TA ne remplace pas la traduction humaine.

Comment utiliser la TA de façon responsable et éthique ?

LB : Il s’agit d’une question de morale. Si vous n’êtes pas disposé à l’utiliser, alors ne le faites pas. À mon avis, les utilisateurs prennent des décisions, mais pas en toute connaissance de cause, ou alors ils font au mieux avec ce qu’ils ont sous la main. En tant que représentants du domaine, notre rôle est d’informer le grand public. Pour finir, pourquoi devrions-nous attendre des personnes n’étant pas issues du métier de tout savoir sur ce que nous avons mis cinq à dix ans à apprendre ?

J’étudie la traduction et redoute le jour où l’on me demandera uniquement de post-éditer. Partagez-vous cette inquiétude ?

LD : Il faut s’en inquiéter seulement si vous n’excellez pas en traduction. Certes, de plus en plus d’agences tentent d’instaurer la traduction automatique, mais j’ai aussi l’impression que les étudiants ignorent une partie du secteur de la traduction où la TA n’est pas de mise et où est pratiquée une bien meilleure rémunération. Enfin, certains étudiants préfèrent post-éditer, et le résultat est satisfaisant. Je suis certaine que chacun y trouvera son compte.

LB : Comme mentionné auparavant, tous les types de contenu ne sont pas adaptés à la TA. De fait, les traducteurs humains ont une plus-value à faire valoir. C’est ce que nous explique dans cette vidéo David Jemielty, responsable du département des traductions à la Banque Cantonale Vaudoise (BCV).

Pour aller plus loin concernant la TA et les étudiants, je vous invite à consulter cet article rédigé par mes collègues de formation.

Un grand merci au #Translationcafé d’avoir accepté que je revienne sur cette table ronde dans le cadre du blog du Master TSM.

Retrouvez toutes les actualités du #TranslationCafé sur le compte Twitter (en anglais) : @LetsTalkXl8.

Ce billet est une retranscription partielle des propos énoncés.

Sources :

Ahmad, Sami. 2017. « Google Neural Machine Translation – AI to Improve Translation Accuracy ». Technobyte. 28 avril 2017. https://technobyte.org/google-neural-machine-translation-translate/.

Gouvernement du Canada, Services publics et Approvisionnement Canada. 2020. « Littératie de la traduction automatique : pour une éthique de l’intérêt commun – Blogue Nos langues – Ressources du Portail linguistique du Canada – Langues – Identité canadienne et société – Culture, histoire et sport – Canada.ca ». 19 octobre 2020. https://www.noslangues-ourlanguages.gc.ca/fr/blogue-blog/litteratie-traduction-automatique-machine-translation-ethics-fra.

« O’Brien et Ehrensberger-Dow – 2020 – MT Literacy—A cognitive view.pdf ». s. d. https://digitalcollection.zhaw.ch/bitstream/11475/20864/3/2020_OBrien-Ehrensberger-Dow_MT-Literacy_JBE.pdf.

O’Brien, Sharon, et Maureen Ehrensberger-Dow. 2020. « MT Literacy—A Cognitive View ». Translation, Cognition & Behavior 3 (2): 145‑64. https://doi.org/10.1075/tcb.00038.obr.

« Traduction automatique : faire les bons choix avant de commencer ». 2021. MasterTSM@Lille (blog). 14 février 2021. https://mastertsmlille.wordpress.com/2021/02/14/traduction-automatique-faire-les-bons-choix-avant-de-commencer/.

« Traduction automatique : les algorithmes ont-ils des préjugés ? » 2019. MasterTSM@Lille (blog). 10 novembre 2019. https://mastertsmlille.wordpress.com/2019/11/10/traduction-automatique-les-algorithmes-ont-ils-des-prejuges/.

« Traduction automatique : nouvelle alliée des étudiants en traduction ? » 2020. MasterTSM@Lille (blog). 13 décembre 2020. https://mastertsmlille.wordpress.com/2020/12/13/traduction-automatique-nouvelle-alliee-des-etudiants-en-traduction/.

Traduction, par Colivia. 2021. « Le Deep Learning en traduction automatique, qu’est-ce que c’est ? » Colivia Traduction (blog). 28 mai 2021. https://colivia-traduction.com/le-deep-learning-en-traduction-automatique-quest-ce-que-cest/.

« Translate.Com Exposes Highly Sensitive Information in Massive Privacy Breach ». 2017. Slator. 7 septembre 2017. https://slator.com/technology/translate-com-exposes-highly-sensitive-information-massive-privacy-breach/.

Translating for Europe. s. d. #2019TEF – KEYNOTE SPEECH – The added value of translation. https://www.youtube.com/watch?v=qGGaEnRECHc.

« #Translation Cafe ». s. d. Eventbrite. https://www.eventbrite.co.uk/e/136411876595?aff=efbneb.

« Understanding (the Value of) Machine Translation ». s. d. Leiden University. https://www.universiteitleiden.nl/en/news/2020/05/understanding-the-value-of-machine-translation.

J’ai testé pour vous… Traduire, la nouvelle application de traduction d’Apple

Par Margaux Mackowiak, étudiante M2 TSM

Que vous possédiez un iPhone ou non, vous aurez peut-être entendu parler de la nouvelle application de traduction développée par Apple : Apple Translate, ou tout simplement nommée Traduire en français. L’app (nom donné par la marque à la pomme à ses applications) a été introduite avec la version iOS 14 annoncée en juin dernier lors de la WWDC 2020, à savoir la conférence mondiale des développeurs Apple, et installée automatiquement en effectuant la mise à jour iOS 14 depuis septembre. Parmi l’ensemble des moteurs de traduction automatique déjà présents sur le marché, l’app Traduire a-t-elle les atouts nécessaires pour leur faire concurrence ? C’est l’enquête que j’ai décidé de mener pour vous dans ce billet.

Prise en main et ergonomie

Lors du premier lancement de l’app, vous pourrez suivre un tutoriel vous indiquant de façon claire et simple les différentes fonctionnalités de l’outil de traduction et la manière de l’utiliser.

D’un point de vue ergonomique, l’interface est fluide et épurée, les couleurs sont neutres et agréables et s’adaptent en fonction du mode clair ou sombre paramétré dans les réglages de votre appareil. L’outil est simple d’utilisation, seuls quelques boutons sont présents à l’écran et leur utilité est rapidement identifiable, notamment après avoir lu le tutoriel. Sur ce point, nous pouvons admettre que l’interface est ergonomique.

Fonctionnalités

Nous avons le choix parmi 11 langues sources et cibles disponibles, et une supplémentaire selon la région géographique : l’allemand, l’anglais (des États-Unis ou du Royaume-Uni), l’arabe, le chinois (mandarin simplifié), le coréen, l’espagnol (d’Espagne), le français (de France), l’italien (d’Italie), le japonais, le portugais (du Brésil), ainsi que le russe.

Ce nombre est conséquent puisque, par comparaison, le moteur de traduction automatique à base de réseaux neuronaux DeepL ne propose qu’une variante géographique de plus. En incluant l’anglais britannique et l’anglais américain, nous arrivons ainsi à 130 combinaisons de paires de langues possibles pour Traduire.

De plus, l’outil d’Apple propose non seulement un système de traduction textuel, mais aussi vocal.

Qualité de traduction

Pour évaluer la qualité de Traduire, je vais comparer les traductions proposées par l’outil avec celles de DeepL et de Google Traduction et je vais le tester sur les problèmes récurrents rencontrés lors de l’utilisation des autres moteurs de traduction automatique.

Pour commencer, j’ai choisi un extrait du tutoriel officiel d’Apple en anglais, How to use Translate on your iPhone. Voici la traduction proposée par Traduire :

Traduire a donc traduit “When you download a language to use offline, it might take up space on your iPhone. You can remove a downloaded language whenever you want.” par « Lorsque vous téléchargez une langue pour utiliser hors ligne, cela pourrait prendre de la place sur votre iPhone. Vous pouvez supprimer une langue téléchargée quand vous le souhaitez. » Or, la version française de ce passage sur la page du tutoriel d’Apple en français est : « Le téléchargement d’une langue hors ligne peut occuper de l’espace sur votre iPhone. Vous pouvez à tout moment supprimer une langue téléchargée. »

On observe ainsi que la traduction de Traduire est compréhensible, certes, mais très littérale. L’app nous offre une traduction mot à mot, ce qui ne ferait pas l’affaire dans un texte officiel.

Pour tester l’outil sur la traduction de titres d’articles, j’en ai sélectionné un sur un sujet on ne peut plus d’actualité : celui de la Covid-19.

Ainsi, pour Coronavirus: UK ‘remains in containment phase’ – Johnson, l’app Traduire le traduit en français par Coronavirus : UK « reste en phase de confinement » – Johnson. On voit donc que l’outil n’a pas traduit ‘UK’ par ‘Le Royaume-Uni’, comme le font DeepL et Google Traduction. En français, il est aussi coutume d’ajouter le prénom et de ne pas uniquement nommer une personnalité par son nom de famille, ce que les moteurs de traduction automatique ne prennent pas encore en compte.

Ensuite, j’ai voulu vérifier si l’outil saurait localiser des éléments propres à différents pays. Pour ce faire, j’ai choisi un extrait de mode d’emploi d’un trotteur pour bébé. Voici la traduction d’une phrase tirée de la partie information des consommateurs :

Traduire a donc traduit “Call Consumer Relations 8 AM – 6 PM EST Monday through Friday.” par « Appelez Relations avec les consommateurs de 8 h à 18 h HNE du lundi au vendredi ». Pour cette même phrase, DeepL et Google Traduction proposent « Appelez le service des relations avec les consommateurs de 8 h à 18 h HNE du lundi au vendredi. »

L’app d’Apple a traité ‘Consumer Relations’ comme un nom propre, contrairement aux deux autres moteurs qui l’ont correctement traduit. En outre, les trois outils ont traduit EST (Eastern Standard Time) par HNE (heure normale de l’Est), mais n’ont pas localisé les chiffres en UTC+1, l’heure locale.

Voyons à présent ce qu’il en est des préjugés. Les moteurs de traduction automatique sont connus pour contenir des algorithmes qui reproduisent des stéréotypes racistes ou sexistes provenant des humains, comme en témoigne le billet de blog d’Estelle Peuvion de novembre 2019.

Qu’en est-il du cas de Traduire ? Pour le savoir, j’ai choisi deux métiers du corps hospitalier, à savoir les termes infirmier/infirmière et chirurgien/chirurgienne. Découvrons comment se comporte Traduire avec ces mots.

Si je saisis le texte suivant : “The nurse entered the room. He gave me my medicine.”, Traduire propose « L’infirmière est entrée dans la chambre. Il m’a donné mes médicaments. »

En plus de traduire ‘nurse’ par ‘infirmière’ par défaut, l’outil ne corrige pas le genre alors même que j’ai précisé qu’il s’agissait d’un homme dans la phrase suivante. DeepL et Google Traduction reproduisent la même erreur.

Dans l’exemple suivant, Traduire traduit “The surgeon asked her colleague to give her a scalpel.” par « Le chirurgien a demandé à sa collègue de lui donner un scalpel. »

Là encore, le genre n’est pas inconnu puisque j’ai indiqué à deux reprises qu’il s’agissait d’une femme. Toutefois, la machine considère que le spécialiste est un homme et que le collègue est une femme. Google Traduction propose la même solution, tandis que pour DeepL, les deux protagonistes sont des hommes.

Il est donc clair que l’ensemble des moteurs de traduction automatique reproduisent des clichés, et que, depuis l’article d’Estelle Peuvion mentionné précédemment, la situation n’a pas réellement évolué.

Pour terminer, j’ai choisi un exemple simple en me mettant à la place d’une touriste qui désire prendre un repas dans un restaurant.

Ici, la machine nous propose un faux sens. En retraduisant vers le français, le texte obtenu signifierait : « Bonjour, voudriez-vous savoir si vous mangez encore ? », ce qui est loin de notre texte source d’origine. La traduction correcte en anglais aurait été “Hello, I would like to know if you are still serving food?”. On constate que l’outil peut donc commettre des erreurs, même pour des questions simples que n’importe quel individu pourrait poser lors d’un séjour à l’étranger.

J’ai ici mis en exergue des erreurs qu’a commises la machine lorsque je l’ai testée, mais évidemment, cela n’arrive pas pour chaque phrase entrée par l’utilisateur. L’outil peut proposer des traductions correctes, toutefois, il est important de soulever les erreurs qu’il est susceptible de commettre pour savoir dans quelle mesure l’utiliser.

Aspects positifs et négatifs

S’offre à nous la possibilité de consulter l’historique récent de nos recherches en balayant l’écran vers le bas, ainsi que d’ajouter des traductions en favori qui seront enregistrées dans l’onglet Favorites en cliquant sur l’étoile.

Un dictionnaire est également intégré et accessible en touchant l’icône associée ou en appuyant directement sur un mot de la traduction proposée.

En outre, nous avons l’option de télécharger les langues que nous souhaitons pour pouvoir les utiliser en mode hors ligne, lors d’une absence de connexion Internet.

Lorsque le téléphone est incliné en mode paysage, l’outil permet de traduire des mots prononcés oralement en appuyant sur l’icône du micro. Si l’option de détection automatique est activée au préalable, l’outil reconnaîtra la langue parmi les deux sélectionnées et une voix lira automatiquement la traduction. Celle-ci pourra être réécoutée en appuyant sur l’icône de lecture (le symbole du triangle). L’icône de flèches en sens opposé permet, quant à elle, d’afficher la traduction proposée par l’outil en grands caractères blancs sur fond bleu.

Néanmoins, l’insertion de texte se fait uniquement en mode portrait, l’utilisation du micro étant requise en mode paysage.

L’app est gratuite mais uniquement accessible aux utilisateurs d’Apple propriétaires d’un iPhone avec la version iOS 14 ou une version ultérieure, elle ne détecte pas automatiquement les langues, et il se peut qu’elle commette des erreurs de traduction majeures.

Conclusion

Traduire s’avère particulièrement utile pour les personnes possédant un iPhone. À portée de main, cette application intégrée au smartphone permet de communiquer assez facilement dans une langue qu’on ne maîtrise guère, en voyage à l’étranger ou tout simplement en complément lorsqu’on désire en apprendre une nouvelle, et cela est d’autant plus vrai grâce au micro intégré. L’app est épurée, facile d’accès et simple d’utilisation.

Cependant, il faut se méfier des erreurs types des moteurs de traduction automatique, telles que la reproduction des stéréotypes, les contresens ou encore la non-traduction. Nous avons également vu que l’app peut fournir des traductions erronées, même pour des phrases simples.

Pour pouvoir être utilisée pour de la post-édition comme DeepL Pro par exemple, il faudrait que l’app soit disponible sur MacBook, ce qui n’est pas (encore) le cas, et qu’elle s’améliore sur les aspects négatifs mentionnés tout au long de cette analyse.

Évidemment, ce billet est basé en grande partie sur mon avis et mon expérience en tant qu’utilisatrice de l’application et étudiante en traduction. Des études seraient nécessaires pour mesurer le taux d’erreurs de l’outil et il faudrait les comparer avec celles réalisées jusqu’à présent pour les autres moteurs de traduction automatique. Il s’agit d’une application prometteuse, utile pour les particuliers, mais qui est pour l’instant loin d’être suffisante pour les professionnels de la traduction dans un contexte de post-édition. L’app Traduire ayant été introduite récemment, gardons toutefois à l’œil ce qu’Apple lui réserve, d’autant plus que peu d’éléments sont dévoilés à son sujet, comme le type de corpus qui la constitue et son degré de confidentialité.

Les images de ce billet sont des captures d’écran réalisées par mes soins via l’application pour iPhone ‘Traduire’, propriété d’Apple.

Sources :

App Store. « ‎Traduire ». https://apps.apple.com/fr/app/traduire/id1514844618

Apple Support. « How to Use Translate on Your IPhone », 16 septembre 2020. https://support.apple.com/en-us/HT211671

Apple Support. « Traduire du texte et des voix sur l’iPhone ». https://support.apple.com/fr-fr/guide/iphone/iphd74cb450f/ios

Apple Support. « Utiliser Traduire sur votre iPhone », 29 octobre 2020. https://support.apple.com/fr-fr/HT211671

« Containment Phase “Unlikely to Work on Its Own” ». BBC News, 9 mars 2020. https://www.bbc.com/news/av/uk-51809498

Innocente, Florian. « iOS 14 : « Traduire », l’app d’Apple pour les vacances à l’étranger ». iGeneration, 27 juin 2020. https://www.igen.fr/ios/2020/06/ios-14-une-app-traduire-pour-les-francais-mauvais-en-langues-etrangeres-115921

« Instruction d’utilisation Fisher-Price STRIDE-TO-RIDE WALKER 73499 ». Manualsbase.com. https://www.manualsbase.com/fr/manual/640474/baby_walker/fisher-price/stride-to-ride_walker_73499/

Loock, Rudy. Cours de recherche en traduction automatique dispensé en Master 2 de Traduction spécialisée multilingue à l’Université de Lille.

Peuvion, Estelle. « Traduction automatique : les algorithmes ont-ils des préjugés ? » MasterTSM@Lille (blog), 10 novembre 2019. https://mastertsmlille.wordpress.com/2019/11/10/traduction-automatique-les-algorithmes-ont-ils-des-prejuges/

Turcan, Marie. « iOS 14 est disponible : voici toutes les nouveautés sur votre iPhone ». Numerama, 17 septembre 2020. https://www.numerama.com/tech/632269-ios-14-toutes-les-nouveautes-a-venir-sur-iphone.html

Van der Vorst, Sarah et Pacinella, Quentin. Cours de traduction automatique et post-édition dispensé en Master 2 de Traduction spécialisée multilingue à l’Université de Lille.

Traduction automatique : nouvelle alliée des étudiants en traduction ?

Par Marisa Dos Santos, étudiante M2 TSM

Bien que son utilisation, ou non, reste un choix personnel, on ne peut plus nier aujourd’hui l’utilité de la traduction automatique pour les traducteurs. De plus en plus présente, on sait qu’elle inquiète certains professionnels du marché, mais également les futurs diplômés en traduction. Quel étudiant (ou professionnel d’ailleurs) n’a jamais entendu une fois dans sa vie quelqu’un lui dire « Ah oui mais tu sais, dans dix-quinze ans tu n’auras plus de travail… Je le sais moi, j’ai utilisé Google traduction la semaine dernière, c’est top ce truc, ça marche super bien ! » ? Premièrement, pas d’inquiétude : si l’on écoutait tous les détracteurs du métier, la traduction automatique aurait dû nous évincer il y a déjà de ça 50 ans.

Ensuite, le métier de traducteur, eh bien oui, il évolue comme bien d’autres métiers. Et surprise : lui aussi doit s’adapter aux avancées technologiques. Alors, depuis quelques années, un nouveau nom de métier est apparu et commence tout doucement à faire son nid : celui du post-éditeur. L’apparition de ce genre de nouveaux métiers demande au traducteur d’être constamment à l’affut des nouveautés et des actualités du marché. Mais alors, qu’en est-il des étudiants en traduction ? Peuvent-ils réellement atteindre ce principe de « MT literacy » selon lequel un universitaire devrait, entre autres, savoir dans quel contexte utiliser ou non la traduction automatique, pratiquer correctement la pré-édition afin que la traduction machine soit de meilleure qualité ou encore post-éditer efficacement les productions de la traduction automatique afin que le texte final soit de qualité optimale ?

Les chiffres clés de la traduction automatique

La traduction automatique a fait son apparition sur le marché du grand public dans les années 1980 sous la forme de traduction automatique à base de règles. Rapidement, l’intérêt pour cette nouvelle technologie s’est développé et de grandes avancées ont été accomplies, pour arriver au lancement de la traduction statistique dans les années 2000. Cette technologie fonctionnait déjà bien mieux que la précédente, mais est arrivée en 2015 la fameuse traduction automatique neuronale, celle qui a bouleversé le marché et qui effraie ou fascine tant de personnes.

En effet, ce nouveau modèle de traduction utilise des réseaux neuronaux pour produire des traductions très similaires aux traductions humaines. Décriée par certain, adulée par d’autres, elle est au centre du débat traductologique ces dernières années. Elle occupe une place de plus en plus importante dans le marché du travail, et ce n’est pas près de s’arrêter. En effet, d’après l’enquête European Language Industry Survey menée en 2020, 78 % des sociétés de services linguistiques participant à ladite enquête prévoient de commencer ou d’augmenter l’utilisation de la traduction automatique et de la post-édition au sein de leur structure. Alors pour beaucoup de professeurs, il est impératif que les étudiants en traduction soient formés à ces nouvelles disciplines afin de ne pas se retrouver perdus une fois dans le marché.

Qu’en pensent donc les étudiants ?

De nombreux chercheurs se sont penchés sur les capacités de post-édition d’étudiants n’ayant jamais pratiqué la matière ou à qui elle n’avait jamais été enseignée, ainsi que sur leurs ressentis face à cette nouvelle tâche. Leur but était de savoir comment enseigner la traduction automatique et en conséquence, la post-édition, et de comprendre si ces deux disciplines représenteraient une réelle aide, voire un réel atout, pour eux. Pour ce faire, nombre d’entre eux ont alors demandé à leurs étudiants de post-éditer un texte et ont ainsi analysé différents paramètres. Certains élèves ont été amenés à répondre à des questionnaires pré-test, et généralement, les résultats étaient plutôt similaires.

Les étudiants qui prenaient part aux études estimaient généralement qu’ils ne se sentaient pas capables d’utiliser correctement la traduction automatique et de produire une post-édition convenable. Toutefois, en général, les étudiants ont jugé que la traduction automatique et la post-édition pouvaient leur permettre d’améliorer leur productivité bien qu’ils y voient des risques, qu’ils en aient peur ou qu’ils ne sachent pas l’utiliser. Ces résultats antérieurs aux tests prouvent que la traduction automatique et la post-édition font encore débat, même chez les étudiants et qu’il serait utile de lever leurs doutes lors de la formation universitaire.

Évaluation des besoins des étudiants

C’est exactement ce sur quoi se sont penchés plusieurs professeurs-chercheurs. Leur but : comprendre comment enseigner la traduction automatique et la post-édition afin que son enseignement soit vu comme une compétence à maîtriser plutôt que comme un simple outil technologique à appréhender. Alors certains professionnels, comme Sandrine Peraldi, ont mis en place des ateliers lors desquels les étudiants de master ont tenté d’évaluer les taux de réussite de plusieurs traducteurs automatiques afin de la proposer à un véritable client. Au travers de cette expérience, ils ont pu, entre autres, découvrir l’activité de post-édition et, grâce à quantification et classification des erreurs de la traduction automatique, d’évaluer les efforts cognitifs que leur demandait cette tâche. Ils ont ainsi réussi à proposer une solution de post-édition à leur client avec de véritables résultats.

Aussi, pour connaître les besoins des étudiants, d’autres professeurs ont adopté un mode de fonctionnement différent : ils ont tenté de voir si les étudiants arrivaient à reconnaître correctement les erreurs de la traduction automatique et comment les corrigeaient-ils. La plupart des résultats concordaient : les étudiants n’avaient, généralement, pas de mal à reconnaître les erreurs de syntaxe ou les erreurs très évidentes que produisait l’outil de traduction automatique, mais avaient quelques difficultés à reconnaître certaines erreurs typiques de la traduction automatique comme les calques et contre-sens, notamment avec les faux-amis.

Erreurs de correction

Pourquoi cela ? Eh bien, il y a diverses explications. Pour certains, c’est parce qu’ils font trop confiance à la machine, et ont donc tendance à laisser passer certaines erreurs. Cette confiance excessive les amène même à effectuer moins de modifications lors d’une post-édition que lors de la révision de leurs propres traductions. D’autres ont observé que les erreurs de la traduction neuronale étaient certes, moins nombreuses que celles de la statistique, mais plus dures à corriger et à repérer puisque très similaires aux erreurs humaines et étaient généralement les mêmes que faisaient naturellement les étudiants dans leurs traductions, à savoir les faux et contre-sens : elles passent donc souvent à la trappe. Pour d’autres, cela pouvait aussi être dû au fait que les étudiants se sentaient facilement débordés par la quantité d’information à traiter lors de cet exercice et ajoutaient même parfois des erreurs au texte. Lié à ce manque de concentration, plusieurs études ont révélé que lors d’une post-édition, le traducteur passera moins de temps à lire et à observer le texte source que lors d’une traduction humaine, alors même que dans le cas d’une post-édition complète, il faut autant prêter attention au texte source que pour une traduction sans traducteur automatique. Généralement, les étudiants ayant pris part à une expérience d’eye-tracking ont passé deux fois plus de temps à regarder le texte cible lors d’une post-édition que lors d’une traduction humaine.

Pour conclure, dans l’étude de Masaru Yamada de 2019, il a été démontré que même avec la traduction automatique neuronale, les étudiants ne réussissaient pas à atteindre le taux de 85 % d’erreurs corrigées demandé pour atteindre les standards de qualité professionnels.

Tous ces résultats prouvent qu’il est nécessaire pour les étudiants de connaître à l’avance quelles sont les erreurs les plus communes que produisent les outils de traduction automatique, qu’elle soit neuronale ou statistique, afin de correctement les repérer, les corriger plus facilement et être aptes à maîtriser et utiliser ces outils individuellement ou en modèle hybride. C’est donc un point que plusieurs chercheurs proposent d’aborder dans l’enseignement de ces disciplines.

Effort cognitif et retour des étudiants

Mais qu’en est-il de l’effort que demande une post-édition et du ressenti des étudiants face à cette discipline ?

Un phénomène a été observé dans plusieurs études : bien que parfois, le ressenti des participants puisse être contraire à ce postulat, la post-édition demande autant, si ce n’est plus, d’effort et de compétence que la traduction humaine. Certaines études ayant été menées avec comme texte de référence des textes spécialisés, il a parfois été démontré que la post-édition rendait même la tâche plus compliquée pour les étudiants, et qu’ils se retrouvaient perdus ou perdaient énormément de temps à détecter et corriger les erreurs de la machine, résultant en la production d’un texte qui n’atteignait pas du tout les standards de qualité professionnelle, surtout d’un point de vue stylistique.

Après les tests, certains étudiants ont déclaré avoir une meilleure perception des outils de traduction automatique, quand d’autres ont affirmé que leur vision avait empiré. Néanmoins, nombre d’entre eux ont avoué avoir peur de la traduction automatique car ils craignaient d’être remplacés.

Ces observations prouvent une fois de plus qu’il est impératif de considérer la traduction automatique et la post-édition comme des matières ayant toute leur place au sein d’un cursus en traduction et qu’il ne faut pas, ou plus, les mépriser, puisque sans formation préalable, les étudiants ont beaucoup de mal à produire un texte satisfaisant.

Conclusion

Cette année, au sein du master TSM, nous avons pu découvrir le processus de post-édition et nous avons appris à appréhender les outils de traduction automatique. Et je pense que grâce à cela, nous avons peut-être moins peur de la traduction automatique ou de la post-édition par rapport à des étudiants qui n’auraient jamais eu l’occasion de démystifier la traduction machine.

Il est donc possible de conclure que oui, la traduction automatique constitue une nouvelle alliée pour les étudiants en traduction, à condition qu’ils soient mis en garde des faiblesses des moteurs et qu’ils apprennent à les manier pour pouvoir répondre aux exigences du marché. La traduction automatique ne doit plus constituer une crainte pour l’avenir des futurs professionnels mais doit devenir un outil du quotidien leur permettant d’augmenter leur productivité. Il est également nécessaire de guider les professeurs lors de l’enseignement de ces matières afin qu’ils guident à leur tour les étudiants vers une meilleure identification des erreurs et par conséquent, une meilleure correction. Ce sont pour toutes ces raisons que la mise en place d’enseignements autour de ces disciplines est essentielle : il faut prouver aux élèves que la machine représente une aide pour leur futur métier plutôt qu’une menace.

Ce billet est issu d’une mini-conférence tenue aux côtés de Margaux Mackowiak dans le cadre du cours de recherche en traduction automatique de la deuxième année de master.

Sources :

EUROPEAN LANGUAGE INDUSTRY SURVEY (2020), https://ec.europa.eu/info/sites/info/files/2020_language_industry_survey_report.pdf

de Faria Pires, Loïc. (2020). Master’s students’ post-editing perception and strategies. FORUM. Revue internationale d’interprétation et de traduction / International Journal of Interpretation and Translation. 18. 24-44. 10.1075/forum.19014.pir, https://www.researchgate.net/publication/341408521_Master’s_students’_post-editing_perception_and_strategies/citation/download

Peraldi, Sandrine (2018). Les 12 travaux de la Traduction automatique. Journée d’études Traduction et qualité : « Biotraduction et traduction automatique ». / Université de Lille, https://tq2018.sciencesconf.org/data/pages/Lille_SPeraldi_Les_12_travaux.pdf

Yamada, Masaru. (2019). The impact of Google Neural Machine Translation on Post-editing by student translators. The Journal of Specialised Translation. 87-106. https://www.researchgate.net/publication/330831614_The_impact_of_Google_Neural_Machine_Translation_on_Post-editing_by_student_translators/citation/download

Sycz-Opoń, Joanna & Gałuskina, Ksenia. (2017). Machine Translation in the Hands of Trainee Translators – an Empirical Study. Studies in Logic, Grammar and Rhetoric. 49. 10.1515/slgr-2017-0012. https://www.researchgate.net/publication/316530023_Machine_Translation_in_the_Hands_of_Trainee_Translators_-_an_Empirical_Study/citation/download

O’Brien, Sharon & Ehrensberger-Dow, Maureen (2020). MT Literacy – A cognitive view. Translation Cognition & Behavior. 3. 145-164. 10.1075/tcb.00038.obr. https://www.researchgate.net/publication/345984536_MT_Literacy_-_A_cognitive_view

#TQ2020 Biotraduction et traduction automatique : retour sur la journée d’études Traduction et Qualité du 31 janvier 2020

 

Par Oriane Briand, étudiante M2 TSM

tq2020_site

 

Le laboratoire « Savoirs, Textes, Langage » du CNRS et l’UFR Langues Étrangères Appliquées de l’université de Lille ont organisé, pour sa 7e édition, une journée d’études consacrée à la biotraduction et à  la traduction automatique. Petit bilan du cru 2020.

L’année 2020 vient à peine de commencer, une décennie 2.0 pour cette journée d’études 2.0 elle aussi, puisque l’édition de 2018 était déjà dédiée à la traduction automatique (TA), aussi appelée traduction machine.

Le programme est chargé, l’amphithéâtre est bondé en cette belle journée de fin janvier. Cette journée a pour but de redéfinir le lien entre l’humain et la machine dans le monde de la traduction, un monde qui a en effet été chamboulé par l’arrivée de la traduction automatique neuronale. La journée se découpe en trois thématiques : traduction automatique et monde professionnel, traduction automatique et métiers de la traduction et enfin analyse de la traduction automatique. Dix intervenants se sont succédé sur l’estrade, universitaires comme professionnels, et ont tenté d’apporter leurs éléments de réponse.

La traduction automatique neuronale (TAN) a fait son apparition vers le milieu des années 2010. Auparavant, d’autres systèmes étaient utilisés comme la traduction automatique statistique (TAS). Alors que pouvons-nous attendre de la TAN et comment pouvons-nous l’utiliser comme un outil pour le traducteur, et non plus le voir comme une menace, comme elle est souvent perçue ?

Le fonctionnement de la TAN n’est pas évident pour tout le monde. Les algorithmes utilisés sont complexes et mystérieux. Et pourtant, elle est partout. Elle est utilisée par des millions de personnes tous les jours et fait partie intégrante de notre quotidien comme de notre environnement de travail. Mais quelle posture faudrait-il adopter face à ce trop-plein d’intelligence artificielle ?

Tout d’abord, il faut comprendre ce qu’est la traduction automatique neuronale et surtout, connaître ses points forts et ses points faibles. Car c’est en connaissant la machine avec laquelle nous travaillons que nous pouvons en retirer le meilleur. Par exemple, la TAN est capable de produire des sorties de textes fluides, ce qui peut parfois nous  tromper et donner l’illusion d’un texte bien traduit. Or, cette fluidité se fait, par exemple, au détriment de la terminologie. C’est lorsqu’on se penche sur le résultat qu’on se rend compte que le texte produit est incorrect. C’est pour cette raison que l’utilisation de la TAN ne peut se faire sans une intervention humaine, et, si cela peut vous rassurer, ne peut supplanter le traducteur comme on peut le penser. Mais comme pour chaque nouvelle avancée technologique, il faut se former et former les générations futures. Ainsi, enseigner de manière raisonnée l’utilisation de ce nouvel outil est crucial.

Aujourd’hui, l’intervention humaine face aux résultats de productions machine existe déjà. C’est le métier de post-éditeur. Lorsque nous regardons le marché de la traduction, il existe une certaine segmentation. Chacun son rôle et les moutons sont bien gardés. Mais l’émergence des nouvelles technologies (re)pose la question de l’organisation et de la gestion du projet de traduction. Par exemple, le post-éditeur ne pourrait-il pas être plus qu’un simple post-éditeur ? Il semble logique de demander son expertise à quelqu’un qui s’y connaît, qui est sur le terrain. Alors pourquoi ne pas faire appel aux connaissances et à l’expérience de quelqu’un qui travaille avec le contenu. Il est alors possible de redéfinir ce rôle et de l’impliquer à chaque étape du projet, que ce soit dans l’analyse de celui-ci (il peut estimer les délais, définir le processus le plus adapté…) ou dans ses étapes techniques. Il est important de redéfinir le rôle du post-éditeur dans les projets de TA, mais également redéfinir la gestion de ces projets. Chaque projet est unique, les résultats de TA sont variables tout comme l’effort de post-édition qui suit, et le post-éditeur ne peut qu’ajouter une plus-value.

Car la TAN n’est pas parfaite,  aujourd’hui encore, on tente de la décrypter. Il est important de comprendre ses faiblesses, mais également d’évaluer ce qu’elle produit. Il existe plusieurs méthodes. Quelques exemples :

  • La méthode BLEU, qui consiste à comparer une sortie machine avec une traduction humaine de référence
  • L’observation du système en le manipulant : modifier le texte source et observer si le texte cible se modifie en changeant les temps, les modes, les adjectifs, etc., et son inverse.
  • La dissection du système en ouvrant sa boite noire : interroger celle-ci pour tenter de prédire le résultat.
  • L’évaluation humaine : classement des résultats (par des professionnels ou non), identification et classement des erreurs.

Plusieurs études ont prouvé un gain de temps dans l’utilisation de la post-édition de traduction automatique neuronale, mais il est possible d’améliorer ses sorties de traduction en y incorporant de meilleures données d’apprentissage. Par exemple, une manière d’améliorer ce problème de terminologie serait d’incorporer des séries de textes spécialisés. Y incorporer ses propres corpus semble pour le moment compliqué, car les systèmes sont basés sur l’optimisation des algorithmes. Or, y incorporer ces données ferait baisser ce score d’optimisation. Il faudrait alors repenser le système et lui injecter ces connaissances dès le début de processus.

Comme vous pouvez l’avoir constaté, la traduction automatique neuronale génère de nombreuses questions et suscite un intérêt dans le monde de la traduction. Ses progrès ne semblent pas près de s’arrêter et en parler permet de découvrir de nombreux angles d’approche qui se complètent. Une approche raisonnée et scientifique permet de poser un regard critique sur la machine, et de réconcilier peut-être ce qui ne semblait pas être un couple évident : l’humain et la machine.

 

Un grand merci à Joss Moorkens, Caroline Rossi, Nathalie de Sutter, Geert Benoit, Guillaume Deneufbourg, Sarah van der Vorst, François Yvon, Hanna Martikainen, Orphée De Clercq et Rudy Loock, ainsi qu’à l’université de Lille en partenariat avec le laboratoire « Savoirs, Textes, Langage » du CNRS et l’Association française des formations universitaires aux métiers de la traduction (AFFUMT).

 

La #TQ2020 a été filmée, vous pourrez la visionner dès cette semaine sur la webTV de l’université de Lille et sur le site dédié à cette journée.

BLEU, un algorithme qui calcule la qualité des traductions machine

Par Loréna Abate, étudiante M2 TSM

De nos jours, la traduction machine occupe une place très importante sur le marché de la traduction, et fait couler beaucoup d’encre. Si vous êtes intéressés par le secteur de la traduction machine, il se peut même que vous ayez déjà entendu parler des métriques d’évaluation permettant d’évaluer la qualité des traductions machine. Classer les différents systèmes ou métriques d’évaluation peut donc s’avérer pertinent. Alors, qu’en est-il de ces systèmes d’évaluation ? Eh bien, il en existe une multitude. En effet, on trouve sur le marché les métriques BLEU, ROUGE, METEOR, NIST, WER, etc.

Pour ne pas finir par rédiger un mémoire de 120 pages, il fallait donc faire un choix. Dans ce billet, nous ferons un focus sur l’algorithme BLEU. Pourquoi BLEU, me direz-vous ? Car cette métrique, élaborée et développée en 2002 par Kishore Papineni pour la société IBM, est aujourd’hui l’une des métriques automatisées les plus populaires et les moins coûteuses.

BLEU permet d’attribuer un score à une traduction machine grâce à un système de mesure reposant sur des morceaux de phrases. Ces parties sont appelées « N-grammes », et leur fréquence est également évaluée à l’aide d’une comparaison entre un texte source et un texte cible. Je vous ai perdus ? Accrochez-vous, la suite de l’article arrive.

A background of rippled and folded deep royal blue fabric material.

Pas évident de dénicher une image agréable à regarder sur un sujet si théorique… Vous vous contenterez donc de ce joli bleu roi.

Dis-moi Jamy, qu’est-ce que BLEU ?

BLEU, acronyme pour Bilingual Evaluation Understudy, est en fait une mesure des différences entre une traduction machine et une ou plusieurs traductions de référence créées par l’humain pour une même phrase source. BLEU part donc du postulat que plus une traduction machine se rapprochera d’une traduction humaine et professionnelle, plus elle sera qualitative.

Une fois ces comparaisons réalisées, un score est attribué pour chaque phrase traduite. Puis, une moyenne est calculée sur l’ensemble du corpus afin d’estimer la qualité globale du texte traduit.

Le score BLEU se définit par un nombre compris entre 0 et 1 qui indique la similitude du texte dit « candidat » par rapport aux textes de « référence ». Tout se joue au niveau du nombre de correspondances. En effet, plus le score se rapproche de 1, plus les textes sont similaires. Une valeur égale à 0 indiquerait que la traduction automatique ne correspond en rien à la traduction de référence et serait donc de mauvaise qualité, tandis qu’un score égal à 1 signalerait une correspondance parfaite avec les traductions de référence et serait ainsi de bonne qualité.

Intéressant comme outil, comment ça fonctionne ?

Formation littéraire oblige, nous n’avons pas revu les exponentielles depuis le lycée (et j’en fais encore des cauchemars…) je vous épargne donc les explications de sa formule mathématique qui n’est pas des plus simples :

123

… vous voyez, l’image bleue du début n’était pas si mal.

 

Bref, voici quelques éléments nécessaires à la génération d’un score BLEU :

  • Une ou plusieurs traductions de référence humaine, qui devraient être inconnues du développeur du système de TA
  • Un texte d’au moins 1 000 phrases dans le but d’obtenir une mesure plus pertinente,
  • Si le texte candidat est jugé trop court par rapport à la référence, une pénalité de concision est appliquée sur la traduction,
  • La correspondance de « n-grammes », qui consiste à compter le nombre d’unigrammes (mot unique), de bigrammes (paire de mots), de trigrammes et de quadrigrammes (i = 1,…, 4) qui correspondent à leur équivalent de n-grammes au sein des traductions de référence. Les unigrammes permettent de calculer l’exactitude, tandis que les n-grammes plus longs rendent compte de la fluidité de la traduction.

En pratique, il est impossible d’obtenir un score parfait de 1, et ce, même pour un traducteur humain (à moins d’avoir une traduction mot pour mot identique à la traduction de référence). À titre d’exemple, sur un corpus d’environ 500 phrases, un traducteur humain a obtenu une note de 0,346 8 contre quatre références et de 0,257 1 contre deux références.

Un exemple, peut-être ?

Si l’on prend cette phrase simple : « Le renard brun et rapide sauta sur le chien paresseux », comment l’auriez-vous traduite ?

  1. The quick brown fox jumped over the lazy dog
  2. The fast brown fox jumped over the lazy dog
  3. The fast brown fox jumped over the sleepy dog

Si je vous dis que la traduction de référence est « The quick brown fox jumped over the lazy dog », voyons voir votre score BLEU :

  1. On obtient alors un score de… ? Oui, c’est bien ça, 1,0. Vous voyez, ce n’est pas si compliqué !
  2. En remplaçant le mot « quick » par le mot « fast », votre score chute alors à 0,750.
  3. Cette fois-ci, deux mots sont différents… Désolée, mais vous n’obtenez que 0,48.

Avec cet exemple simple, vous avez d’ores et déjà un aperçu du système de notation. Voici un deuxième cas de figure :

  • Si tous les mots sont différents sur le texte candidat, on obtient le pire score possible: 0,0.
  • Si le texte candidat comporte moins de mots que le texte de référence, mais que les mots sont tous corrects, le score est alors très semblable au score obtenu avec un seul mot différent, à savoir : 0,751.
  • Et avec deux mots de plus que le texte de référence ? À nouveau, nous pouvons voir que notre intuition était la bonne et que le score est équivalent à celui qui comporte deux mots erronés, à savoir: 0,786.
  • Enfin, prenons l’exemple d’une phrase qui serait trop courte en comportant seulement deux mots. L’exécution de cet exemple entraînerait d’abord l’apparition d’un message d’avertissement indiquant que l’évaluation portant sur les trigrammes et quadrigrammes ne peut pas être effectuée, puisque nous n’avons que les bigrammes avec lesquels travailler pour le candidat. Au-delà de cela, nous risquerions d’obtenir un score très bas : 0,030.

Est-ce pour autant suffisant pour évaluer la qualité ?

« Most of us would agree that competent human evaluation is the best way to understand the output quality implications of different MT systems. However, human evaluation is generally slower, less objective and more expensive, and thus may not be viable in many production use scenarios, where multiple comparisons need to be made on a constant and ongoing basis. » (Kirti Vashee, 2019, Understanding MT Quality)

La traduction automatique est un défi particulièrement difficile pour l’IA. Les ordinateurs sont amateurs de résultats binaires. Vous savez tout autant que moi que la traduction, c’est tout l’inverse. Quel choix de traduction serait plus correct qu’un autre ? Difficile à dire. En effet, il peut y avoir autant de traductions correctes qu’il y a de traducteurs et, par conséquent, l’utilisation d’une seule référence humaine pour mesurer la qualité d’une solution de traduction automatisée pose problème.

Vous l’aurez compris, on en revient au même problème que pour la traduction neuronale, mais ici cela devient encore plus complexe, car c’est une machine qui juge une machine. Une vraie machineception.

Le problème avec BLEU…

Les scores BLEU ne reflètent en effet que les performances d’un système sur un ensemble spécifique de phrases sources et les traductions de référence sélectionnées pour l’évaluation. Puisque le texte de référence pour chaque segment n’est évidemment pas la seule traduction correcte et « de qualité », il arrive fréquemment de mal noter (« scorer ») de bonnes traductions. On peut donc dire que ces scores ne reflètent pas systématiquement le rendement potentiel réel d’un système.

Bien que l’objectif de BLEU soit de mesurer la qualité globale de la traduction, le résultat que l’on obtient est plutôt une mesure de la similitude entre deux chaînes de caractères dans un texte. Considérée par certains comme une mesure fiable de la qualité, la majeure partie des experts considèrent que les scores BLEU seraient plus précis si les comparaisons étaient faites au niveau du corpus entier plutôt qu’à chaque phrase. Ainsi, on remet en question la performance de cet outil qui n’a en réalité aucune « intelligence » linguistique qui lui permettrait d’évaluer la qualité d’une traduction machine.

Un système critiqué, et pour cause !

BLEU ne prend pas en compte le sens

Texte original : J’ai mangé la pomme.

Traduction de référence : I ate the apple.

Si l’on en croit BLEU, les trois traductions suivantes, ayant obtenu le même score, seraient aussi mauvaises les unes que les autres :

  1. I consumed the apple.
  2. I ate an apple.
  3. I ate the potato.

Pourtant, la troisième traduction n’a rien à voir avec le sens du texte original, à savoir J’ai mangé la pomme.

BLEU ne prend pas en compte la structure des phrases

Une phrase complètement absurde, avec des mots « corrects », mais simplement placés dans un ordre aléatoire est susceptible d’obtenir un score élevé !

BLEU gère mal les langues « riches » morphologiquement

La métrique BLEU ne fait pas la distinction entre le contenu et les mots-outils. Par exemple, la pénalité liée à l’omission d’un mot-outil tel que « un » est identique à la pénalité appliquée en cas de remplacement du terme « NASA » par « ESA ».

BLEU ne correspond finalement pas tant à une évaluation humaine

Avant le calcul du score BLEU, les traductions de référence et les traductions automatiques doivent être normalisées et « tokenisées », ce qui affecte considérablement le score BLEU final.

En bref…

Le score BLEU, quoiqu’imparfait, offre certains avantages : rapide et peu coûteux à calculer, facile à comprendre *hum hum*, indépendant de la langue, très proche d’une évaluation humaine, cette métrique a largement été adoptée ces vingt dernières années.

Malgré ses imperfections, BLEU est un outil utile et prometteur, et demeure encore aujourd’hui une mesure de référence pour tous les développeurs de traduction automatique. Pour preuve, dans son concours annuel des outils de TA, le NIST (National Institute of Standards & Technology) a choisi d’utiliser BLEU comme indicateur approximatif de la qualité.

Le BLEU « idéal » serait un système dans lequel seraient prises en considération toutes les propriétés linguistiques fondamentales, telles que la structure de la langue, la cohérence, le style d’écriture, le contenu, l’organisation, l’exactitude des propos… À l’heure actuelle, le seul moyen d’obtenir d’excellents résultats est d’associer les métriques automatiques à une évaluation humaine et unilingue.

Sources

Sources en anglais

Sources en français

Parce que cet article vous a passionné…

Traduction automatique : les algorithmes ont-ils des préjugés ?

Par Estelle Peuvion, étudiante M2 TSM

traductionautomatique

Depuis plusieurs années, la traduction automatique connaît des avancées spectaculaires. La traduction neuronale s’impose de plus en plus face à la traduction statistique. Résultat : les moteurs de traduction machine sont capables de traiter de longues phrases, voire des textes complets, en respectant la grammaire, la syntaxe, et en conservant la cohérence terminologique. Certains moteurs de traduction automatique traduisent (presque) aussi bien que les traducteurs humains et de nombreuses entreprises n’hésitent plus à recourir à leurs services pour traduire leurs sites et leurs produits. Cependant, ces résultats remarquables connaissent leurs limites. En effet, les algorithmes sur lesquels reposent ces moteurs de traduction reproduisent en quelque sorte la manière de traduire des humains, mais ne risquent-ils pas de reproduire également nos aspects les plus négatifs ?

Reproduction des préjugés

La réponse est oui : les moteurs de traduction automatique reproduisent les préjugés (sexistes, racistes…) des humains. Cela a été démontré, et nous pouvons le vérifier par nous-même, en quelques clics seulement.

L’exemple le plus flagrant est celui des professions, notamment lorsque l’on traduit d’une langue qui n’a pas de genre lexical vers une langue qui en a. Les femmes sont communément associées aux professions artistiques, aux métiers de soins (infirmière, sage-femme…), au foyer, alors que les hommes sont associés aux professions scientifiques, politiques, et plus globalement aux postes « importants »: le moteur de traduction machine va, dans la majorité des cas, reproduire ces clichés.

Depuis plusieurs années, de nombreux internautes recensent les « dérapages » des moteurs de traduction automatique, et les exemples ne manquent pas. Sur Google Translate, incontournable de la traduction machine, il est facile de se retrouver face à des phrases reprenant des préjugés sexistes. En tapant « The engineer is from Germany », le logiciel nous propose automatiquement « L’ingénieur est allemand. » En revanche, lorsque l’on remplace engineer par nurse, nous obtenons « L’infirmière est allemande »…

Au-delà de ces observations simples, qui peuvent être formulées par n’importe qui, des scientifiques ont également étudié plus en profondeur ce phénomène et sont arrivés aux mêmes conclusions.

Des chercheurs des universités de Princeton et de Bath ont étudié la technologie GloVe, développée par l’université de Stanford, qui calcule les associations entre les mots. GloVe est entraîné à partir du corpus Common Crawl, qui regroupe plusieurs milliards de textes venant du web et est utilisé pour la traduction machine. Les chercheurs ont conclu que le programme GloVe associait très bien les mots, mais ils ont aussi remarqué des dérives racistes et sexistes : les personnes afro-américaines étaient associées à des mots bien plus négatifs que les personnes blanches, et les noms de femmes étaient liés à la famille, alors que les noms masculins étaient associés à la vie professionnelle.

À l’université de Washington, trois chercheurs ont étudié les préjugés sexistes dans la traduction machine (Evaluating Gender Bias in Machine Translation) et ont fait une découverte « amusante ». Ils ont constitué des phrases comprenant deux professions, une communément associée aux hommes et une associée aux femmes. Ils ont féminisé la profession masculine à l’aide d’un pronom ajouté plus loin dans la phrase, et ont laissé une ambiguïté quant à la profession féminine.

Par exemple, dans la phrase « The doctor asked the nurse to help her in the procedure », la profession de médecin a été féminisée grâce au pronom her, et la profession d’infirmier/infirmière est neutre. L’expérience avait deux objectifs : voir si doctor était bien féminisé, et voir si nurse était mis au masculin ou au féminin. Dans la majorité des cas, doctor était au masculin, nurse au féminin et le pronom her était traduit par un pronom féminin dans la langue cible, ce qui changeait le sens de la phrase !

Les chercheurs ont donc tenté d’ajouter un adjectif associé aux femmes au mot doctor, et dans ce cas, doctor était féminisé. Si nous reprenons l’exemple cité plus-haut et rajoutons l’adjectif pretty devant engineer, Google Translate nous propose « La jolie ingénieure est allemande ». En revanche, si l’on remplace pretty par courageous, l’ingénieur redevient un homme ! Conclusion : dans cette expérience, le cliché sexiste a été dépassé par l’ajout d’un autre cliché sexiste.

Comment expliquer ce phénomène ?

Pourquoi donc les moteurs de traduction automatique reproduisent-ils nos préjugés ? Les chercheurs ayant étudié cette problématique ont plusieurs réponses à nous offrir.

Les moteurs de traduction automatique sont basés sur des corpus parallèles et monolingues : des textes en langue cible et des traductions. Ces textes se comptent par millions voire par milliards pour certains moteurs de traduction, et ils proviennent du web dans la majorité des cas. Par conséquent, il est tout simplement impossible de contrôler chacun des textes composant le corpus : cela demanderait trop de main-d’œuvre et de temps. Voilà la première explication à notre problème : les données qui permettent aux moteurs de traduction automatique de nous proposer des traductions fluides, quasi-parfaites dans certains cas, proviennent du web. Ce sont des données que nous, humains, produisons, et nous produisons forcément des données affectées par nos préjugés, que nous le voulions ou non.

Prenons par exemple le corpus utilisé par le site de traduction Reverso Context : il contient des textes provenant de domaines différents, et notamment des sous-titres de films et de séries. Une particularité qui a amené le site à proposer début 2019 des résultats de traduction antisémites, racistes et sexistes. Le fondateur de l’outil s’est excusé et a expliqué que ces résultats pouvaient provenir de films et de séries, et qu’il était difficile de contrôler un corpus aussi conséquent.

De plus, la majorité des moteurs de traduction fonctionnent grâce au word embedding, une technique d’apprentissage automatique qui représente les mots ou phrases d’un texte par des vecteurs de nombres réels. La représentation vectorielle d’un mot représente son « contexte », c’est-à-dire les mots, expressions et phrases qui entourent le plus souvent ce mot.

Il est donc tout à fait logique que les moteurs de traduction reproduisent nos préjugés : ils utilisent nos textes, apprennent nos langues. Ils apprennent aussi les associations culturelles et historiques qui nous mènent à avoir ces préjugés.

La seconde explication se trouve entre les corpus et le processus de traduction en lui-même : les algorithmes. En effet, les concepteurs de ces algorithmes sont en majorité des hommes, blancs, il est donc possible qu’ils prêtent moins attention à la manière dont seront traitées certaines problématiques par l’algorithme.

Lutter contre les « préjugés » de la traduction automatique

Maintenant que nous connaissons l’origine de ce phénomène de reproduction des préjugés sexistes, nous pouvons réfléchir à des solutions.

Les entreprises ayant conçu les principaux moteurs de traduction automatique, et qui utilisent l’intelligence artificielle, se trouvent en première ligne de cette lutte. La majorité d’entre elles ont conscience du problème et ces dernières années, elles ont commencé à proposer des solutions.

Facebook a annoncé il y a quelques mois la création d’un outil servant à trouver les biais dans les algorithmes, « Fairness Flow ». L’outil sera normalement capable de déterminer si un algorithme reproduit les préjugés ; il est pour l’instant en développement.

Récemment, Google Translate a admis avoir proposé des traductions aux préjugés sexistes. Suite à cette annonce, le moteur de traduction prendra en compte le genre grammatical dans les traductions. En proposant un nom neutre en anglais, on peut obtenir deux traductions en français, le féminin et le masculin. Cependant, cette nouvelle fonctionnalité est pour l’instant restreinte à certaines langues et à un certain nombre de mots.

La modification de la langue pourrait également être une solution : par exemple, un pronom neutre a été introduit dans la langue suédoise. Néanmoins, ce genre de modification représente un vrai défi : comment inciter des locuteurs d’une langue à changer de manière radicale leur utilisation de la langue ? De plus, le remplacement des corpus actuels prendrait un temps considérable, et les effets ne seraient pas visibles immédiatement.

L’amélioration des corpus semble être un axe évident dans la résolution de ce problème. Trois chercheurs des universités de Dublin et d’Uppsala (Getting gender right in neural machine translation) ont mené une enquête et ont tenté d’atténuer la reproduction des préjugés sexistes dans la traduction automatique. Ils ont taggué le corpus utilisé par le moteur de traduction et y ont introduit des tags genrés, pour plusieurs paires de langues, aussi bien pour les accords que pour le style et le vocabulaire. Ils ont vu dans les traductions proposées des améliorations significatives, en particulier pour les accords. Cependant, ils ont noté un manque de cohérence dans certaines traductions.

Nous pouvons donc améliorer les corpus en changeant la façon dont nous les utilisons (grâce aux tags, par exemple), mais également en privilégiant les textes avec une écriture non-sexiste.

La diversification des équipes qui conçoivent les algorithmes représente également une idée de résolution du problème, afin qu’elles puissent plus facilement se rendre compte des préjugés reproduits par l’intelligence artificielle.

Enfin, la solution qui serait évidemment la plus efficace, serait que la société change et que tous nos préjugés disparaissent. Malheureusement, c’est un objectif difficile à atteindre, mais nous, traducteurs et traductrices, pouvons apporter notre pierre à l’édifice. Utiliser l’écriture inclusive (quand nous en avons la possibilité), encourager l’amélioration des moteurs de traduction automatique, prêter attention au vocabulaire que nous utilisons, voilà des pistes simples que nous sommes tous et toutes aptes à suivre.

 

Bibliographie :

J’ai testé pour vous eTranslation !

Par Céline Gherbi, étudiante M2 TSM

 

Si j’ai choisi d’intégrer le master TSM pour me former aux métiers de la traduction, c’est en grande partie parce qu’il me permet non seulement de me perfectionner dans mes langues de travail que sont le français, l’anglais et l’espagnol, mais également parce qu’il est au fait des nouveaux outils qui affluent sur le marché et offre donc une formation en phase avec son temps. Et bien entendu, aujourd’hui, la révolution ne se situe plus dans la traduction assistée par ordinateur, mais bien dans la traduction automatique et plus précisément, la traduction automatique de type neuronale. Nous avons donc testé pour vous l’outil de la Commission européenne : eTranslation !

 

etranslation1

Qu’est-ce que c’est ?

eTranslation est la plateforme de traduction automatique neuronale de la commission européenne créée à partir de la mémoire de traduction Euramis qui contient le travail des traducteurs des institutions européennes, c’est-à-dire une base de données d’environ 1 milliard de phrases dans les 24 langues de l’Union. Comprenez donc que si vous devez traduire un catalogue de décorations de Noël en japonais, cet outil ne pourra rien pour vous, en revanche, si vous êtes traducteur juridique et que vous traduisez vers une langue européenne, c’est sans doute l’outil à vous procurer absolument. Pour cela vous devrez vous créer un compte sur le site EU Login et faire une demande officielle par courrier électronique auprès de la commission dans lequel vous devrez indiquer pour quel organisme vous travaillez, votre poste ainsi que votre signature électronique complète. En effet, seuls les fonctionnaires travaillant pour l’Union européenne ou dans un organisme national ont accès à cet outil en ligne. En revanche, si vous êtes simple citoyen, cela risque d’être plus compliqué. Toutefois, cette démarche d’enregistrement permet une plus grande sécurité pour vos fichiers dont la confidentialité est assurée puisqu’ils ne viennent pas nourrir la mémoire de traduction.

Comment ça marche ?

Son interface, accessible dans toutes les langues de l’UE, est simple, ergonomique et sobre. Elle est donc facile d’utilisation : il vous suffit de cocher les options qui vous sont proposées. Avant toute chose, vous pouvez paramétrer vos préférences par défaut, choisir par exemple la langue de l’interface ainsi que la page d’accueil ou encore vos langues de travail habituelles.

etranslation2

Pour commencer, le logiciel vous propose de traduire soit des documents, soit un texte que vous devrez taper ou copier/coller.

etranslation3

Voyons d’abord comment l’outil se comporte avec des documents.

etranslation4

Vous pouvez lui faire traduire jusqu’à 10 documents en même temps, simplement en les sélectionnant puis en les glissant sur la page. Un des gros points forts du logiciel est qu’il prend en charge de nombreux formats : Word, Excel, PowerPoint, PDF, OpenOffice, html, mais également des formats liés aux outils de traduction tels que des .xliff, .sdlxliff, .tmx et bien d’autres encore. La taille des fichiers quant à elle ne doit pas dépasser les 10 Mo.

Vous devez ensuite choisir votre langue source, qui doit être la même pour tous les documents, puis la ou les langues cibles.

Par ailleurs, il vous faut spécifier le domaine, ou plus précisément, le corpus avec lequel la machine travaillera. C’est de cela que dépendra la qualité de la traduction. Pour un texte plutôt général, préférez « cutting edge », qui est le moteur neuronal qui rassemble toutes les données de la commission, en revanche si vous avez un texte économique à traduire du français vers l’anglais, vous pouvez plutôt vous tourner vers un moteur plus spécialisé comme celui du Ministère des Finances. Ces derniers sont au nombre de 9, toutefois, ils ne prennent pas en charge toutes les paires de langues contrairement au cutting edge ou au Legacy MT@ec, qui n’est autre que l’ancien outil de traduction automatique de la commission.

La prochaine option à choisir concerne le format de sortie et là encore une belle surprise nous attend… En effet, vous pouvez récupérer votre document dans un format identique ou similaire en cochant la case « Identique à la source ». Notez que si vous demandez à traduire un PDF vous obtiendrez un .docx que vous pourrez retravailler et convertir en PDF par la suite. Par ailleurs, vous pouvez également récupérer vos données dans un format différent de l’original puisque le site vous propose également de vous les transmettre sous forme de fichiers .xliff ou même de mémoire de traduction compatible avec les outils de TAO, ce qui peut être très utile pour un traducteur professionnel.

Enfin, il ne vous reste plus qu’à indiquer si vous désirez recevoir vos documents par mail ou si vous préférez les télécharger sur la page « Mes demandes de traduction ». Si vous avez demandé plusieurs langues de traductions en même temps, sachez que vous recevrez un mail par langue, la machine n’est pas en mesure de gérer un projet multilingue dans son ensemble. Cela dit, la plateforme propose de télécharger vos documents via un troisième onglet qui rassemble l’historique de vos demandes. Si vous ne voulez pas laisser vos documents sur cet historique, vous pouvez cocher l’option « supprimer après téléchargement » sans quoi ils seront accessibles pendant 24 heures.

etranslation5

À présent, traduisons un texte.

etranslation6

Sur cet onglet vous pouvez traduire un texte de 2 500 mots maximum par un copier-coller ou en le tapant.

Comme vous pouvez le constater, on retrouve nos options de langues et de domaines, et il est également possible de recevoir la traduction par courrier électronique, mais dans ce cas le texte se trouve dans le corps du mail et non en pièce jointe. Il n’est pas possible non plus de récupérer le texte autrement qu’en passant par un copier-coller ou en l’imprimant. De plus, rien n’est conservé dans votre historique.

etranslation7

Pourquoi le logiciel gère-t-il autant de formats ?

Parce qu’il s’adresse à différents types de public. Cet outil fait partie d’un projet plus vaste, qui a pour but de faciliter les échanges entre les différents pays européens afin de promouvoir la croissance, l’emploi et la compétitivité, et pour cela il est nécessaire que les différents acteurs de cette communauté se comprennent. Ainsi les fonctionnaires qui travaillent dans les institutions de l’UE ou dans les organismes nationaux et qui ont besoin d’avoir accès immédiatement à certaines informations dans leur langue, sans nécessité d’une traduction de haute qualité, peuvent avoir recours à ce service de traduction automatique. Mais ce dernier peut également venir en aide aux traducteurs professionnels de l’UE qui ont la charge de traduire les volumes importants des différents organismes. Il n’est pas question ici de remplacer les biotraducteurs, mais de leur faire gagner du temps au travers d’un processus hybride alliant les résultats fournis par la plateforme et ceux des mémoires de traduction. Le biotraducteur pourra ainsi effectuer un travail de post-édition de qualité grâce au corpus compilé à partir de documents officiels traduits. Nous pourrions d’ailleurs imaginer la création d’un corpus parallèle bilingue de référence, dans un domaine particulier, accessible directement dans SDL Studio ou memoQ. Pour cela, il serait simplement nécessaire de se procurer des textes officiels de la commission dans la langue cible et de les faire traduire par eTranslation pour obtenir un corpus dont la langue cible, qui est celle qui nous intéresse, est parfaite, et la langue source de moins bonne qualité car générée par la machine, mais qui nous apporterait tout de même le contexte dont nous avons besoin. Il faudrait toutefois tester plus en avant ce processus pour en connaître la réelle portée.

Et au niveau de la qualité de la traduction et de la mise en page ?

La qualité de la traduction dépend bien évidemment de la qualité du document source ainsi que de la paire de langues choisie. Certaines paires de langues sont plus proches et/ou ont une mémoire de traduction plus fournie, elles seront donc de meilleure qualité que des paires de langues éloignées et sur lesquelles il existe encore peu de documentation traduite. De plus, comme je l’ai déjà mentionné, cet outil contient de la documentation à caractère juridique, institutionnel ou encore économique, n’essayez pas de lui faire traduire Harry Potter, le résultat serait vraiment de piètre qualité. À chacun son domaine de spécialisation, c’est aussi vrai pour les machines. De plus, bien que la traduction neuronale fasse des merveilles au niveau de la fluidité des textes traduits, elle n’est pas à l’abri de contresens ou de faux-sens, il est important de réaliser, au minimum une post-édition par un traducteur connaissant les deux langues de travail et non pas une simple révision du texte traduit.

En ce qui concerne la traduction de l’anglais vers le français nous avons examiné quelques phénomènes linguistiques et, comme attendu, eTranslation, à l’instar d’autres moteurs de traduction automatique, a tendance à traduire de façon littérale might/may, les voix passives, there is/there are. En revanche, elle fait preuve de plus « d’imagination », si je puis dire, en ce qui concerne les adverbes en –ly anglais qu’elle ne traduit pas systématiquement par un adverbe en –ment, mais elle opère parfois une recatégorisation : « only » a été traduit par « ne… que… » dans un de nos segments, par exemple.

Par ailleurs, si on retrouve les apostrophes courbes, certaines spécificités de la langue française ne sont pas prises en compte, comme les guillemets ou les espaces insécables (sauf pour les pourcentages).

Enfin, dans le but d’estimer la qualité de la traduction de la machine et de savoir si en effet elle permet un gain de temps au traducteur, nous avons fait un test de production en post-édition. Suite à cet exercice nous pensons qu’avec un document source de bonne qualité, et un post éditeur/traducteur expérimenté, il serait possible d’atteindre une productivité de 1 500 mots/heure pour une post-édition légère et 750  mots/heure pour une post-édition complète.

La qualité de la mise en page quant à elle, dépend également du format source. Le logiciel ne fera pas de miracle sur un PDF de mauvaise qualité, mais il possède de bonnes bases, il reconnait par exemple les notes de bas de page. Il se maintient donc en bonne position par rapport à certains logiciels de traduction assistée par ordinateur.

En résumé : les plus et les contres !

Les points forts :

  • C’est un logiciel très intuitif, facile d’utilisation.
  • La qualité de la traduction est bonne dans les domaines spécifiques à la commission européenne et la productivité peut être accrue grâce à la MT.
  • La mise en page est également de bonne qualité.
  • Il reconnait énormément de formats.
  • Il prend en charge plusieurs documents et plusieurs langues à la fois.
  • Il est possible de récupérer la traduction dans des formats reconnus par les outils de traduction (.tmx, .xliff).
  • La sécurité est optimale et les données restent confidentielles.

Les points faibles :

  • L’outil est difficile à trouver et il n’est pas accessible au citoyen lambda.
  • Il n’est pas directement accessible dans les outils de TAO sous forme de plug-in, par exemple.
  • La traduction est bonne, mais cela reste une traduction machine dans laquelle se glissent des faux-sens ou des contresens, les espaces insécables ne sont pas insérées sauf pour les pourcentages, les guillemets ne sont pas localisés. De plus, la qualité reste tributaire des corpus qui pour certaines paires de langues sont moins fournis que pour d’autres.
  • La machine ne traite pas les sites web.
  • Le temps d’arrivée des fichiers n’est pas immédiat même s’il reste raisonnable.

Enfin, pour conclure…

Vous l’aurez compris, il n’est pas question de remplacer le biotraducteur par une machine, pas encore tout du moins, mais bien de lui fournir un nouvel outil, efficace, tant au niveau de la qualité que du rendement, pour lui permettre de ne plus rester figé sur sa page blanche et surtout de gagner en productivité. Comme pour l’utilisation de n’importe quel autre outil, il est nécessaire de posséder certaines compétences particulières, un savoir-faire, afin de ne pas tomber dans ses pièges et faire en sorte qu’une fois le travail terminé, c’est avant tout les exigences du client qui soient satisfaites. Nous avons donc réellement apprécié eTranslation et ses résultats et espérons qu’il sera bientôt mis à la disposition d’un plus large public, d’autant que nous ne sommes qu’aux balbutiements de la traduction automatique neuronale et qu’il est fort probable qu’un jour, il soit impossible de s’en passer…

 

Un grand merci à la Direction générale de la traduction de nous avoir donné l’autorisation d’illustrer le billet par des captures d’écran.

La NMT vue par une agence de traduction

Par Jimmy Gabreau, étudiant M1 TSM

 

Translate

 

Ces dernières années, la traduction neuronale (NMT) a peu à peu pris le pas sur la traduction statistique (SMT) grâce à l’obtention de résultats largement considérés comme bien plus convaincants, ayant conduit à sa démocratisation. Il me parait donc intéressant de voir comment cela est pris en compte par les acteurs du secteur. Afin de rassembler quelques éléments de réponse, je vous propose un entretien avec Liesbet Steyaert et Madeleine Barois, de l’agence de traduction Telelingua à Paris, qui œuvrent toutes deux à l’implémentation de cette technologie au sein de l’entreprise.

 

Tout d’abord, pouvez-vous vous présenter, ainsi que votre parcours ?

LS : Moi c’est Liesbet, je travaille depuis plus de dix ans chez Telelingua en tant que chef de projet, j’ai fait deux ans en ingénierie linguistique, dans les années 2000, l’époque où la traduction automatique s’appuyait encore sur des règles grammaticales (rule-based machine translation). Depuis les choses ont pas mal évolué. Depuis quelques mois, je coordonne la mise en place d’une solution de traduction automatique dans l’entreprise. Pour cela, je suis surtout aidée par Madeleine. Pour l’instant, nous sommes encore en phase de test. L’idée est de ne pas fermer les yeux devant la traduction automatique mais d’examiner comment cette technologie peut nous aider. Cela peut par exemple être utile face à des clients qui ont des budgets très réduits et/ou qui ne cherchent pas une qualité optimale pour certains projets. La MT peut aussi utile pour gérer des traductions très urgentes et volumineuses. Nous voulons donc explorer si cette technologie peut accélérer le processus de traduction et/ou réduire les coûts.

MB : Je m’appelle Madeleine, je suis chez Telelingua depuis septembre 2017, je suis apprentie dans l’équipe process pour assister les gestionnaires de projets dans la préparation de fichiers, la traduction, la localisation en assistant à l’optimisation des outils destinés à l’automatisation des processus. J’ai effectué une formation en linguistique au Canada et je suis actuellement en alternance dans un Master orienté sur le développement de sites internet multilingues. Je suis, en quelque sorte, l’assistante de Liesbet pour tout ce qui relève de l’entrainement de moteurs de traduction et de la rédaction des guides d’utilisation des outils de traduction automatique. Nous mettons en place des tests, bien que nous ne proposions pas encore officiellement de service de traduction automatique, afin de voir comment cela se déroule au sein de vrais projets et ainsi déterminer si cela sera rentable.

 

Jusqu’à présent, quel usage aviez-vous de la traduction statistique ?

LS : Nous ne l’avons utilisée que pendant quelques mois, l’outil MT que nous utilisons ne fournira plus de support SMT à partir de septembre, cela nous donne donc davantage de raisons pour passer à la traduction neuronale, et c’est ce que nous sommes actuellement en train de faire.

 

Dans quels types de projets allez-vous utiliser la traduction neuronale ?

LS : Nous avons créé des moteurs de traduction par domaine ainsi que par client, cela concerne évidemment davantage la traduction technique et s’adresse aux clients les plus sensibles au niveau du prix mais qui nous envoient un volume important à traduire. Pour le moment, nous avons élaboré des moteurs destinés à la traduction de texte dans des domaines tels que l’industrie, les arts graphiques, l’énergie ainsi que le juridique. Cela peut paraître étonnant, mais cela marche plutôt bien vu que le langage est assez standardisé. Évidemment, nous utilisons la NMT pour aider le traducteur en pré-traduisant d’abord le texte à l’aide d’une mémoire de traduction, la NMT intervient uniquement sur les « no matches », les segments qui n’ont pas de remontées de nos mémoires de traduction. C’est une façon hybride de travailler, cela ne change pas les habitudes du traducteur, il aura simplement des suggestions de traduction issues de la NMT sur chaque « no match » à post-éditer. Cela n’empêche pas qu’une révision sera effectuée suite à la traduction afin d’obtenir le même niveau de qualité que celui que nous avons actuellement.

MB : Afin mesurer le gain de productivité des traducteurs apporté par la NMT, nous leur envoyons un formulaire d’évaluation de la NMT pour qu’ils nous rapportent les erreurs qu’ils ont trouvées dans les traductions proposées. C’est assez compliqué de juger et de formaliser, c’est pourquoi nous essayons de mettre en place un système qui le ferait de manière automatique, quantifiable, qui pourrait comparer un segment issu de la MT avec celui issu de la post-édition du traducteur et ainsi voir les changements effectués pour obtenir une traduction de qualité. Nous développons un outil de mesure de « distance de post-édition », qui nous permettra de connaître les efforts fournis par le traducteur, mais aussi de savoir quels moteurs auraient le plus besoin de post-édition et devraient donc être davantage entraînés.
Pour le moment, le feedback se base sur le ressenti du traducteur, nous aimerions avoir quelque chose de plus précis et standardisé, ce qui est, je pense, le défi auquel sont confrontées toutes les entreprises de traduction en ce moment. Il existe déjà des outils, des plug-ins Studio pour cela, mais ils ne sont pas tout à fait adaptés à nos besoins.

 

Voyez-vous des inconvénients à l’utilisation de la NMT ?

LS : La SMT découpe et traite les phrases par petits groupes de mots, c’est un système qui gère difficilement la grammaire d’une phrase entière. Ceci peut mener à des résultats peu convaincants, en fonction de la qualité des corpus utilisés pour entraîner les moteurs, la NMT parvient à remédier à ce problème grâce à l’utilisation d’une intelligence artificielle capable de donner des traductions plus naturelles. Mais une phrase pourrait être mal traduite et ne plus du tout correspondre à la phrase source, tout en étant parfaitement formée au niveau grammatical. C’est donc un problème potentiellement trompeur dont les traducteurs doivent être conscients. C’est une aide, mais ils ne doivent pas considérer leur travail comme étant une simple relecture des résultats du moteur. C’est sur ce point que nous ne sommes pas certains du gain de temps que cela peut nous apporter, d’où l’importance d’un bon entraînement des moteurs.

 

Les traducteurs sont-ils réticents à l’utilisation de la NMT ?

LS : Il faut souligner que, dans l’esprit des traducteurs, cela a pas mal évolué puisqu’on entend beaucoup parler de la traduction automatique, et de ses progrès, grâce à l’introduction de l’intelligence artificielle et donc la solution neuronale. Je pense qu’ils sont donc un peu plus ouverts qu’il y a quelques années. Les universités ou écoles de formation linguistiques forment aujourd’hui leurs étudiants à la gestion ou à l’utilisation de traduction automatique. Les traducteurs doivent surtout comprendre qu’on aura toujours besoin d’eux. Cela fait des décennies que l’on pense être tout proche de la solution pour les remplacer, mais nous en sommes probablement encore loin car la NMT n’est pas encore assez fiable pour obtenir la même qualité qu’une traduction humaine. Par contre, l’introduction de la traduction automatique dans le processus de traduction peut jouer sur la productivité des traducteurs et sur leur valeur ajoutée. Certains contenus ne se prêtent pas à la traduction automatique. Les nuances, figures de style restent l’apanage de l’intelligence humaine, donc des traducteurs. Il risque d’y avoir des agences qui appliqueraient des prix beaucoup plus bas, sans prêter attention aux résultats donnés par les moteurs de traduction automatique et qui paieraient les traducteurs bien en dessous des efforts fournis. C’est un fait, mais le monde de la traduction ne va pas migrer intégralement vers la traduction automatique. Certains types de contenus, oui, d’autres non.

MB : Le système de tarification est une question importante, il faut que les agences prennent en compte que différents projets, différents moteurs, différents types de texte source, engendrerons différents efforts de post-édition, nous estimons donc qu’il serait plus pertinent d’appliquer des tarifs en fonction du travail réellement effectué par le traducteur, c’est pourquoi nous créons cet outil de « mesure de similarité. ».

 

Je tiens à remercier Liesbet et Madeleine d’avoir pris le temps de répondre à ces questions et de m’avoir donné quelques clés pour mieux comprendre les changements en cours dans le secteur de la traduction et mieux les anticiper.