DeepL Pro, à prendre ou à laisser ?

Par Archibald Marchal, étudiant M2 TSM

Ah notre bel ami DeepL, on le présente plus, l’outil de traduction automatique de Linguee est déjà bien connu. Créé en août 2017 par la filiale Linguee, il tient son nom de « deep learning » signifiant que la machine apprend avec le temps et les informations qu’elle reçoit, à l’image du cerveau humain. Fortiche non ?

DeepL est un outil qui divise les débats. Les pessimistes vous diront que la traduction automatique (TA) n’est rien d’autre que de la poudre aux yeux et qu’elle n’a aucun intérêt pour la traduction professionnelle, alors que les optimistes eux, vous diront qu’il s’agit là d’un instrument magique bientôt capable de remplacer l’humain. Essayons de nous placer du côté réaliste de ce débat. Les développeurs de DeepL eux-mêmes, ne considèrent pas leur outil comme la fin du traducteur, puisqu’on verra par la suite qu’ils collaborent avec les outils de TAO.

Selon moi, au vu des progrès de la TA depuis ces dernières années, il serait idiot de ne pas profiter de ce bel outil à notre disposition, et gratuit ! Bien évidemment, je suis d’accord pour dire que la TA ne remplacera jamais le traducteur professionnel, mais elle permet d’obtenir des résultats majoritairement cohérents en moins d’une seconde. Le gain de temps pour un traducteur est donc considérable. Sans oublier que la post-édition devient de plus en plus courante et qu’en tant que traducteur, il vaut mieux être compétent dans cette tâche et donc commencer dès maintenant à se former à la TA.

Comme vous le savez peut-être, DeepL se base sur un corpus, et ce corpus, c’est internet. Autant dire un mastodonte, regorgeant de bonnes et de moins bonnes sources. C’est pourquoi DeepL sera plus efficace pour des textes peu ou pas spécialisés. Forcément, plus on se spécialise, moins il y a de source, donc moins DeepL est performant.

Maintenant qu’on a toutes les informations en main, intéressons-nous à la version Pro de notre outil préféré. Combien coûte-t-elle ? Qu’apporte-t-elle de plus ? A qui s’adresse-t-elle ? Regardons tout cela en détail.

Tout d’abord il faut savoir que DeepL propose plusieurs forfaits :

Ce tableau proposé par le site de DeepL indique les différences entre chaque forfait. Premièrement on peut voir qu’il existe deux méthodes d’abonnement : mensuelle ou annuelle. La souscription à l’année permet alors de bénéficier de réduction non négligeable (33 %). Deuxièmement on remarque trois versions Pro différentes.

Les points communs

L’intérêt premier de la version Pro de DeepL est évidemment la protection des données. Vos clients vous ont fait signer un accord de confidentialité ? Alors oubliez n’importe quel outil de TA gratuit. DeepL Pro vous propose de la traduction automatique 100 % sécurisée, et ce, pour n’importe quel forfait.

Ensuite, sur DeepL version gratuite, vous avez un nombre de caractères limité, à savoir 5 000. Cela peut s’avérer très peu dans bon nombre de projets. Même si vous segmentez votre texte, attention aux incohérences, DeepL peut très bien vous proposer des traductions différentes pour le même terme lors de différentes recherches. Si vous mettez tout votre texte d’une traite, ce que permet la version pro, fini les incohérences !

Dernier point commun entre les forfaits : l’option formel/informel. En effet, grâce à DeepL Pro, vous pourrez choisir le ton de votre traduction.

Les différences

Vu les forfaits proposés et les divergences de prix, on s’attend évidemment à des fonctionnalités différentes.

D’abord, on constate que DeepL Pro permet la traduction de fichiers intégraux, ce qui signifie qu’à la manière d’un outil de TAO, il va rendre le fichier dans son format original, avec la mise en page originale. Néanmoins, selon le forfait, vous n’aurez pas droit aux mêmes volumes. En effet, pour la version « Starter » seulement 5 fichiers par mois, 20 pour la version « Advanced » et on monte jusqu’à 100 pour la version « Ultimate ».

La seconde différence réside dans la création de glossaires. Le forfait « Starter » ne propose la création que d’un seul glossaire, avec entrées illimitées certes, tandis que les deux autres forfaits permettent la création de « plusieurs » glossaires. Ces glossaires sont interactifs et peuvent s’avérer vite indispensables dans certains projets.

Dernière différence, et non des moindres, la possibilité d’installer un plugin sur votre logiciel de TAO. Cette option n’est disponible que pour les versions « Advanced » et « Ultimate ». Ce plugin permettra la traduction automatique dans vos segments que vous pourrez par la suite modifier à votre guise bien évidemment. Bien qu’il existe déjà des plugins dans certains logiciels tel que SDL Trados Studio, DeepL reste la référence en terme de TA et sera donc probablement plus efficace.

Les points négatifs

Malgré toutes ses belles fonctions, DeepL Pro contient son lot de points négatifs.

Par exemple, DeepL Pro n’est pas accessible pour le monde entier. En effet DeepL est une entreprise européenne et ne propose l’accès à sa version Pro que dans les pays membres de l’UE et depuis peu, à la Suisse, au Liechtenstein, aux USA et au Canada.

Ensuite, si des fichiers entiers sont traduisibles, seuls les fichiers au format .docx, .pptx et .txt le sont. On peut également ajouter les formats .htm et .html mais pour cela il faut encore payer un abonnement supplémentaire (le forfait DeepL API) à 4,99€ par mois.

De plus, si la TA nous permet de gagner un temps fou, la qualité n’est pas systématiquement au rendez-vous, et le travail de post-édition n’est pas si simple qu’il n’y parait, et peut conduire à de moins bonnes traductions finales qu’à l’accoutumée.

Le prix peut également être rédhibitoire, un abonnement professionnel pourrait s’avérer être un mauvais investissement. Il faut être sûr d’amortir son coût, attention donc à être sûr de pouvoir fréquemment utiliser la traduction automatique pour vos projets.

Bilan

Avec ses versions Pro, DeepL propose un package adapté aux besoins des utilisateurs, avec des prix et fonctions variées. Aujourd’hui, en tant que futur traducteur, je sais déjà que DeepL Pro sera un de mes premiers investissements. Reste à savoir, quelle version choisir ? Personnellement j’opterais pour le forfait « Advanced ». Je m’explique. Selon moi, le forfait « Starter » ne dispose pas de suffisamment d’arguments pour être viable sur le long terme. Sa non-intégration aux outils de TAO le rend pour moi inintéressant. Ensuite le forfait « Ultimate », qui est environ deux fois plus cher que le forfait « Advanced » ne se démarque pas suffisamment de ce dernier. Son seul avantage réside dans le nombre de fichiers entiers traduisibles, je pense qu’il s’adresse plutôt à ceux n’ayant pas d’outil de TAO ou voire même aux entreprises directement… Et comme il est difficile de survivre aujourd’hui en tant que traducteur sans utiliser d’outil de TAO, on oublie ce forfait.

Alors en 2020, avec des tarifs sans cesse revus à la baisse, l’émergence de la post-édition et les soucis de confidentialité qu’il peut y avoir, DeepL Pro apparait comme l’allié numéro 1 du traducteur professionnel, lui permettant un gain de temps considérable, et donc un gain d’argent.

Sources :

https://www.deepl.com/fr/blog/20180305.html

https://www.deepl.com/fr/pro/

#TQ2020 Biotraduction et traduction automatique : retour sur la journée d’études Traduction et Qualité du 31 janvier 2020

 

Par Oriane Briand, étudiante M2 TSM

tq2020_site

 

Le laboratoire « Savoirs, Textes, Langage » du CNRS et l’UFR Langues Étrangères Appliquées de l’université de Lille ont organisé, pour sa 7e édition, une journée d’études consacrée à la biotraduction et à  la traduction automatique. Petit bilan du cru 2020.

L’année 2020 vient à peine de commencer, une décennie 2.0 pour cette journée d’études 2.0 elle aussi, puisque l’édition de 2018 était déjà dédiée à la traduction automatique (TA), aussi appelée traduction machine.

Le programme est chargé, l’amphithéâtre est bondé en cette belle journée de fin janvier. Cette journée a pour but de redéfinir le lien entre l’humain et la machine dans le monde de la traduction, un monde qui a en effet été chamboulé par l’arrivée de la traduction automatique neuronale. La journée se découpe en trois thématiques : traduction automatique et monde professionnel, traduction automatique et métiers de la traduction et enfin analyse de la traduction automatique. Dix intervenants se sont succédé sur l’estrade, universitaires comme professionnels, et ont tenté d’apporter leurs éléments de réponse.

La traduction automatique neuronale (TAN) a fait son apparition vers le milieu des années 2010. Auparavant, d’autres systèmes étaient utilisés comme la traduction automatique statistique (TAS). Alors que pouvons-nous attendre de la TAN et comment pouvons-nous l’utiliser comme un outil pour le traducteur, et non plus le voir comme une menace, comme elle est souvent perçue ?

Le fonctionnement de la TAN n’est pas évident pour tout le monde. Les algorithmes utilisés sont complexes et mystérieux. Et pourtant, elle est partout. Elle est utilisée par des millions de personnes tous les jours et fait partie intégrante de notre quotidien comme de notre environnement de travail. Mais quelle posture faudrait-il adopter face à ce trop-plein d’intelligence artificielle ?

Tout d’abord, il faut comprendre ce qu’est la traduction automatique neuronale et surtout, connaître ses points forts et ses points faibles. Car c’est en connaissant la machine avec laquelle nous travaillons que nous pouvons en retirer le meilleur. Par exemple, la TAN est capable de produire des sorties de textes fluides, ce qui peut parfois nous  tromper et donner l’illusion d’un texte bien traduit. Or, cette fluidité se fait, par exemple, au détriment de la terminologie. C’est lorsqu’on se penche sur le résultat qu’on se rend compte que le texte produit est incorrect. C’est pour cette raison que l’utilisation de la TAN ne peut se faire sans une intervention humaine, et, si cela peut vous rassurer, ne peut supplanter le traducteur comme on peut le penser. Mais comme pour chaque nouvelle avancée technologique, il faut se former et former les générations futures. Ainsi, enseigner de manière raisonnée l’utilisation de ce nouvel outil est crucial.

Aujourd’hui, l’intervention humaine face aux résultats de productions machine existe déjà. C’est le métier de post-éditeur. Lorsque nous regardons le marché de la traduction, il existe une certaine segmentation. Chacun son rôle et les moutons sont bien gardés. Mais l’émergence des nouvelles technologies (re)pose la question de l’organisation et de la gestion du projet de traduction. Par exemple, le post-éditeur ne pourrait-il pas être plus qu’un simple post-éditeur ? Il semble logique de demander son expertise à quelqu’un qui s’y connaît, qui est sur le terrain. Alors pourquoi ne pas faire appel aux connaissances et à l’expérience de quelqu’un qui travaille avec le contenu. Il est alors possible de redéfinir ce rôle et de l’impliquer à chaque étape du projet, que ce soit dans l’analyse de celui-ci (il peut estimer les délais, définir le processus le plus adapté…) ou dans ses étapes techniques. Il est important de redéfinir le rôle du post-éditeur dans les projets de TA, mais également redéfinir la gestion de ces projets. Chaque projet est unique, les résultats de TA sont variables tout comme l’effort de post-édition qui suit, et le post-éditeur ne peut qu’ajouter une plus-value.

Car la TAN n’est pas parfaite,  aujourd’hui encore, on tente de la décrypter. Il est important de comprendre ses faiblesses, mais également d’évaluer ce qu’elle produit. Il existe plusieurs méthodes. Quelques exemples :

  • La méthode BLEU, qui consiste à comparer une sortie machine avec une traduction humaine de référence
  • L’observation du système en le manipulant : modifier le texte source et observer si le texte cible se modifie en changeant les temps, les modes, les adjectifs, etc., et son inverse.
  • La dissection du système en ouvrant sa boite noire : interroger celle-ci pour tenter de prédire le résultat.
  • L’évaluation humaine : classement des résultats (par des professionnels ou non), identification et classement des erreurs.

Plusieurs études ont prouvé un gain de temps dans l’utilisation de la post-édition de traduction automatique neuronale, mais il est possible d’améliorer ses sorties de traduction en y incorporant de meilleures données d’apprentissage. Par exemple, une manière d’améliorer ce problème de terminologie serait d’incorporer des séries de textes spécialisés. Y incorporer ses propres corpus semble pour le moment compliqué, car les systèmes sont basés sur l’optimisation des algorithmes. Or, y incorporer ces données ferait baisser ce score d’optimisation. Il faudrait alors repenser le système et lui injecter ces connaissances dès le début de processus.

Comme vous pouvez l’avoir constaté, la traduction automatique neuronale génère de nombreuses questions et suscite un intérêt dans le monde de la traduction. Ses progrès ne semblent pas près de s’arrêter et en parler permet de découvrir de nombreux angles d’approche qui se complètent. Une approche raisonnée et scientifique permet de poser un regard critique sur la machine, et de réconcilier peut-être ce qui ne semblait pas être un couple évident : l’humain et la machine.

 

Un grand merci à Joss Moorkens, Caroline Rossi, Nathalie de Sutter, Geert Benoit, Guillaume Deneufbourg, Sarah van der Vorst, François Yvon, Hanna Martikainen, Orphée De Clercq et Rudy Loock, ainsi qu’à l’université de Lille en partenariat avec le laboratoire « Savoirs, Textes, Langage » du CNRS et l’Association française des formations universitaires aux métiers de la traduction (AFFUMT).

 

La #TQ2020 a été filmée, vous pourrez la visionner dès cette semaine sur la webTV de l’université de Lille et sur le site dédié à cette journée.

La machine DeepL

Par Julian Turnheim, étudiant M2 TSM

 

Automne 2007 : les feuilles mortes quittent leurs branches et viennent se poser avec douceur sur le sol encore froid et humide. Pendant ce temps-là, un homme, Dr. Gereon Frahling, ancien employé de chez Google, repère un marché de niche et cherche à développer son idée. Il quitte le géant américain pour lancer, en un an et demi, avec son associé Leonard Fink, leur start-up : le dictionnaire bilingue Linguee. Après dix-huit mois de travail acharné et des tonnes de pizzas, le résultat est impressionnant.

L’objectif de Linguee ? Dr. Frahling l’explique comme suit : « Un moteur de recherche de traductions ouvert à tous. Si quelqu’un a un problème pour traduire une phrase en particulier, il peut vérifier sur Linguee si un traducteur quelque part dans le monde a déjà traduit exactement cette même phrase. Et ensuite, il peut s’orienter par rapport à cette traduction. » (Traduit de l’allemand) Est-ce la racine de DeepL ?

Dix ans plus tard, Lee Turner Kodak, responsable communication chez DeepL, tient dans ses mains le tout premier Prix Honorifique pour l’IA d’Allemagne. Linguee a bien grandi. D’ailleurs, l’entreprise Linguee GmbH ne s’appelle plus Linguee mais DeepL GmbH. En effet, entre temps, l’entreprise a lancé, en 2017, le traducteur automatique DeepL. Ce nouveau traducteur automatique a eu l’effet d’une bombe dans le monde de la traduction. Personne ne pouvait imaginer que, dès sa sortie, ce petit nouveau mettrait dans l’embarras le géant Google Traduction.

C’est de ce petit nouveau, plus si nouveau et plus si petit que ça, finalement, que je voudrais vous parler.

 

Comment utiliser la bête ?

DeepL peut être utilisé gratuitement et sans qu’un enregistrement soit nécessaire. Vous pouvez soit coller le texte à traduire dans le champ dédié, soit téléverser directement votre document texte ou diaporama, grâce à l’option « Traduire un document ». Toutefois, la version gratuite ne permet d’obtenir que des documents en lecture seule, dont vous ne pourrez copier que le texte brut. De plus, il n’est pas possible de corriger la traduction, alors que cela est possible sur la plateforme.

Il est possible de coller un maximum de 5000 caractères dans le champ dédié, mais il n’y a pas de limite de taille pour les documents téléversés. La version gratuite n’est pas forcément adaptée aux exigences des traducteurs professionnels, car le texte que vous insérerez sur la plateforme sera conservé par DeepL, ce qui peut poser quelques problèmes de confidentialité. Mais pas d’inquiétude ! Pour les traducteurs, la version professionnelle de DeepL existe sous la forme d’un plug-in pouvant être intégré à de nombreux outils de TAO, tels que SDL Trados Studio et MemoQ. Cette version professionnelle ne conservera pas les données saisies.

L’un des avantages majeurs de la traduction via le champ dédié est qu’elle permet d’affiner le résultat, ce qui est impossible avec l’option « Traduire un document ». Si une traduction ne vous satisfait pas, un clic sur le texte traduit ouvre un menu proposant des suggestions alternatives, et vous pourrez alors corriger la traduction rapidement et facilement. Lorsque vous corrigez ou modifiez des mots, la plateforme propose, si nécessaire, une phrase entièrement retravaillée. Vous pouvez donc toujours négocier avec DeepL, lui suggérer de nouvelles phrases, de nouveaux mots, ou encore améliorer la traduction qui a été proposée directement dans l’outil. DeepL, n’oubliant pas que vous avez modifié la traduction, utilisera ensuite ces nouvelles connaissances. C’est ce qu’on appelle la traduction automatique neuronale.

 

La traduction automatique neu… quoi ?

La traduction automatique neuronale. Mais oui, parlons-en ! Enfin, essayons d’en parler. L’étudiant de M2 que je suis ne saurait vous expliquer avec exactitude comment fonctionne la traduction automatique neuronale. Les experts eux-mêmes semblent aujourd’hui peiner à en expliquer le processus, tant l’évolution de la traduction automatique est rapide.

Ce que je peux vous dire, c’est que DeepL analyse des textes à l’aide de réseaux neuronaux. Ces réseaux permettent de résoudre des tâches sur la base de modèles prédéfinis. Lorsqu’un réseau neuronal est formé à la traduction, il est tout d’abord alimenté avec des traductions préexistantes et correctes, soit un corpus parallèle géant de qualité. Il les analyse alors jusqu’à pouvoir en déduire la façon dont les nouveaux textes doivent être traduits. Cette méthode est aussi appelée le Deep Learning (oui, DeepL porte bien son nom). Cela fait référence à la capacité d’une machine à apprendre en utilisant d’importants ensembles de données, plutôt qu’en ayant recours à des règles codées, beaucoup trop rigides et limitées. L’ordinateur peut alors apprendre par lui-même et entraîner une intelligence artificielle à prédire les résultats à partir d’un ensemble de données saisies. À l’instar d’un animal ou un bébé humain, il apprend grâce à des exemples, des expériences et des erreurs. Chaque fois que vous traduisez avec DeepL, vous nourrissez le géant.

Cet apprentissage considérable nécessite l’utilisation d’un super-ordinateur d’une performance équivalente à 5000 processeurs d’ordinateurs de bureau. Ce serveur surpuissant n’est d’ailleurs pas situé en Allemagne (lieu du siège de DeepL), mais dans un centre de données en Islande, à Keflavik. Là-bas, il est plus facile de garder les traductions au frais : les basses températures extérieures de cette région du monde facilitent la climatisation de ce gigantesque centre de données. Autrement, le serveur se transformerait rapidement en l’un des nombreux volcans islandais.

 

Maintenant, place à la pratique !

Il est temps d’analyser les performances de ce géant. Pour cela, je vais reprendre les textes que Marine Moreel avait utilisés dans son billet de blog du 8 octobre 2017 : Google Translate vs DeepL : le duel. Ces textes sont extraits du site du Plaza Hotel de New York rédigés en anglais. Je vais donc observer leur traduction vers le français. Ainsi, nous pourrons comparer les textes traduits entre 2017 et aujourd’hui, et en analyser l’évolution.

  • La typographie

En quelques mots, on peut dire qu’il n’y a pas vraiment eu d’évolution en la matière. DeepL ne respecte toujours pas les règles typographiques de la langue française. On ne retrouve donc toujours pas d’espaces insécables ou de guillemets chevrons dans le texte traduit.

  • La localisation

2017

localisation2

2019

CaptureLOCALISATION

En ce qui concerne la localisation, on constate une légère évolution. DeepL ne localise toujours pas les numéros de téléphone et les devises. En revanche, il adapte le format des chiffres en supprimant la virgule séparatrice de milliers, et sait localiser l’heure. Pour l’instant, rien de nouveau sous le soleil. Toutefois, à la dernière phrase, on remarque que DeepL a traduit l’unité de mesure sans la localiser. Cela représente une amélioration par rapport à la version de 2017, dans laquelle DeepL a traduit « 4,500 sq. ft. » par « 4 500 m² » en la faisant suivre de la mesure « ft. » laissée telle quelle, ce qui n’a aucun sens.

  • Omissions

2017

coherence2

2019

CaptureCOHERENCE

En comparaison avec la traduction de 2017, on peut constater que « palatial » n’a pas été omis cette fois-ci. DeepL n’a donc pas supprimé de mots, que ce soit dû à une impossibilité de traduire, ou à la nécessité de rendre la phrase traduite plus humaine.

  • La traduction des mots empruntés à d’autres langues

2017

emprunts2

2019

CaptureDRESSING

 

Confusion de « dressing area » avec « dressing room » ? Mystère ! Toujours est-il que l’on passe d’une traduction peu idiomatique et incorrecte du point de vue du contexte, à une formulation fluide, naturelle et plus vendeuse, reprenant la terminologie adaptée, soit un emprunt dans ce cas. En 2019, DeepL semble donc avoir moins peur des emprunts.

Notons par ailleurs que « luxury », tout d’abord traduit par l’adjectif « luxueux », a trouvé une traduction plus heureuse en 2019 avec le complément du nom « de luxe », qui semble mieux se prêter au contexte.

  • La traduction littérale et le sens

2017

sens2

2019

CaptureBIGFinal

Garder « The Eloise Shop » ou traduire littéralement par « La Boutique Eloise » ? En tant que futur traducteur, j’accompagnerais la traduction du nom original entre crochets. Dans tous les cas, ce sera au post-éditeur et/ou au client de trancher.

En 2017, DeepL avait choisi de proposer la traduction première de « skidder », soit « déraper ». En 2019, il n’en prend même plus la peine et les clients se retrouvent à faire du « skidder » dans le magasin. Ici, le verbe est accompagné de la particule « in ». Son sens s’en voit donc modifié. Les verbes à particule sont porteurs d’une grande richesse sémantique et leurs diverses acceptions évoluent de façon continue. Alors, qui d’autre que le post-éditeur sera à même d’en extraire (mais surtout d’en retransmettre) le sens ?

En revanche, nous pouvons être agréablement surpris de la gestion du mot « (mis)adventures » par l’outil, qui a proposé « (més)aventures » en 2019. Cette fois, DeepL ne s’est pas laissé duper par les parenthèses et a parfaitement rendu le sens du texte source. Une belle évolution depuis 2017.

Le dernier aspect que je souhaiterais aborder est la traduction de « enjoy story time with their mostly companion ». L’outil n’a pas réussi à comprendre le sens du terme « mostly ». À défaut de proposer mieux, DeepL suggère en 2017 l’utilisation de « principal ». En 2019, on ne comprend pas vraiment ce qu’il se passe, et l’on obtient le très étrange « compagnon pour la plupart ». Régression ou apprentissage en cours ?

 

Pour finir

Entre 2017 et 2019, DeepL a augmenté le nombre de langues proposées. Cependant, les traductions délivrées dans certaines combinaisons de langues sont d’une qualité moindre par rapport à d’autres. Est-ce parce que l’outil utilise l’anglais comme langue pivot pour lesdites combinaisons ? Si le sujet de l’anglais comme langue pivot vous intéresse, vous pouvez consulter le billet de blog de ma collègue Angelina Fresnaye.
Les corpus utilisés proviennent notamment de la base de données EUR-Lex, ce qui permet à DeepL d’être très performant dans la traduction automatique de textes juridiques.
Enfin, attention cependant, la très bonne qualité des traductions proposées et leur style naturel sont parfois un mirage. En effet, au nom de la fluidité, le sens pourra être changé et des éléments supprimés. En d’autres termes, si de nombreux articles affirment que la traduction automatique signera la fin du métier de traducteur, nous pouvons constater que l’on en est encore bien loin et que la présence d’un post-éditeur pour rattraper les maladresses, oublis et faux-sens ne sera pas de trop.

 

SOURCES :

Gerald Himmelein (03/06/2019) DeepL: The new gold standard in online translation? softmaker.com.

Radu Raicea (23/10/2017) Want to know how Deep Learning works? Here’s a quick guide for everyone. freecodecamp.org

Wikipedia (08/11/2019) Linguee, Wikimedia Foundation

Magdalena Räth (11/12/2013) Gereon Frahling (Linguee): „Wir haben uns 18 Monate vergraben“ gruenderszene.de

Blog de DeepL (04/10/2019) DeepL remporte le tout premier Prix Honorifique pour l’IA d’Allemagne https://www.deepl.com/blog/20191004.html

Marine Moreel (08/10/2019) Google Translate vs DeepL : le duel. Blog du Master « Traduction Spécialisée Multilingue » (TSM) de l’Université de Lille

 

Traduction automatique : les algorithmes ont-ils des préjugés ?

Par Estelle Peuvion, étudiante M2 TSM

traductionautomatique

Depuis plusieurs années, la traduction automatique connaît des avancées spectaculaires. La traduction neuronale s’impose de plus en plus face à la traduction statistique. Résultat : les moteurs de traduction machine sont capables de traiter de longues phrases, voire des textes complets, en respectant la grammaire, la syntaxe, et en conservant la cohérence terminologique. Certains moteurs de traduction automatique traduisent (presque) aussi bien que les traducteurs humains et de nombreuses entreprises n’hésitent plus à recourir à leurs services pour traduire leurs sites et leurs produits. Cependant, ces résultats remarquables connaissent leurs limites. En effet, les algorithmes sur lesquels reposent ces moteurs de traduction reproduisent en quelque sorte la manière de traduire des humains, mais ne risquent-ils pas de reproduire également nos aspects les plus négatifs ?

Reproduction des préjugés

La réponse est oui : les moteurs de traduction automatique reproduisent les préjugés (sexistes, racistes…) des humains. Cela a été démontré, et nous pouvons le vérifier par nous-même, en quelques clics seulement.

L’exemple le plus flagrant est celui des professions, notamment lorsque l’on traduit d’une langue qui n’a pas de genre lexical vers une langue qui en a. Les femmes sont communément associées aux professions artistiques, aux métiers de soins (infirmière, sage-femme…), au foyer, alors que les hommes sont associés aux professions scientifiques, politiques, et plus globalement aux postes « importants »: le moteur de traduction machine va, dans la majorité des cas, reproduire ces clichés.

Depuis plusieurs années, de nombreux internautes recensent les « dérapages » des moteurs de traduction automatique, et les exemples ne manquent pas. Sur Google Translate, incontournable de la traduction machine, il est facile de se retrouver face à des phrases reprenant des préjugés sexistes. En tapant « The engineer is from Germany », le logiciel nous propose automatiquement « L’ingénieur est allemand. » En revanche, lorsque l’on remplace engineer par nurse, nous obtenons « L’infirmière est allemande »…

Au-delà de ces observations simples, qui peuvent être formulées par n’importe qui, des scientifiques ont également étudié plus en profondeur ce phénomène et sont arrivés aux mêmes conclusions.

Des chercheurs des universités de Princeton et de Bath ont étudié la technologie GloVe, développée par l’université de Stanford, qui calcule les associations entre les mots. GloVe est entraîné à partir du corpus Common Crawl, qui regroupe plusieurs milliards de textes venant du web et est utilisé pour la traduction machine. Les chercheurs ont conclu que le programme GloVe associait très bien les mots, mais ils ont aussi remarqué des dérives racistes et sexistes : les personnes afro-américaines étaient associées à des mots bien plus négatifs que les personnes blanches, et les noms de femmes étaient liés à la famille, alors que les noms masculins étaient associés à la vie professionnelle.

À l’université de Washington, trois chercheurs ont étudié les préjugés sexistes dans la traduction machine (Evaluating Gender Bias in Machine Translation) et ont fait une découverte « amusante ». Ils ont constitué des phrases comprenant deux professions, une communément associée aux hommes et une associée aux femmes. Ils ont féminisé la profession masculine à l’aide d’un pronom ajouté plus loin dans la phrase, et ont laissé une ambiguïté quant à la profession féminine.

Par exemple, dans la phrase « The doctor asked the nurse to help her in the procedure », la profession de médecin a été féminisée grâce au pronom her, et la profession d’infirmier/infirmière est neutre. L’expérience avait deux objectifs : voir si doctor était bien féminisé, et voir si nurse était mis au masculin ou au féminin. Dans la majorité des cas, doctor était au masculin, nurse au féminin et le pronom her était traduit par un pronom féminin dans la langue cible, ce qui changeait le sens de la phrase !

Les chercheurs ont donc tenté d’ajouter un adjectif associé aux femmes au mot doctor, et dans ce cas, doctor était féminisé. Si nous reprenons l’exemple cité plus-haut et rajoutons l’adjectif pretty devant engineer, Google Translate nous propose « La jolie ingénieure est allemande ». En revanche, si l’on remplace pretty par courageous, l’ingénieur redevient un homme ! Conclusion : dans cette expérience, le cliché sexiste a été dépassé par l’ajout d’un autre cliché sexiste.

Comment expliquer ce phénomène ?

Pourquoi donc les moteurs de traduction automatique reproduisent-ils nos préjugés ? Les chercheurs ayant étudié cette problématique ont plusieurs réponses à nous offrir.

Les moteurs de traduction automatique sont basés sur des corpus parallèles et monolingues : des textes en langue cible et des traductions. Ces textes se comptent par millions voire par milliards pour certains moteurs de traduction, et ils proviennent du web dans la majorité des cas. Par conséquent, il est tout simplement impossible de contrôler chacun des textes composant le corpus : cela demanderait trop de main-d’œuvre et de temps. Voilà la première explication à notre problème : les données qui permettent aux moteurs de traduction automatique de nous proposer des traductions fluides, quasi-parfaites dans certains cas, proviennent du web. Ce sont des données que nous, humains, produisons, et nous produisons forcément des données affectées par nos préjugés, que nous le voulions ou non.

Prenons par exemple le corpus utilisé par le site de traduction Reverso Context : il contient des textes provenant de domaines différents, et notamment des sous-titres de films et de séries. Une particularité qui a amené le site à proposer début 2019 des résultats de traduction antisémites, racistes et sexistes. Le fondateur de l’outil s’est excusé et a expliqué que ces résultats pouvaient provenir de films et de séries, et qu’il était difficile de contrôler un corpus aussi conséquent.

De plus, la majorité des moteurs de traduction fonctionnent grâce au word embedding, une technique d’apprentissage automatique qui représente les mots ou phrases d’un texte par des vecteurs de nombres réels. La représentation vectorielle d’un mot représente son « contexte », c’est-à-dire les mots, expressions et phrases qui entourent le plus souvent ce mot.

Il est donc tout à fait logique que les moteurs de traduction reproduisent nos préjugés : ils utilisent nos textes, apprennent nos langues. Ils apprennent aussi les associations culturelles et historiques qui nous mènent à avoir ces préjugés.

La seconde explication se trouve entre les corpus et le processus de traduction en lui-même : les algorithmes. En effet, les concepteurs de ces algorithmes sont en majorité des hommes, blancs, il est donc possible qu’ils prêtent moins attention à la manière dont seront traitées certaines problématiques par l’algorithme.

Lutter contre les « préjugés » de la traduction automatique

Maintenant que nous connaissons l’origine de ce phénomène de reproduction des préjugés sexistes, nous pouvons réfléchir à des solutions.

Les entreprises ayant conçu les principaux moteurs de traduction automatique, et qui utilisent l’intelligence artificielle, se trouvent en première ligne de cette lutte. La majorité d’entre elles ont conscience du problème et ces dernières années, elles ont commencé à proposer des solutions.

Facebook a annoncé il y a quelques mois la création d’un outil servant à trouver les biais dans les algorithmes, « Fairness Flow ». L’outil sera normalement capable de déterminer si un algorithme reproduit les préjugés ; il est pour l’instant en développement.

Récemment, Google Translate a admis avoir proposé des traductions aux préjugés sexistes. Suite à cette annonce, le moteur de traduction prendra en compte le genre grammatical dans les traductions. En proposant un nom neutre en anglais, on peut obtenir deux traductions en français, le féminin et le masculin. Cependant, cette nouvelle fonctionnalité est pour l’instant restreinte à certaines langues et à un certain nombre de mots.

La modification de la langue pourrait également être une solution : par exemple, un pronom neutre a été introduit dans la langue suédoise. Néanmoins, ce genre de modification représente un vrai défi : comment inciter des locuteurs d’une langue à changer de manière radicale leur utilisation de la langue ? De plus, le remplacement des corpus actuels prendrait un temps considérable, et les effets ne seraient pas visibles immédiatement.

L’amélioration des corpus semble être un axe évident dans la résolution de ce problème. Trois chercheurs des universités de Dublin et d’Uppsala (Getting gender right in neural machine translation) ont mené une enquête et ont tenté d’atténuer la reproduction des préjugés sexistes dans la traduction automatique. Ils ont taggué le corpus utilisé par le moteur de traduction et y ont introduit des tags genrés, pour plusieurs paires de langues, aussi bien pour les accords que pour le style et le vocabulaire. Ils ont vu dans les traductions proposées des améliorations significatives, en particulier pour les accords. Cependant, ils ont noté un manque de cohérence dans certaines traductions.

Nous pouvons donc améliorer les corpus en changeant la façon dont nous les utilisons (grâce aux tags, par exemple), mais également en privilégiant les textes avec une écriture non-sexiste.

La diversification des équipes qui conçoivent les algorithmes représente également une idée de résolution du problème, afin qu’elles puissent plus facilement se rendre compte des préjugés reproduits par l’intelligence artificielle.

Enfin, la solution qui serait évidemment la plus efficace, serait que la société change et que tous nos préjugés disparaissent. Malheureusement, c’est un objectif difficile à atteindre, mais nous, traducteurs et traductrices, pouvons apporter notre pierre à l’édifice. Utiliser l’écriture inclusive (quand nous en avons la possibilité), encourager l’amélioration des moteurs de traduction automatique, prêter attention au vocabulaire que nous utilisons, voilà des pistes simples que nous sommes tous et toutes aptes à suivre.

 

Bibliographie :

La NMT vue par une agence de traduction

Par Jimmy Gabreau, étudiant M1 TSM

 

Translate

 

Ces dernières années, la traduction neuronale (NMT) a peu à peu pris le pas sur la traduction statistique (SMT) grâce à l’obtention de résultats largement considérés comme bien plus convaincants, ayant conduit à sa démocratisation. Il me parait donc intéressant de voir comment cela est pris en compte par les acteurs du secteur. Afin de rassembler quelques éléments de réponse, je vous propose un entretien avec Liesbet Steyaert et Madeleine Barois, de l’agence de traduction Telelingua à Paris, qui œuvrent toutes deux à l’implémentation de cette technologie au sein de l’entreprise.

 

Tout d’abord, pouvez-vous vous présenter, ainsi que votre parcours ?

LS : Moi c’est Liesbet, je travaille depuis plus de dix ans chez Telelingua en tant que chef de projet, j’ai fait deux ans en ingénierie linguistique, dans les années 2000, l’époque où la traduction automatique s’appuyait encore sur des règles grammaticales (rule-based machine translation). Depuis les choses ont pas mal évolué. Depuis quelques mois, je coordonne la mise en place d’une solution de traduction automatique dans l’entreprise. Pour cela, je suis surtout aidée par Madeleine. Pour l’instant, nous sommes encore en phase de test. L’idée est de ne pas fermer les yeux devant la traduction automatique mais d’examiner comment cette technologie peut nous aider. Cela peut par exemple être utile face à des clients qui ont des budgets très réduits et/ou qui ne cherchent pas une qualité optimale pour certains projets. La MT peut aussi utile pour gérer des traductions très urgentes et volumineuses. Nous voulons donc explorer si cette technologie peut accélérer le processus de traduction et/ou réduire les coûts.

MB : Je m’appelle Madeleine, je suis chez Telelingua depuis septembre 2017, je suis apprentie dans l’équipe process pour assister les gestionnaires de projets dans la préparation de fichiers, la traduction, la localisation en assistant à l’optimisation des outils destinés à l’automatisation des processus. J’ai effectué une formation en linguistique au Canada et je suis actuellement en alternance dans un Master orienté sur le développement de sites internet multilingues. Je suis, en quelque sorte, l’assistante de Liesbet pour tout ce qui relève de l’entrainement de moteurs de traduction et de la rédaction des guides d’utilisation des outils de traduction automatique. Nous mettons en place des tests, bien que nous ne proposions pas encore officiellement de service de traduction automatique, afin de voir comment cela se déroule au sein de vrais projets et ainsi déterminer si cela sera rentable.

 

Jusqu’à présent, quel usage aviez-vous de la traduction statistique ?

LS : Nous ne l’avons utilisée que pendant quelques mois, l’outil MT que nous utilisons ne fournira plus de support SMT à partir de septembre, cela nous donne donc davantage de raisons pour passer à la traduction neuronale, et c’est ce que nous sommes actuellement en train de faire.

 

Dans quels types de projets allez-vous utiliser la traduction neuronale ?

LS : Nous avons créé des moteurs de traduction par domaine ainsi que par client, cela concerne évidemment davantage la traduction technique et s’adresse aux clients les plus sensibles au niveau du prix mais qui nous envoient un volume important à traduire. Pour le moment, nous avons élaboré des moteurs destinés à la traduction de texte dans des domaines tels que l’industrie, les arts graphiques, l’énergie ainsi que le juridique. Cela peut paraître étonnant, mais cela marche plutôt bien vu que le langage est assez standardisé. Évidemment, nous utilisons la NMT pour aider le traducteur en pré-traduisant d’abord le texte à l’aide d’une mémoire de traduction, la NMT intervient uniquement sur les « no matches », les segments qui n’ont pas de remontées de nos mémoires de traduction. C’est une façon hybride de travailler, cela ne change pas les habitudes du traducteur, il aura simplement des suggestions de traduction issues de la NMT sur chaque « no match » à post-éditer. Cela n’empêche pas qu’une révision sera effectuée suite à la traduction afin d’obtenir le même niveau de qualité que celui que nous avons actuellement.

MB : Afin mesurer le gain de productivité des traducteurs apporté par la NMT, nous leur envoyons un formulaire d’évaluation de la NMT pour qu’ils nous rapportent les erreurs qu’ils ont trouvées dans les traductions proposées. C’est assez compliqué de juger et de formaliser, c’est pourquoi nous essayons de mettre en place un système qui le ferait de manière automatique, quantifiable, qui pourrait comparer un segment issu de la MT avec celui issu de la post-édition du traducteur et ainsi voir les changements effectués pour obtenir une traduction de qualité. Nous développons un outil de mesure de « distance de post-édition », qui nous permettra de connaître les efforts fournis par le traducteur, mais aussi de savoir quels moteurs auraient le plus besoin de post-édition et devraient donc être davantage entraînés.
Pour le moment, le feedback se base sur le ressenti du traducteur, nous aimerions avoir quelque chose de plus précis et standardisé, ce qui est, je pense, le défi auquel sont confrontées toutes les entreprises de traduction en ce moment. Il existe déjà des outils, des plug-ins Studio pour cela, mais ils ne sont pas tout à fait adaptés à nos besoins.

 

Voyez-vous des inconvénients à l’utilisation de la NMT ?

LS : La SMT découpe et traite les phrases par petits groupes de mots, c’est un système qui gère difficilement la grammaire d’une phrase entière. Ceci peut mener à des résultats peu convaincants, en fonction de la qualité des corpus utilisés pour entraîner les moteurs, la NMT parvient à remédier à ce problème grâce à l’utilisation d’une intelligence artificielle capable de donner des traductions plus naturelles. Mais une phrase pourrait être mal traduite et ne plus du tout correspondre à la phrase source, tout en étant parfaitement formée au niveau grammatical. C’est donc un problème potentiellement trompeur dont les traducteurs doivent être conscients. C’est une aide, mais ils ne doivent pas considérer leur travail comme étant une simple relecture des résultats du moteur. C’est sur ce point que nous ne sommes pas certains du gain de temps que cela peut nous apporter, d’où l’importance d’un bon entraînement des moteurs.

 

Les traducteurs sont-ils réticents à l’utilisation de la NMT ?

LS : Il faut souligner que, dans l’esprit des traducteurs, cela a pas mal évolué puisqu’on entend beaucoup parler de la traduction automatique, et de ses progrès, grâce à l’introduction de l’intelligence artificielle et donc la solution neuronale. Je pense qu’ils sont donc un peu plus ouverts qu’il y a quelques années. Les universités ou écoles de formation linguistiques forment aujourd’hui leurs étudiants à la gestion ou à l’utilisation de traduction automatique. Les traducteurs doivent surtout comprendre qu’on aura toujours besoin d’eux. Cela fait des décennies que l’on pense être tout proche de la solution pour les remplacer, mais nous en sommes probablement encore loin car la NMT n’est pas encore assez fiable pour obtenir la même qualité qu’une traduction humaine. Par contre, l’introduction de la traduction automatique dans le processus de traduction peut jouer sur la productivité des traducteurs et sur leur valeur ajoutée. Certains contenus ne se prêtent pas à la traduction automatique. Les nuances, figures de style restent l’apanage de l’intelligence humaine, donc des traducteurs. Il risque d’y avoir des agences qui appliqueraient des prix beaucoup plus bas, sans prêter attention aux résultats donnés par les moteurs de traduction automatique et qui paieraient les traducteurs bien en dessous des efforts fournis. C’est un fait, mais le monde de la traduction ne va pas migrer intégralement vers la traduction automatique. Certains types de contenus, oui, d’autres non.

MB : Le système de tarification est une question importante, il faut que les agences prennent en compte que différents projets, différents moteurs, différents types de texte source, engendrerons différents efforts de post-édition, nous estimons donc qu’il serait plus pertinent d’appliquer des tarifs en fonction du travail réellement effectué par le traducteur, c’est pourquoi nous créons cet outil de « mesure de similarité. ».

 

Je tiens à remercier Liesbet et Madeleine d’avoir pris le temps de répondre à ces questions et de m’avoir donné quelques clés pour mieux comprendre les changements en cours dans le secteur de la traduction et mieux les anticiper.

Maîtriser la traduction automatique

Par Margaux Morin, étudiante M1 TSM

TA

On l’a tous déjà croisée quelque part, cette traduction ratée, fruit de la traduction automatique. Il s’agit malheureusement des traductions que l’on retient le mieux. Dans sa « Critique des logiciels de traduction automatique », le site @-DICTAM Traductions nous fournit même des exemples qui peuvent prêter à rire (d’autres exemples étant disponibles sur le lien) :

  • Dans un aéroport de Copenhague : nous prenons vos sacs et les envoyons dans toutes les directions.
  • Dans le lobby d’un hôtel de Bucarest : L’ascenseur sera en réparation le prochain jour. Pendant ce temps, nous regrettons que vous soyez insupportables.
  • Chez un nettoyeur de Bangkok : Laissez tomber vos pantalons ici pour de meilleurs résultats.

Voilà pourquoi il faut des traducteurs humains pour éviter ce genre de situation qui font perdre aux entreprises toute crédibilité. La traduction effectuée par un traducteur professionnel est pour certains optionnelle et contraignante par rapport à un moteur de traduction automatique, qui aurait l’avantage de leur faire gagner du temps et de l’argent. Or, ce n’est pas toujours vrai ! On a d’ailleurs eu l’occasion de voir dans le billet d’Audrey les conséquences dramatiques qu’une mauvaise traduction peut engendrer.

 

Mais d’abord, la traduction automatique, qu’est-ce que c’est ?

Comme nous l’indique le site de SDL Trados, la traduction automatique est une traduction effectuée par ordinateur, sans intervention humaine.

À cela s’ajoute le fait qu’il existe 2 types de traducteurs automatiques : soit le moteur utilise les règles de grammaire et de conjugaison par le biais de dictionnaires, soit il utilise un système de probabilité notamment pour déterminer les expressions les plus utilisées pour toutes les paires de langues, cette fois-ci par le biais de corpus et de bases de données gigantesques. Sans parler de la traduction basée sur des algorithmes neuronaux qui mériterait à elle seule son billet !

Or, en règle générale, lorsque l’on pense « traduction automatique », on pense Google traduction voire même Babylon ou Reverso. Ils sont pourtant loin d’être les meilleurs outils en la matière, puisqu’ils sont incapables de s’adapter à la traduction selon les domaines et/ou d’évoluer en fonction de ces derniers et ne différencient donc pas les subtilités liées à la technicité du texte source. On s’aperçoit rapidement que le résultat provient de la traduction automatique, ce qui n’est pas bon pour la réputation de l’entreprise. De plus, contrairement à d’autres moteurs de traduction automatique, ils ne s’améliorent pas au fur et à mesure de leur utilisation. Pourtant, il existe une multitude de moteurs de traduction automatique bien plus efficaces ! Laissez-moi vous en présenter quelques-uns :

SYSTRAN

SYSTRAN est un traducteur automatique plutôt intéressant puisqu’il s’agit du leader mondial en matière de traduction automatique. Il met d’ailleurs à disposition des versions pour particuliers et pour professionnels. À noter que ce traducteur automatique est compatible avec plusieurs types de fichiers dont le format PDF. La version Professional permet même d’ajuster des paramètres quant au processus de traduction, en permettant par exemple de choisir de traduire « you » par « tu » ou par « vous » ou bien de traduire vers l’anglais britannique ou l’anglais américain. Une version en ligne gratuite est également disponible avec traduction dans 15 langues.

VERTO

VERTO est un traducteur automatique développé par Lingua Custodia, spécialisé dans le domaine bancaire et financier. Il est capable de s’adapter en fonction de la terminologie, des traductions précédemment effectuées qu’on lui confie et des différents clients. Il s’agit donc d’un moteur de traduction personnalisable.

PROMT Translator

PROMT Translator est également un traducteur automatique disponible gratuitement en ligne mais en plus de traduire dans 14 langues, on peut définir le domaine de la traduction afin de l’orienter sur la bonne voie. On retrouve par exemple les domaines « cuisine », « sciences humaines » et même « chansons » pour les traductions de paroles de chanson ou de genres musicaux. On peut même insérer nos propres thématiques ou laisser le moteur de traduction automatique détecter lui-même le domaine de traduction du texte source. Il fonctionne via des algorithmes intelligents et son contenu est constamment actualisé. D’autres versions (payantes) pour utilisateurs à domicile ou entreprises ou encore pour développeurs existent également, et pas uniquement sous Windows !

 

D’ordinaire, ces moteurs de traduction automatique ne sont pas connus du grand public. La meilleure solution pour le traducteur reste donc d’apprendre à utiliser et donc à maîtriser ces outils. Il ne faut certainement pas les fuir, mais évoluer avec eux, ce qui implique également de se tenir informé en matière de traducteurs automatiques, étant donné qu’ils représentent sans aucun doute l’avenir du monde de la traduction. Il est par conséquent indispensable de se familiariser avec la post-édition (activité qui consiste à repasser derrière un texte prétraduit automatiquement pour le rendre humainement intelligible, voir le site Traduire revues.org) ainsi que les différents types de post-édition (tels que recensés sur le site Traduire revues.org).

La meilleure option pour le traducteur 2.0 sera de travailler main dans la main avec la machine. Cela implique donc de se former dès maintenant à l’utilisation de traducteurs automatiques spécialisés ainsi qu’à la post-édition. Cette dernière lui offrira un meilleur rendement et par conséquent une meilleure productivité qui lui permettra de traduire plus en termes de quantité (sans pour autant avoir un impact négatif sur la qualité) en moins de temps (et le temps, c’est de l’argent !). À l’heure actuelle, certaines agences de traduction commencent d’ores et déjà à former leurs traducteurs dans ce domaine et ce dans le but de rester compétitives dans l’ère du temps.

Néanmoins il ne faut pas oublier que la post-édition reste limitée dans certains domaines comme la transcréation (la traduction des titres de films notamment, qui fonctionne au cas par cas comme nous l’explique Youssef dans son billet Le juste titre). La traduction automatique n’est donc pas prête de nous remplacer !

 

Sources :

« Critique des logiciels de traduction automatique »  sur le site officiel de @-DICTAM Traductions : http://www.a-dictam.com/fr/critiques-des-traductions.htm#plus (page consultée le 27 mai 2017).

Pour tout savoir sur la post-édition :

Traduire revues [En ligne] https://traduire.revues.org/460 (page consultée le 20 juin 2017).

Article de sens-public.org [En ligne] « Le fantasme de la traduction automatique : esquisse d’un imaginaire frelaté »  http://www.sens-public.org/article1152.html (page consultée le 1er juillet 2017).

Article sur PROMT sur leur site officiel : http://www.promt.fr/media/news/58833/ (page consultée le 1er juillet 2017).

Pour tout savoir sur SYSTRAN : http://www.mysoft.fr/produit/systran_traduction_automatique.htm (page consultée le 1er juillet 2017).

Site officiel de Lingua Custodia : http://www.linguacustodia.finance/fr/accueil/ (page consultée le 1er juillet 2017).

Site officiel de SYSTRAN : http://www.systran.fr/lp/traduction-en-ligne/ (page consultée le 1er juillet 2017).

Site officiel de SDL Trados Studio avec la définition de traduction automatique : http://www.sdltrados.com/fr/solutions/machine-translation/ (page consultée le 1er juillet 2017).

PROMT Translator : http://www.online-translator.com/ (page consultée le 30 juin 2017).

 

La traduction automatique neuronale et l’avenir du traducteur

Par Benoit Julliard, étudiant M1

anatomy-1751201_1280

Fin 2016, plusieurs grandes entreprises comme Google, Microsoft, Systran ou SDL, ont dévoilé des solutions de traduction automatique neuronale. Cette technologie récente est déjà meilleure que les modèles statistiques qui étaient utilisés jusqu’à présent, et elle promet de révolutionner le monde de la traduction automatique. Comment fonctionne cette technologie ? De quoi est-elle capable ? Quelles seront les conséquences pour le marché de la traduction professionnelle ? Nous allons tenter de répondre à ces questions.

Jusqu’à maintenant, le modèle de traduction automatique le plus fréquemment utilisé était la traduction statistique. Ce modèle repose sur l’utilisation d’un vaste corpus parallèle, découpé en unités de traduction auxquelles on attribue un score de probabilité. Lorsqu’un moteur de traduction automatique statistique analyse une phrase à traduire, celui-ci segmente également la phrase en différentes unités qui sont comparées au corpus, afin de produire une traduction ayant le plus grand score de probabilité.[i] La traduction automatique neuronale, quant à elle, bien qu’elle repose également sur un corpus, ne se contente plus de traduire des segments isolés. Au lieu de cela, elle traduit la phrase dans sa totalité, et le moteur s’améliore seul en créant des voies neuronales qui se renforcent au fil du temps, imitant ainsi le cerveau humain. Les résultats sont impressionnants, comme le montre cet article du New York Times qui décrit l’expérience menée par le professeur Jun Rekimoto sur un passage de la nouvelle d’Ernest Hemingway, Les neiges du Kilimandjaro. À part l’omission d’un article qui a trahi la machine, la traduction de ce passage est d’une qualité exceptionnelle, en particulier lorsqu’on la compare à la traduction proposée par le moteur statistique.

Les moteurs de traduction automatique neuronale promettent donc de révolutionner l’avenir du marché de la traduction, notamment ceux de Google et Microsoft, qui utilisent des bases de données très importantes. Ceux-ci posent des problèmes de confidentialité, car les données fournies aux moteurs de traduction de Google et Microsoft sont conservées par ces entreprises. C’est pourquoi Systran et SDL proposent un service qui promet de protéger les informations sensibles.

D’autre part, la machine possède encore des lacunes, notamment en matière de gestion de ce qui se passe autour de la traduction. La machine ne peut en effet pas comprendre les attentes d’un client, ni l’objet de la traduction et le public auquel elle est destinée. Elle a également encore des difficultés à traduire le langage très technique [ii]. C’est donc au niveau du service que les biotraducteurs pourront se démarquer, en étant à l’écoute de leurs clients afin de leur proposer des solutions personnalisées.

Il est certain que cette évolution de la traduction automatique va bouleverser le marché de la traduction dans les années à venir, sans pour autant qu’elle ne remplace entièrement l’humain. Certains domaines seront moins affectés par les avancées de la traduction automatique neuronale, en particulier ceux qui nécessitent un effort créatif d’adaptation, de transcréation ou de localisation, comme le marketing, les jeux vidéo ou l’audiovisuel.

Enfin on peut imaginer que l’homme et la machine seront amenés à travailler en véritable symbiose, et ou la post-édition aura un rôle de plus en plus important. C’est donc un avenir riche en nouveaux défis qui attend les traducteurs.

[i] https://interstices.info/jcms/nn_72253/la-traduction-automatique-statistique-comment-ca-marche

[ii] http://content.lionbridge.com/neural-machine-translation-artificial-intelligence-works-multilingual-communication/