La machine DeepL

Par Julian Turnheim, étudiant M2 TSM

 

Automne 2007 : les feuilles mortes quittent leurs branches et viennent se poser avec douceur sur le sol encore froid et humide. Pendant ce temps-là, un homme, Dr. Gereon Frahling, ancien employé de chez Google, repère un marché de niche et cherche à développer son idée. Il quitte le géant américain pour lancer, en un an et demi, avec son associé Leonard Fink, leur start-up : le dictionnaire bilingue Linguee. Après dix-huit mois de travail acharné et des tonnes de pizzas, le résultat est impressionnant.

L’objectif de Linguee ? Dr. Frahling l’explique comme suit : « Un moteur de recherche de traductions ouvert à tous. Si quelqu’un a un problème pour traduire une phrase en particulier, il peut vérifier sur Linguee si un traducteur quelque part dans le monde a déjà traduit exactement cette même phrase. Et ensuite, il peut s’orienter par rapport à cette traduction. » (Traduit de l’allemand) Est-ce la racine de DeepL ?

Dix ans plus tard, Lee Turner Kodak, responsable communication chez DeepL, tient dans ses mains le tout premier Prix Honorifique pour l’IA d’Allemagne. Linguee a bien grandi. D’ailleurs, l’entreprise Linguee GmbH ne s’appelle plus Linguee mais DeepL GmbH. En effet, entre temps, l’entreprise a lancé, en 2017, le traducteur automatique DeepL. Ce nouveau traducteur automatique a eu l’effet d’une bombe dans le monde de la traduction. Personne ne pouvait imaginer que, dès sa sortie, ce petit nouveau mettrait dans l’embarras le géant Google Traduction.

C’est de ce petit nouveau, plus si nouveau et plus si petit que ça, finalement, que je voudrais vous parler.

 

Comment utiliser la bête ?

DeepL peut être utilisé gratuitement et sans qu’un enregistrement soit nécessaire. Vous pouvez soit coller le texte à traduire dans le champ dédié, soit téléverser directement votre document texte ou diaporama, grâce à l’option « Traduire un document ». Toutefois, la version gratuite ne permet d’obtenir que des documents en lecture seule, dont vous ne pourrez copier que le texte brut. De plus, il n’est pas possible de corriger la traduction, alors que cela est possible sur la plateforme.

Il est possible de coller un maximum de 5000 caractères dans le champ dédié, mais il n’y a pas de limite de taille pour les documents téléversés. La version gratuite n’est pas forcément adaptée aux exigences des traducteurs professionnels, car le texte que vous insérerez sur la plateforme sera conservé par DeepL, ce qui peut poser quelques problèmes de confidentialité. Mais pas d’inquiétude ! Pour les traducteurs, la version professionnelle de DeepL existe sous la forme d’un plug-in pouvant être intégré à de nombreux outils de TAO, tels que SDL Trados Studio et MemoQ. Cette version professionnelle ne conservera pas les données saisies.

L’un des avantages majeurs de la traduction via le champ dédié est qu’elle permet d’affiner le résultat, ce qui est impossible avec l’option « Traduire un document ». Si une traduction ne vous satisfait pas, un clic sur le texte traduit ouvre un menu proposant des suggestions alternatives, et vous pourrez alors corriger la traduction rapidement et facilement. Lorsque vous corrigez ou modifiez des mots, la plateforme propose, si nécessaire, une phrase entièrement retravaillée. Vous pouvez donc toujours négocier avec DeepL, lui suggérer de nouvelles phrases, de nouveaux mots, ou encore améliorer la traduction qui a été proposée directement dans l’outil. DeepL, n’oubliant pas que vous avez modifié la traduction, utilisera ensuite ces nouvelles connaissances. C’est ce qu’on appelle la traduction automatique neuronale.

 

La traduction automatique neu… quoi ?

La traduction automatique neuronale. Mais oui, parlons-en ! Enfin, essayons d’en parler. L’étudiant de M2 que je suis ne saurait vous expliquer avec exactitude comment fonctionne la traduction automatique neuronale. Les experts eux-mêmes semblent aujourd’hui peiner à en expliquer le processus, tant l’évolution de la traduction automatique est rapide.

Ce que je peux vous dire, c’est que DeepL analyse des textes à l’aide de réseaux neuronaux. Ces réseaux permettent de résoudre des tâches sur la base de modèles prédéfinis. Lorsqu’un réseau neuronal est formé à la traduction, il est tout d’abord alimenté avec des traductions préexistantes et correctes, soit un corpus parallèle géant de qualité. Il les analyse alors jusqu’à pouvoir en déduire la façon dont les nouveaux textes doivent être traduits. Cette méthode est aussi appelée le Deep Learning (oui, DeepL porte bien son nom). Cela fait référence à la capacité d’une machine à apprendre en utilisant d’importants ensembles de données, plutôt qu’en ayant recours à des règles codées, beaucoup trop rigides et limitées. L’ordinateur peut alors apprendre par lui-même et entraîner une intelligence artificielle à prédire les résultats à partir d’un ensemble de données saisies. À l’instar d’un animal ou un bébé humain, il apprend grâce à des exemples, des expériences et des erreurs. Chaque fois que vous traduisez avec DeepL, vous nourrissez le géant.

Cet apprentissage considérable nécessite l’utilisation d’un super-ordinateur d’une performance équivalente à 5000 processeurs d’ordinateurs de bureau. Ce serveur surpuissant n’est d’ailleurs pas situé en Allemagne (lieu du siège de DeepL), mais dans un centre de données en Islande, à Keflavik. Là-bas, il est plus facile de garder les traductions au frais : les basses températures extérieures de cette région du monde facilitent la climatisation de ce gigantesque centre de données. Autrement, le serveur se transformerait rapidement en l’un des nombreux volcans islandais.

 

Maintenant, place à la pratique !

Il est temps d’analyser les performances de ce géant. Pour cela, je vais reprendre les textes que Marine Moreel avait utilisés dans son billet de blog du 8 octobre 2017 : Google Translate vs DeepL : le duel. Ces textes sont extraits du site du Plaza Hotel de New York rédigés en anglais. Je vais donc observer leur traduction vers le français. Ainsi, nous pourrons comparer les textes traduits entre 2017 et aujourd’hui, et en analyser l’évolution.

  • La typographie

En quelques mots, on peut dire qu’il n’y a pas vraiment eu d’évolution en la matière. DeepL ne respecte toujours pas les règles typographiques de la langue française. On ne retrouve donc toujours pas d’espaces insécables ou de guillemets chevrons dans le texte traduit.

  • La localisation

2017

localisation2

2019

CaptureLOCALISATION

En ce qui concerne la localisation, on constate une légère évolution. DeepL ne localise toujours pas les numéros de téléphone et les devises. En revanche, il adapte le format des chiffres en supprimant la virgule séparatrice de milliers, et sait localiser l’heure. Pour l’instant, rien de nouveau sous le soleil. Toutefois, à la dernière phrase, on remarque que DeepL a traduit l’unité de mesure sans la localiser. Cela représente une amélioration par rapport à la version de 2017, dans laquelle DeepL a traduit « 4,500 sq. ft. » par « 4 500 m² » en la faisant suivre de la mesure « ft. » laissée telle quelle, ce qui n’a aucun sens.

  • Omissions

2017

coherence2

2019

CaptureCOHERENCE

En comparaison avec la traduction de 2017, on peut constater que « palatial » n’a pas été omis cette fois-ci. DeepL n’a donc pas supprimé de mots, que ce soit dû à une impossibilité de traduire, ou à la nécessité de rendre la phrase traduite plus humaine.

  • La traduction des mots empruntés à d’autres langues

2017

emprunts2

2019

CaptureDRESSING

 

Confusion de « dressing area » avec « dressing room » ? Mystère ! Toujours est-il que l’on passe d’une traduction peu idiomatique et incorrecte du point de vue du contexte, à une formulation fluide, naturelle et plus vendeuse, reprenant la terminologie adaptée, soit un emprunt dans ce cas. En 2019, DeepL semble donc avoir moins peur des emprunts.

Notons par ailleurs que « luxury », tout d’abord traduit par l’adjectif « luxueux », a trouvé une traduction plus heureuse en 2019 avec le complément du nom « de luxe », qui semble mieux se prêter au contexte.

  • La traduction littérale et le sens

2017

sens2

2019

CaptureBIGFinal

Garder « The Eloise Shop » ou traduire littéralement par « La Boutique Eloise » ? En tant que futur traducteur, j’accompagnerais la traduction du nom original entre crochets. Dans tous les cas, ce sera au post-éditeur et/ou au client de trancher.

En 2017, DeepL avait choisi de proposer la traduction première de « skidder », soit « déraper ». En 2019, il n’en prend même plus la peine et les clients se retrouvent à faire du « skidder » dans le magasin. Ici, le verbe est accompagné de la particule « in ». Son sens s’en voit donc modifié. Les verbes à particule sont porteurs d’une grande richesse sémantique et leurs diverses acceptions évoluent de façon continue. Alors, qui d’autre que le post-éditeur sera à même d’en extraire (mais surtout d’en retransmettre) le sens ?

En revanche, nous pouvons être agréablement surpris de la gestion du mot « (mis)adventures » par l’outil, qui a proposé « (més)aventures » en 2019. Cette fois, DeepL ne s’est pas laissé duper par les parenthèses et a parfaitement rendu le sens du texte source. Une belle évolution depuis 2017.

Le dernier aspect que je souhaiterais aborder est la traduction de « enjoy story time with their mostly companion ». L’outil n’a pas réussi à comprendre le sens du terme « mostly ». À défaut de proposer mieux, DeepL suggère en 2017 l’utilisation de « principal ». En 2019, on ne comprend pas vraiment ce qu’il se passe, et l’on obtient le très étrange « compagnon pour la plupart ». Régression ou apprentissage en cours ?

 

Pour finir

Entre 2017 et 2019, DeepL a augmenté le nombre de langues proposées. Cependant, les traductions délivrées dans certaines combinaisons de langues sont d’une qualité moindre par rapport à d’autres. Est-ce parce que l’outil utilise l’anglais comme langue pivot pour lesdites combinaisons ? Si le sujet de l’anglais comme langue pivot vous intéresse, vous pouvez consulter le billet de blog de ma collègue Angelina Fresnaye.
Les corpus utilisés proviennent notamment de la base de données EUR-Lex, ce qui permet à DeepL d’être très performant dans la traduction automatique de textes juridiques.
Enfin, attention cependant, la très bonne qualité des traductions proposées et leur style naturel sont parfois un mirage. En effet, au nom de la fluidité, le sens pourra être changé et des éléments supprimés. En d’autres termes, si de nombreux articles affirment que la traduction automatique signera la fin du métier de traducteur, nous pouvons constater que l’on en est encore bien loin et que la présence d’un post-éditeur pour rattraper les maladresses, oublis et faux-sens ne sera pas de trop.

 

SOURCES :

Gerald Himmelein (03/06/2019) DeepL: The new gold standard in online translation? softmaker.com.

Radu Raicea (23/10/2017) Want to know how Deep Learning works? Here’s a quick guide for everyone. freecodecamp.org

Wikipedia (08/11/2019) Linguee, Wikimedia Foundation

Magdalena Räth (11/12/2013) Gereon Frahling (Linguee): „Wir haben uns 18 Monate vergraben“ gruenderszene.de

Blog de DeepL (04/10/2019) DeepL remporte le tout premier Prix Honorifique pour l’IA d’Allemagne https://www.deepl.com/blog/20191004.html

Marine Moreel (08/10/2019) Google Translate vs DeepL : le duel. Blog du Master « Traduction Spécialisée Multilingue » (TSM) de l’Université de Lille

 

Répondre

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google

Vous commentez à l'aide de votre compte Google. Déconnexion /  Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s