Rencontre avec Laurence Anthony, le créateur d’AntConc, perle linguistique du Japon

Par Jordan Raoul, étudiant M2 TSM

 

LaurenceAnthony

Laurence Anthony, toujours très souriant, dans son bureau

 

Fin septembre 2019, mon acolyte m’annonçait qu’elle allait décoller pour Tokyo, à la fin du mois suivant, dans le cadre de son mémoire. En un clin d’œil, ma pause pédagogique était planifiée. Hélas, quelque chose me tracassait. Abstraction faite de la locution お前はもう死んでいる, qui n’allait pas m’amener très loin, je ne peux prétendre parler japonais. Je ne voulais pas me cantonner à la passivité, c’est pourquoi l’idée de donner une dimension éducative à ce voyage me plaisait. « Que faire entre une visite du Pokémon Center et un après-midi détente dans la librairie Tsutaya ? » Ainsi, je me mis à puiser de l’inspiration dans mes études, à l’instar de ma partenaire. Eurêka ! M. Loock, notre professeur, venait justement de nous parler de Laurence Anthony, le développeur de AntConc, lors du cours de grammaire comparée. Laurence Anthony vit à Tokyo, où il est directeur de département au sein du Center for English Language Education in Science and Engineering (CELESE) à l’Université Waseda. En un tour de main j’avais envoyé un e-mail à Laurence Anthony, qui n’a pas tardé à répondre positivement à ma demande. Dans ce billet, je vous parlerai de l’histoire de AntConc, des programmes qui l’accompagnent, et des raisons pour lesquelles vous devriez songer à vous l’approprier. Les informations présentées sont tirées d’une interview avec Laurence Anthony ainsi que de diverses sources que vous pourrez trouver à la fin de l’article.

Qu’est-ce que AntConc ?

AntConc est un logiciel que les traducteurs qualifient généralement d’outil de corpus DIY (Do It Yourself). Le principe est simple : l’utilisateur va lui-même créer son corpus en complétant une base de données. Les fichiers, généralement au format .txt, sont compilés dans une interface très simple d’utilisation. Par exemple, si je suis traducteur et que je suis spécialisé dans la mode ou encore dans l’art, et que je veux être certain de mes sources, je peux créer mon propre corpus dédié au domaine en question. Il est possible de créer autant de corpus que souhaitable. La fonction principale du programme est ce que l’on appelle un KWIC (Keyword-in-context). Cela implique que l’utilisateur doit saisir le terme recherché dans la barre située en bas de l’interface. KWIC, qui signifie, en français, « mot-clef en contexte », est ici illustré par le fait que le programme va produire un résultat qui met en évidence le mot recherché au travers d’une couleur. La fonction KWIC sort, qui se situe encore en dessous, permet de colorer les termes qui suivent ou qui précèdent le terme recherché, permettant ainsi à l’utilisateur de retrouver les mots avec lesquels un terme donné fonctionne, en d’autres termes les collocations. Il existe bien évidemment d’autres logiciels qui offrent le même type de service, comme Sketchengine ou le COCA, mais AntConc présente deux avantages non négligeables : utilisation hors connexion et gratuité !

AntConc

Interface type d’une page de résultats AntConc

 

AntConc n’est pas le seul outil développé par Laurence Anthony. Il y en a en réalité beaucoup, et quelques-uns peuvent se révéler très utiles pour les traducteurs. On peut mentionner AntCorGen, qui permet de générer des corpus spécialisés de façon massive et rapide, ou encore AntPConc, qui est un outil d’analyse de corpus parallèles. Comme nous le verrons plus tard, Laurence Anthony n’a pas développé ces logiciels pour des traducteurs, ce qui suggère des possibilités d’améliorations qu’il admet vouloir programmer à l’avenir.

Mais puisqu’on parle du personnage : qui est vraiment Laurence Anthony ?

Né en 1970 à Huddersfield, au Royaume-Uni, n’a, contre toute attente, jamais été traducteur. Durant ses études, il parvient d’abord à obtenir une licence en physique mathématique au Manchester Institute of Science and Technology (UMIST) [désormais partie intégrante de l’Université de Manchester]. Son intérêt grandissant pour l’apprentissage et l’enseignement des langues le mène ensuite à l’Université de Birmingham, où il a obtenu un Master en 1997, en TEFL/TESL (Teaching English as a Foreign Language/Second Language). Il s’agit d’une certification qui équivaut au FLE (Français en Langue Étrangère), en France, et qui permet d’enseigner sa langue maternelle à des étudiants qui ne la maîtrisent pas (ou pas en tant que première langue). En 2002, enfin, toujours à l’Université de Birmingham, il devient docteur en linguistique appliquée. Son champ d’étude combine l’informatique et la linguistique. Mais Laurence Anthony maintient une relation étroite avec le Japon, et ce depuis 1991, année à laquelle il devient professeur principal dans une école de langue anglaise, avant de devenir membre permanent du corps professoral à la Okayama University of Science. À partir de 2004, il occupe cette même fonction au sein de la Waseda University, à Tokyo, où il est, encore à l’heure actuelle, à ce poste. Ce qui est important à savoir, c’est que AntConc n’a jamais été son projet principal. C’est sa création, certes, mais c’est avant tout un outil qu’il a développé à destination des étudiants. Ainsi, les évolutions qu’a subi AntConc ont une dimension qui s’oriente pleinement vers la pratique.

Comment AntConc est-il né ?

Pour comprendre l’histoire de AntConc, il faut se replonger au milieu des années 1990. Internet est encore naissant, l’ergonomie de l’informatique également, et l’étude du discours dans les corpus se faisait à la main. Laurence Anthony, jeune étudiant doctorant, décide de développer un outil pour sa thèse. Il pense à une interface dédiée à l’analyse du discours par la machine, ce qui lui procurerait une productivité accrue et lui éviterait des tendinites répétitives. Une nouvelle approche, celle de l’apprentissage automatique (machine learning en anglais) serait, à son sens, plus rigoureuse. L’une des grandes nouveautés pour lui, à cette époque, fut le développement d’une interface. Laurence Anthony code depuis ses 11 ans, mais n’avait jusqu’alors jamais créé d’interface. Pragmatique, il était important pour lui que cette interface soit user-friendly, mais également que le programme reste simple et qu’elle se limite à des « widgets, des boutons, etc. ». AntConc 1.0 était né ! Le logiciel est d’ailleurs toujours en ligne, pour les curieux. Notez qu’il est programmé pour être international, grâce au UTF-8.

Laurence Anthony2

En fin d’interview, avec Laurence Anthony. Photo: Yuzhe Jia

 

Comment AntConc a-t-il évolué suite à sa création ?

Pour Laurence Anthony, la vocation première de AntConc est de servir d’outil de travail pour ses étudiants de rédaction. C’est lorsque notre développeur a reçu la demande d’un professeur japonais qui voulait l’utiliser pour sa classe de rédaction, que AntConc est passé de « projet de doctorat » à outil pédagogique. Ces étudiants se servent de l’outil comme nous, les traducteurs, en quelque sorte. En effet, le but est le même : assurer la qualité linguistique du texte final. Que l’on rédige depuis une traduction ou depuis ses pensées, le rendu doit être fluide, adapté au public, et présenter les bonnes collocations. Aujourd’hui, c’est avec plus de 10 000 étudiants que Laurence Anthony exploite l’outil AntConc. Si AntPConc ne présente aucun intérêt pour ce public, l’outil AntCorGen est très apprécié, lorsqu’il s’agit de rédiger un texte spécialisé. Les étudiants peuvent, par exemple, collecter des articles de recherche très rapidement.
Deux premières évolutions ont changé la donne : la possibilité de télécharger AntConc sous Windows et la mise en ligne du logiciel. Très vite, un autre type de public s’est approprié AntConc : les linguistes de corpus. Cela a d’abord surpris Laurence Anthony. Ces linguistes utilisaient AntConc comme outil de recherche et n’ont pas tardé à proposer des améliorations à Laurence Anthony. Des mesures statistiques, des fonctions complexes, bref, des choses que les étudiants n’allaient probablement pas demander. Le logiciel est ainsi devenu très populaire auprès des linguistes. Plus tard et de la même manière, sont arrivés les traducteurs. Ce dernier groupe a, lui aussi, des besoins qui sont très différents des étudiants et des linguistes. Laurence Anthony a des idées plein la tête, mais le temps lui manque.

Waseda

Université Waseda, Tokyo

 

Qu’en est-il des traducteurs, alors ?

À ce sujet, Laurence Anthony est moins confiant. Deux choses sont pourtant intéressantes. Il est intervenu lors d’une conférence sur la traduction et a été interviewé par un site dédié à la traduction qui n’a pas hésité à parler de AntConc en détail, l’auteur en recommandant d’ailleurs fortement l’usage pour les traducteurs. Bien évidemment, je ne suis pas venu sans questions au sujet de la traduction. Un outil attirait mon attention en particulier : AntPConc, qui gère les corpus parallèles. Laurence Anthony admet qu’une fonction permettant de combiner les corpus générés à une mémoire de traduction, de sorte à pouvoir y effectuer des recherches. Le logiciel serait ainsi pourvu de paramètres de choix de langue, et même d’une possibilité de faire des alignements. Tout cela laisse rêveur, si bien que le développeur songe à créer une interface qui soit entièrement dédiée aux traducteurs et aux seuls outils dont ils auraient besoin. Nous verrons ce que l’avenir nous réserve.

Des changements sont toutefois prévus prochainement !

Considérant que AntConc est relativement lent, par rapport aux outils en ligne, Laurence Anthony est en train de créer une nouvelle base de données pour son logiciel. Elle a pour objectif de procurer à AntConc une vitesse comparable à celle des outils en ligne, tout en fonctionnant hors connexion. La langage choisi par le développeur pour cette base de données, Python, est supposé permettre à celle-ci de supporter des corpus de taille beaucoup plus grande, chose qu’apprécieront les linguistes. Des ajouts de mesures statistiques sont également au programme. À l’heure actuelle, AntPConc est déjà rédigé en Python, mais c’est un logiciel que peu de gens utilisent et Laurence Anthony n’a pas vraiment reçu de retours (traducteurs : à vos claviers). Sans retours, il n’y aura pas de changements. Sachez qu’il vous est également possible de soutenir financièrement Laurence Anthony, en passant par les liens PayPal et Patreon qui se trouvent dans l’onglet « Software » du site web. Laurence Anthony serait ravi de pouvoir investir dans les bonnes idées !

Pour conclure…

Pour Laurence Anthony, AntConc doit rester simple. Sa vocation est celle de servir les étudiants mentionnés plus tôt. Une évolution qui suivrait de trop près les attentes et les besoins des linguistes et des traducteurs risquerait de trop complexifier le logiciel. Sa facilité de prise en main a sûrement une influence sur sa popularité. Son succès retentit à travers plusieurs pays : la Bank of England en fait usage, les universités chinoises en sont fans, et la Corée du Sud a vu la publication d’un ouvrage entièrement dédié à AntConc ! Ce dernier a eu l’approbation de Laurence Anthony, mais le développeur a été très agréablement surpris lorsqu’il a appris l’existence du livre. Vous voilà à présent très informés à propos de AntConc et de son créateur, Laurence Anthony. Une chose est sûre, le programme n’a pas fini de grandir !

AntConcbook

L’ouvrage en question, rédigé en coréen

 

Liens :

Le site de l’intéressé (sur lequel sont disponibles tous les logiciels) :
https://www.laurenceanthony.net/

Lien vers l’article de Michael Wilkinson, sur AntConc :
https://www.translationdirectory.com/articles/article2367.php

Traduction automatique : les algorithmes ont-ils des préjugés ?

Par Estelle Peuvion, étudiante M2 TSM

traductionautomatique

Depuis plusieurs années, la traduction automatique connaît des avancées spectaculaires. La traduction neuronale s’impose de plus en plus face à la traduction statistique. Résultat : les moteurs de traduction machine sont capables de traiter de longues phrases, voire des textes complets, en respectant la grammaire, la syntaxe, et en conservant la cohérence terminologique. Certains moteurs de traduction automatique traduisent (presque) aussi bien que les traducteurs humains et de nombreuses entreprises n’hésitent plus à recourir à leurs services pour traduire leurs sites et leurs produits. Cependant, ces résultats remarquables connaissent leurs limites. En effet, les algorithmes sur lesquels reposent ces moteurs de traduction reproduisent en quelque sorte la manière de traduire des humains, mais ne risquent-ils pas de reproduire également nos aspects les plus négatifs ?

Reproduction des préjugés

La réponse est oui : les moteurs de traduction automatique reproduisent les préjugés (sexistes, racistes…) des humains. Cela a été démontré, et nous pouvons le vérifier par nous-même, en quelques clics seulement.

L’exemple le plus flagrant est celui des professions, notamment lorsque l’on traduit d’une langue qui n’a pas de genre lexical vers une langue qui en a. Les femmes sont communément associées aux professions artistiques, aux métiers de soins (infirmière, sage-femme…), au foyer, alors que les hommes sont associés aux professions scientifiques, politiques, et plus globalement aux postes « importants »: le moteur de traduction machine va, dans la majorité des cas, reproduire ces clichés.

Depuis plusieurs années, de nombreux internautes recensent les « dérapages » des moteurs de traduction automatique, et les exemples ne manquent pas. Sur Google Translate, incontournable de la traduction machine, il est facile de se retrouver face à des phrases reprenant des préjugés sexistes. En tapant « The engineer is from Germany », le logiciel nous propose automatiquement « L’ingénieur est allemand. » En revanche, lorsque l’on remplace engineer par nurse, nous obtenons « L’infirmière est allemande »…

Au-delà de ces observations simples, qui peuvent être formulées par n’importe qui, des scientifiques ont également étudié plus en profondeur ce phénomène et sont arrivés aux mêmes conclusions.

Des chercheurs des universités de Princeton et de Bath ont étudié la technologie GloVe, développée par l’université de Stanford, qui calcule les associations entre les mots. GloVe est entraîné à partir du corpus Common Crawl, qui regroupe plusieurs milliards de textes venant du web et est utilisé pour la traduction machine. Les chercheurs ont conclu que le programme GloVe associait très bien les mots, mais ils ont aussi remarqué des dérives racistes et sexistes : les personnes afro-américaines étaient associées à des mots bien plus négatifs que les personnes blanches, et les noms de femmes étaient liés à la famille, alors que les noms masculins étaient associés à la vie professionnelle.

À l’université de Washington, trois chercheurs ont étudié les préjugés sexistes dans la traduction machine (Evaluating Gender Bias in Machine Translation) et ont fait une découverte « amusante ». Ils ont constitué des phrases comprenant deux professions, une communément associée aux hommes et une associée aux femmes. Ils ont féminisé la profession masculine à l’aide d’un pronom ajouté plus loin dans la phrase, et ont laissé une ambiguïté quant à la profession féminine.

Par exemple, dans la phrase « The doctor asked the nurse to help her in the procedure », la profession de médecin a été féminisée grâce au pronom her, et la profession d’infirmier/infirmière est neutre. L’expérience avait deux objectifs : voir si doctor était bien féminisé, et voir si nurse était mis au masculin ou au féminin. Dans la majorité des cas, doctor était au masculin, nurse au féminin et le pronom her était traduit par un pronom féminin dans la langue cible, ce qui changeait le sens de la phrase !

Les chercheurs ont donc tenté d’ajouter un adjectif associé aux femmes au mot doctor, et dans ce cas, doctor était féminisé. Si nous reprenons l’exemple cité plus-haut et rajoutons l’adjectif pretty devant engineer, Google Translate nous propose « La jolie ingénieure est allemande ». En revanche, si l’on remplace pretty par courageous, l’ingénieur redevient un homme ! Conclusion : dans cette expérience, le cliché sexiste a été dépassé par l’ajout d’un autre cliché sexiste.

Comment expliquer ce phénomène ?

Pourquoi donc les moteurs de traduction automatique reproduisent-ils nos préjugés ? Les chercheurs ayant étudié cette problématique ont plusieurs réponses à nous offrir.

Les moteurs de traduction automatique sont basés sur des corpus parallèles et monolingues : des textes en langue cible et des traductions. Ces textes se comptent par millions voire par milliards pour certains moteurs de traduction, et ils proviennent du web dans la majorité des cas. Par conséquent, il est tout simplement impossible de contrôler chacun des textes composant le corpus : cela demanderait trop de main-d’œuvre et de temps. Voilà la première explication à notre problème : les données qui permettent aux moteurs de traduction automatique de nous proposer des traductions fluides, quasi-parfaites dans certains cas, proviennent du web. Ce sont des données que nous, humains, produisons, et nous produisons forcément des données affectées par nos préjugés, que nous le voulions ou non.

Prenons par exemple le corpus utilisé par le site de traduction Reverso Context : il contient des textes provenant de domaines différents, et notamment des sous-titres de films et de séries. Une particularité qui a amené le site à proposer début 2019 des résultats de traduction antisémites, racistes et sexistes. Le fondateur de l’outil s’est excusé et a expliqué que ces résultats pouvaient provenir de films et de séries, et qu’il était difficile de contrôler un corpus aussi conséquent.

De plus, la majorité des moteurs de traduction fonctionnent grâce au word embedding, une technique d’apprentissage automatique qui représente les mots ou phrases d’un texte par des vecteurs de nombres réels. La représentation vectorielle d’un mot représente son « contexte », c’est-à-dire les mots, expressions et phrases qui entourent le plus souvent ce mot.

Il est donc tout à fait logique que les moteurs de traduction reproduisent nos préjugés : ils utilisent nos textes, apprennent nos langues. Ils apprennent aussi les associations culturelles et historiques qui nous mènent à avoir ces préjugés.

La seconde explication se trouve entre les corpus et le processus de traduction en lui-même : les algorithmes. En effet, les concepteurs de ces algorithmes sont en majorité des hommes, blancs, il est donc possible qu’ils prêtent moins attention à la manière dont seront traitées certaines problématiques par l’algorithme.

Lutter contre les « préjugés » de la traduction automatique

Maintenant que nous connaissons l’origine de ce phénomène de reproduction des préjugés sexistes, nous pouvons réfléchir à des solutions.

Les entreprises ayant conçu les principaux moteurs de traduction automatique, et qui utilisent l’intelligence artificielle, se trouvent en première ligne de cette lutte. La majorité d’entre elles ont conscience du problème et ces dernières années, elles ont commencé à proposer des solutions.

Facebook a annoncé il y a quelques mois la création d’un outil servant à trouver les biais dans les algorithmes, « Fairness Flow ». L’outil sera normalement capable de déterminer si un algorithme reproduit les préjugés ; il est pour l’instant en développement.

Récemment, Google Translate a admis avoir proposé des traductions aux préjugés sexistes. Suite à cette annonce, le moteur de traduction prendra en compte le genre grammatical dans les traductions. En proposant un nom neutre en anglais, on peut obtenir deux traductions en français, le féminin et le masculin. Cependant, cette nouvelle fonctionnalité est pour l’instant restreinte à certaines langues et à un certain nombre de mots.

La modification de la langue pourrait également être une solution : par exemple, un pronom neutre a été introduit dans la langue suédoise. Néanmoins, ce genre de modification représente un vrai défi : comment inciter des locuteurs d’une langue à changer de manière radicale leur utilisation de la langue ? De plus, le remplacement des corpus actuels prendrait un temps considérable, et les effets ne seraient pas visibles immédiatement.

L’amélioration des corpus semble être un axe évident dans la résolution de ce problème. Trois chercheurs des universités de Dublin et d’Uppsala (Getting gender right in neural machine translation) ont mené une enquête et ont tenté d’atténuer la reproduction des préjugés sexistes dans la traduction automatique. Ils ont taggué le corpus utilisé par le moteur de traduction et y ont introduit des tags genrés, pour plusieurs paires de langues, aussi bien pour les accords que pour le style et le vocabulaire. Ils ont vu dans les traductions proposées des améliorations significatives, en particulier pour les accords. Cependant, ils ont noté un manque de cohérence dans certaines traductions.

Nous pouvons donc améliorer les corpus en changeant la façon dont nous les utilisons (grâce aux tags, par exemple), mais également en privilégiant les textes avec une écriture non-sexiste.

La diversification des équipes qui conçoivent les algorithmes représente également une idée de résolution du problème, afin qu’elles puissent plus facilement se rendre compte des préjugés reproduits par l’intelligence artificielle.

Enfin, la solution qui serait évidemment la plus efficace, serait que la société change et que tous nos préjugés disparaissent. Malheureusement, c’est un objectif difficile à atteindre, mais nous, traducteurs et traductrices, pouvons apporter notre pierre à l’édifice. Utiliser l’écriture inclusive (quand nous en avons la possibilité), encourager l’amélioration des moteurs de traduction automatique, prêter attention au vocabulaire que nous utilisons, voilà des pistes simples que nous sommes tous et toutes aptes à suivre.

 

Bibliographie :

Recherches terminologiques : des idées de sites à consulter

Par Elisabeth Jacob, étudiante M1

La recherche terminologique constitue une part importante du travail d’un traducteur. De fait, que ce soit pour les étudiants ou les professionnels, consulter des ressources linguistiques en ligne est aujourd’hui indispensable. Or, l’on retrouve sur internet un nombre incalculable de dictionnaires, de glossaires, de bases de données terminologiques ou encore de concordanciers bilingues en tous genres. Difficile de s’y retrouver ! C’est pourquoi, je vous propose un tour d’horizon des ressources linguistiques en ligne qui pourront faciliter vos recherches et vous faire gagner du temps.

Commençons tout d’abord par un petit rappel :

Un dictionnaire est un recueil de mots classés par ordre alphabétique et accompagnés d’une traduction (dans le cas des dictionnaires bilingues) ou d’une définition (dans celui des unilingues) [cf. sources].

Un glossaire regroupe des termes appartenant à un même domaine. Pour les besoins de la traduction, les glossaires peuvent contenir des termes en langue source, leur traduction dans la langue cible, ainsi que d’autres données telles que la définition, le contexte, etc. [cf. sources]

Une base de données terminologiques est une base de données multilingue où l’on enregistre les traductions de différents termes approuvées par les traducteurs, dans un souci de cohérence.

Enfin, un concordancier bilingue est un outil d’aide à la traduction qui, grâce à un corpus regroupant de nombreux textes bilingues, permet de rechercher des termes en contexte et de trouver leur traduction.

dictionnary

 

BASES DE DONNÉES TERMINOLOGIQUES

Les bases terminologiques sont par définition très fiables, puisque leur contenu a été approuvé par une autorité compétente. En voici les plus importantes :

  • IATE (Interactive Terminology for Europe)

Vous connaissez très probablement déjà la base de données terminologique multilingue de l’Union européenne, disponible au grand public depuis mars 2007. Elle a l’avantage non négligeable de proposer toutes les combinaisons linguistiques de l’UE, et ce dans un très grand nombre de domaines. Il est possible de sélectionner plusieurs langues cibles à la fois, ce qui est très pratique quand on doit élaborer un glossaire multilingue. Il faut cependant prendre en compte l’indice de fiabilité pour chaque terme.

En ligne depuis septembre 2000, cette banque de données terminologiques a été créée par l’Office québécois de la langue française.  Elle regroupe près de 3 millions de termes appartenant à de nombreux domaines. Dans chaque fiche, l’on retrouve le terme en français, son domaine, sa définition, sa traduction en anglais (et parfois aussi en latin) ainsi que le nom de l’auteur et la date de création de la fiche. Il possible de cocher un domaine au préalable afin d’affiner sa recherche. Il faut cependant garder en mémoire qu’il s’agit d’un site canadien, et qu’il peut y avoir des différences entre le français canadien et le français de France.

TERMIUM Plus® est la banque de données terminologiques et linguistiques du gouvernement canadien. C’est l’une des plus grandes du monde, une véritable mine d’or pour les traducteurs. Elle a l’avantage de donner accès à des termes en anglais et en français, mais aussi en espagnol et en portugais. De plus, l’on y retrouve aussi des acronymes, qui sont souvent difficiles à traduire.

Il s’agit de la base de données terminologiques de l’Organisation des Nations Unies. On peut y effectuer des recherches dans l’une des six langues officielles de l’ONU, à savoir l’anglais, l’arabe, le chinois, l’espagnol, le français et le russe, et ce dans des domaines très variés, comme par exemple l’environnement et l’énergie.

 

QUELQUES DICTIONNAIRES UTILES

Comme son nom l’indique, Techdico est un dictionnaire technique destiné aux professionnels de l’industrie. Lancé en 1997, le site propose plus de 3 600 000 traductions en anglais comme en français, dans des domaines très variés comme la chimie, l’ingénierie, l’aéronautique ou encore l’informatique. Ce qui est pratique, c’est que ce dictionnaire bilingue repère directement la langue de l’entrée. Il n’est donc pas nécessaire de modifier systématiquement la configuration des langues, comme c’est le cas pour la plupart des autres dictionnaires en ligne. Pour chaque terme, Techdico propose une ou plusieurs traductions, ainsi qu’une traduction en contexte (présentée comme un concordancier bilingue).

  • TLFi (Trésor de la langue française informatisé)

Le TLFi est la version en ligne du Trésor de la langue française, un dictionnaire papier en 16 volumes des XIXe et XXe siècles, paru entre 1971 et 1994. Il regroupe plus de 100 000 mots, 270 000 définitions, et de nombreux exemples… Développé par le laboratoire ATILF (Analyse et Traitement Informatique de la Langue Française), il a l’avantage de proposer des définitions très complètes (étymologie, histoire, exemples…). Son utilisation demande cependant un peu de pratique.

Ce dictionnaire de l’ingénierie est un regroupement de plusieurs dictionnaires techniques de langue anglaise. Il propose des définitions simples qui peuvent s’avérer très utiles à l’heure de traduire un texte technique dont on maîtrise mal le sujet.

Ce site anglophone est très intéressant si vous souhaitez vous informer sur le domaine des technologies de l’information. Je l’ai découvert par hasard alors que je cherchais une définition en informatique. Il est tenu par des journalistes et on y trouve plus de 10 000 définitions classées par thèmes.

Ce dictionnaire médical en français, mis à jour en 2016, compte près de 60 000 entrées. Pour chaque terme, l’on trouve la classe grammaticale, la définition, des éventuels commentaires, mais surtout, la traduction en anglais !

 

GLOSSAIRES

Il existe une multitude de glossaires en ligne, mais le plus notable est certainement Glossary Links. Il s’agit d’une base de données qui comprend pas moins de 5 000 glossaires constamment enrichis ! Ces glossaires sont régulièrement vérifiés et mis à jour par TermCoord, l’Unité Coordination de la terminologie du Parlement Européen. Pour trouver un glossaire, il suffit de sélectionner un domaine, d’entrer les mots-clés et de choisir les langues qui vous intéressent.

En somme, si cette liste est très loin d’être exhaustive, j’espère qu’elle vous aura donné des idées de sites à consulter lors de vos prochaines recherches terminologiques.

 

 

SOURCES :

http://dictionnaire.reverso.net/francais-definition/dictionnaire

https://www.technitrad.com/fr/qu-est-ce-qu-un-glossaire/

https://fr.wikipedia.org/wiki/Tr%C3%A9sor_de_la_langue_fran%C3%A7aise_informatis%C3%A9

http://www.linguaspirit-blog.com/article-33510391.html

http://www.granddictionnaire.com/index.aspx

https://www.actualitte.com/article/patrimoine-education/les-meilleurs-dictionnaires-de-langues-en-ligne/17297

http://www.formation-de-traducteurs.net/lue-donne-acces-a-plus-de-2500-glossaires/

L’utilisation de corpus pour évaluer la qualité d’une traduction : étude de cas de World of Warcraft

Par Théo Dujardin, étudiant M2

 

Dans la vie, j’ai deux passions : le langage et les jeux vidéo. Même si les deux n’ont à priori pas grand-chose en commun, l’étude de la façon dont sont traduits des univers fictifs et fantastiques est pour moi quelque chose de fascinant. Dans cet article, j’ai choisi d’appliquer ce que mes collègues et moi-même avons eu l’occasion d’étudier au cours de ces deux ans au sein du master TSM à un jeu vidéo sur lequel j’ai passé beaucoup (qui a dit « trop » ?) de temps : World of Warcraft.

Pour présenter rapidement la chose, il s’agit d’un jeu de rôle massivement multijoueur en ligne qui a pour avantage d’être régulièrement alimenté en nouveau contenu, qui, évidemment, doit être traduit.  En outre, le jeu dispose d’un forum de traduction auquel je participe, où il est possible de signaler des erreurs ou de proposer des suggestions et d’avoir les retours de l’équipe de localisation, ce qui est particulièrement intéressant, je trouve.

J’en viens au sujet de mon article : je me suis amusé à compiler un corpus parallèle contenant des énoncés de quêtes données par des personnages non-joueurs (PNJ) ainsi que leur traduction française. Ce corpus est composé de 15545 mots pour l’anglais et de 19006 mots pour le français.

Petit point méthodologique : j’ai collecté ces données manuellement depuis un site de base de données, ce qui me permet d’être à peu près sûr de la qualité des textes sélectionnés. En outre, je n’ai pas annoté mon corpus, principalement car les textes contiennent énormément de terminologie propre au jeu qui risquerait d’être mal reconnue par des logiciels tels que TagAnt. Pour le traitement des données, j’utiliserai le logiciel favori du master TSM, à savoir AntConc. J’ai sobrement intitulé ce corpus le WoW Corpus.

Note : l’objet de cet article n’est absolument pas de critiquer l’équipe de traduction française du jeu, qui fait un travail du titan depuis des années et pour qui j’ai beaucoup de respect, mais d’analyser des données et de les comparer avec celles d’études existantes.

Tout d’abord,  je me suis intéressé à un phénomène dont nous avons beaucoup parlé en classe, à savoir la traduction des adverbes anglais en –ly, qui est source de « translationese ».

En se basant sur l’étude de Loock et al. (2013), on estime que le français utilise proportionnellement (oups) beaucoup moins d’adverbes en –ment, qui sont l’équivalent direct des adverbes en –ly anglais. Ainsi, j’ai calculé la fréquence normalisée de ces adverbes dans le WoW Corpus, et j’obtiens les résultats suivants :

 

On observe que même la fréquence des adverbes en –ly dans le WoW corpus est inférieure à ce que l’on trouve en anglais original, ce qui n’est pas vraiment étonnant dans un registre moins formel. Pour le français en revanche, la fréquence des adverbes en –ment est proche de ce que l’on trouve en français original (aux alentours de 4000), alors que l’on pourrait s’attendre à en trouver moins.

 

Autre phénomène, j’ai observé l’utilisation des termes « thing » et « chose », qui, si l’on en croit une autre étude chiffrée, ne s’utilisent pas à la même fréquence en anglais et en français, bien qu’ils soient des équivalents directs en traduction.

Et là, c’est le drame : on peut voir une large surreprésentation de « chose » en français, qui est plus utilisé qu’il ne le devrait. C’est d’autant plus étonnant que cela ne peut être dû à une influence de l’anglais, qui utilise très peu « thing ».

 

Dans un même ordre d’idée, j’ai regardé la fréquence de « and » ainsi que de « et » dans le corpus.

Cette fois, on peut constater que les traducteurs utilisent « et » à une fréquence très proche de celle du français original (aux alentours de 16000 pmw).

 

Évidemment, il convient de nuancer l’ensemble de ces résultats, d’une part car mon corpus est de trop petite taille pour pouvoir se livrer à un commentaire sur la traduction du jeu en général, d’autre part car on pourrait arguer que la langue utilisée dans un univers fantastique s’apparente à une langue non-standard et donc qu’elle réponde à des normes différentes.

description

C’est le cas par exemple des trolls, qui parlent un anglais très marqué, comme on peut le voir ci-dessus. Dans le cadre de cet article, j’ai comparé mes résultats à ceux menés sur des textes de littérature de fiction, on pourrait très bien en contester la pertinence et j’en suis conscient. De plus, l’exemple permet également de constater que le corpus contient à la fois le dialogue des PNJ mais aussi du texte <entre crochets> qui fait office de didascalies et qui lui est rédigé en langue standard, ce qui est susceptible de fausser en partie les résultats.

 

Que faut-il conclure de cette expérience ? S’agit-il là de phénomènes universels propres à la traduction, ou est-ce dû à une influence de la langue source ? Chacun en sera seul juge ; mon objectif était de montrer en quoi l’utilisation de corpus peut être utilisée pour évaluer de la qualité d’une traduction (si tant est que l’on considère que ces éléments comme facteurs de qualité), mais également que les corpus sont capables de nous fournir des informations que l’on ne trouve ni dans les dictionnaires, ni dans les grammaires, à condition de les utiliser judicieusement.

 

P.S. : n’hésitez pas à commenter et calculer la fréquence normalisée de ma propre utilisation des adverbes en –ment, qui, après relecture, m’a l’air anormalement élevée.