LancsBox : un logiciel d’analyse de corpus complet et gratuit

Par Xavier Giuliani, étudiant M2 TSM

Vous le savez peut-être déjà, l’exploitation de corpus fait partie intégrante de la formation du master TSM que ce soit en première ou deuxième année. Il existe plusieurs logiciels qui permettent de compiler et d’analyser soi-même des corpus et celui que l’on utilise principalement en cours est le concordancier gratuit AntConc développé par Laurence Anthony. Si vous souhaitez davantage d’informations à propos d’AntConc et de son développeur, je vous invite à lire également le billet de Jordan Raoul qui a eu l’occasion de le rencontrer au Japon.

Quant à moi, je vais vous présenter LancsBox (v 5.1.2) qui est un logiciel d’analyse de corpus développé à l’Université de Lancaster par Vaclav Brezina, Richard Easty et Pierre Weill-Tessier. Ce logiciel, sous licence publique BY-NC-ND Creative Commons, est gratuit et ne peut pas être utilisé à des fins commerciales.

LancsBox v 5.1.2 est également compatible avec les principaux systèmes d’exploitation tels que Windows (32 et 64 bits), Mac et Linux. Dans ce billet de blog, je vais vous présenter ses fonctionnalités sous Windows 64 bits, mais si vous souhaitez installer une autre version, vous pouvez cliquer ici pour accéder au site dédié (en anglais).

Débuter avec LancsBox

Avec LancsBox, il vous est possible d’utiliser des corpus et des listes de mots soit en les chargeant directement depuis votre ordinateur, soit en téléchargeant des ressources en ligne via le logiciel. Ce qui est pratique, c’est que LancsBox prend en charge un grand nombre de formats de fichiers de corpus (.txt, .xml, .doc, .docx, .pdf, .odt, .xls, .xlsx, .zip etc.) vous évitant ainsi de devoir les convertir en amont. Les listes de mots sont prises en charge au format texte séparé par des virgules (.csv). Autre avantage, le tagging (étiquetage) s’effectue automatiquement lors de l’importation des fichiers. En outre, si jamais vous fermez inopinément le logiciel vous pouvez toujours retrouver les derniers corpus chargés dans l’onglet « Corpora ».

Concrètement, pour importer des fichiers depuis son ordinateur c’est simple. Il faut d’abord cliquer sur « Corpus » ou « Wordlist » sous l’onglet « Load Data » pour sélectionner les fichiers dans le répertoire de l’ordinateur. Une fois que c’est fait, il est possible de nommer le corpus sur LancsBox. La dernière étape consiste simplement à appuyer sur « Import ».

Parmi les ressources en ligne accessibles gratuitement depuis le logiciel sous l’onglet « Download », vous pouvez consulter par exemple le British National Corpus, l’American National Corpus, le Brown University Standard Corpus, l’Australian Corpus of English et bien d’autres.

LancsBox v 5.1.2 dispose de sept outils d’analyse que je vais présenter dans le cadre de cet article : KWIC, Graphcoll, Whelk, Words, Ngrams, Text et Wizard.

KWIC : analyser des lignes de concordances

KWIC est l’acronyme de Key Word in Context qui signifie mot-clé en contexte. Comme son nom l’indique, cet outil affiche toutes les occurrences d’un terme, d’une catégorie lexicale ou encore d’une phrase en contexte. Le nombre d’occurrences et la fréquence sont automatiquement calculés et vous pouvez paramétrer la façon dont s’affichent les résultats (textes bruts, lemmatisés ou PoS).

Ce que j’apprécie beaucoup avec KWIC, c’est la possibilité de comparer simultanément deux corpus différents et d’alterner rapidement entre plusieurs corpus déjà chargés. La fonction recherche avancée est intéressante, car elle permet de faire des recherches par lemme et par catégorie grammaticale (PoS) même s’il arrive parfois que des erreurs se glissent dans les résultats. Il peut s’agir d’une mauvaise troncation d’un terme ou bien d’une erreur dans l’étiquetage de certains termes. En effet, il arrive par exemple que certains participes passés soient pris en compte lorsque l’on recherche un verbe (V*) ou bien qu’un déterminant se glisse parmi les noms (N*). Mais dans l’ensemble, je trouve que le tagging (ou étiquetage) automatique fournit des résultats corrects.

GraphColl : analyser des collocations

GraphColl est un outil dédié à la recherche de collocations. Les résultats sont générés et affichés dans un tableau et sous forme de graphique.

Ce que j’ai remarqué avec Graphcoll, c’est qu’il prend en compte tout le contenu du corpus chargé y compris les mots grammaticaux, les nombres, les dates, etc. Par conséquent, ce n’est pas toujours évident de s’y retrouver lorsqu’on s’attend à trouver « des mots qui vont bien ensemble », mais ce n’est pas mission impossible.

Afin d’obtenir des résultats qui soient exploitables et un graphique qui ne soit pas surchargé, il y a plusieurs options possibles. Vous pouvez par exemple choisir le nombre de termes à prendre en compte à gauche et à droite du terme recherché avec l’option span (portée), mais également définir la fréquence minimale des collocations avec threshold (seuil). Vous pouvez également filtrer les collocations dans la colonne « index » du tableau.

Whelk : analyser des fréquences dans des textes

Whelk sert à connaître la répartition d’un terme recherché à travers les différents fichiers d’un corpus sélectionné. Il reprend l’ensemble des fonctionnalités KWIC avec en plus un tableau statistique sur le nombre de tokens, la fréquence et la fréquence relative d’un terme. La mise à jour du tableau statistique se fait instantanément à chaque nouvelle recherche. Mais qu’est-ce qu’un token ? Selon le site du Sketch Engine, un token est défini comme étant la plus petite unité qui compose un corpus. Cela peut être un mot, un signe de ponctuation, un nombre, une abréviation ou un autre symbole qui n’est pas une espace. Quant à la fréquence (absolue) d’un terme, cela correspond tout simplement au nombre d’occurrences de celui-ci dans les fichiers du corpus tandis que la fréquence relative d’un terme est égale à sa fréquence absolue divisée par le nombre total de tokens présents dans le fichier de corpus où il se trouve. La fréquence relative permet de mesurer l’importance d’un terme et comme tous les fichiers n’ont pas le même nombre de tokens, Lancsbox calcule une fréquence relative normalisée sur 10 000 tokens pour chaque fichier du corpus afin d’obtenir des valeurs comparables. En d’autres termes, il suffit de multiplier la fréquence relative par 10 000 pour obtenir la fréquence normalisée. J’ai fait la vérification à la calculatrice et j’obtiens les mêmes résultats que le logiciel.

Words et Ngrams : des outils d’analyse plus poussés

Words est un autre outil qui permet d’effectuer des analyses approfondies sur la fréquence des termes, des lemmes et des catégories grammaticales (PoS). Il est composé de deux parties : les mots-clés, la fréquence ainsi que la dispersion s’affichent dans un tableau sur le côté gauche. À droite, un graphique permet de visualiser ces données. Un code couleur avec une échelle permet de se représenter l’importance d’un terme. Plus la fréquence relative du terme recherché est faible, plus la couleur du graphique circulaire sera claire. En outre, vous pouvez visualiser la structure interne du corpus en double cliquant dessus et également effectuer des comparaisons avec un autre corpus grâce à la vue partagée.

Comme son nom l’indique, l’outil Ngrams permet d’analyser des séquences de n-gramme. Mais qu’est-ce que c’est ? Ce sont des combinaisons comportant un nombre d’éléments défini. Une suite de deux éléments est appelée un bigramme. Une suite de trois éléments est un trigramme. Enfin je pense que vous avez compris le principe. Avec Lancsbox, il est possible de chercher des séquences de mots, de lemmes ou encore de catégories grammaticales (PoS) allant de un à dix. Ainsi, il vous est possible de connaître les suites d’éléments les plus fréquents dans le corpus que vous avez chargé.

Utiliser Text et Wizard

L’outil Text vous permet d’effectuer une recherche approfondie sur le contexte d’un terme soit sur l’ensemble du corpus ou bien soit sur l’un des fichiers au choix. Le terme recherché est surligné en rouge comme avec KWIC et vous pouvez naviguer en faisant défiler avec les flèches du clavier haut et bas. Vous retrouvez aussi la fréquence absolue et la fréquence relative par 10 000 tokens comme avec Whelk. Son utilisation est vraiment très simple et ce qui est pratique c’est que vous pouvez y avoir accès directement via l’outil KWIC en double cliquant sur une occurrence pour retrouver le contexte en entier.

Wizard est la nouveauté de la version 5 de LancsBox. Cet outil permet de combiner l’ensemble des outils précédents pour produire des rapports personnalisés (aux formats .docx ou .html). Il n’y a rien de sorcier dans l’utilisation de cet outil : il suffit de choisir le(s) corpus, le(s) outil(s) ainsi que le(s) terme(s) à rechercher sans oublier le dossier où sera importé le rapport. Il est possible d’aller plus loin en paramétrant les outils individuellement. Autre point de détail, vous n’avez pas besoin d’insérer de termes à rechercher si vous sélectionnez uniquement les outils Words et Ngrams.

Conclusion

En résumé, Lancsbox est un logiciel intéressant qui comprend un grand nombre de fonctionnalités plus ou moins complexes à utiliser. Même si certains outils d’analyse nécessitent une connaissance accrue dans les domaines de la linguistique de corpus et des statistiques, la prise en main des outils de base reste facile et rapide. Gratuit et compatible sous Windows, Mac et Linux, cet outil sept en un convient non seulement aux étudiants de traduction et aux chercheurs, mais également aux traducteurs professionnels.

Je tiens à remercier Vaclav Brezina qui m’a autorisé à utiliser et publier des images du logiciel Lancsbox dans le cadre de cet article.

Sources :

http://corpora.lancs.ac.uk/lancsbox/

http://corpora.lancs.ac.uk/lancsbox/download.php

http://corpora.lancs.ac.uk/lancsbox/docs/pdf/LancsBox_4.0_manual.pdf

http://corpora.lancs.ac.uk/lancsbox/docs/pdf/LancsBox_4.5_manual.pdf

http://corpora.lancs.ac.uk/lancsbox/docs/pdf/LancsBox_4.5_manualFR.pdf

http://corpora.lancs.ac.uk/lancsbox/docs/pdf/LancsBox_5.0_manual.pdf

http://corpora.lancs.ac.uk/lancsbox/materials.php

http://corpora.lancs.ac.uk/lancsbox/help.php

https://creativecommons.org/licenses/by-nc-nd/4.0/legalcode.fr

https://www.youtube.com/watch?v=7SFJMFUP83Y

https://www.youtube.com/watch?v=TJ75iowURQc

https://www.sketchengine.eu/my_keywords/token/

https://www.laurenceanthony.net/software/antconc/

https://mastertsmlille.wordpress.com/2019/11/24/rencontre-avec-laurence-anthony/

Une réflexion sur “LancsBox : un logiciel d’analyse de corpus complet et gratuit

Votre commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l’aide de votre compte WordPress.com. Déconnexion /  Changer )

Photo Google

Vous commentez à l’aide de votre compte Google. Déconnexion /  Changer )

Image Twitter

Vous commentez à l’aide de votre compte Twitter. Déconnexion /  Changer )

Photo Facebook

Vous commentez à l’aide de votre compte Facebook. Déconnexion /  Changer )

Connexion à %s