25 août 2022

Stylométrie : mettre des chiffres dans ses lettres

La stylométrie c’est l’analyse statistique d’un texte. Le but : faire apparaître le style de l'auteur à travers des méthodes scientifiques.

Un lecteur attentif dans le métro
Un lecteur attentif - crédit photo Susan Sermoneta - en321 Flickr

Au détour d'un article du Vif (accès pas forcément libre), j'ai appris l’existence de la stylométrie. Contrairement à ce que son nom pourrait laisser penser à première vue, la stylométrie ne s’occupe pas de mesurer des stylos-plumes.

La stylométrie c’est l’analyse statistique d’un texte. Le but : faire apparaître le style de l'auteur à travers des méthodes scientifiques. Le plus souvent il s'agit de vérifier que l'auteur d'un livre (par exemple un homme politique français) est bien l'auteur de son texte. Il existe même une méthode scientifique pour faire le tri entre les lettres de suicide laissées par l’auteur du suicide et celles laissées par autrui après un suicide mis en scène. Le logiciel Snare (Suicide Note Assessment REsearch) a été utilisé pour décider si la lettre laissée par Kurt Cobain (illustration de ce billet) est bien de sa plume. Pour le logiciel, c’est un grand oui !

En Belgique, le CENTAL (Centre de Traitement Automatique du Langage) se penche sur la question.

Les outils de stylométrie ne sont pas actuellement accessibles pour les auteurs qui souhaiteraient explorer leurs lettres par les chiffres. Mais... Pour une vision purement statisque de ton texte, tu peux utiliser des outils tels que le logiciel Wordle pour générer un nuage de mots à partir de ton texte. Il existe d’autres outils en ligne dont certains sont même francophones, mais ce logiciel gratuit élimine les mots français les plus courants. Sans cette fonction ton nuage de mots contiendrait « Je » « Il » « Elle » « Le » « La » comme mots les plus courants. Ces mots-là sont fréquents, mais ne t’aideront pas beaucoup à voir ton texte d’un œil différent. Rien à voir avec Wordle le jeu de mot à deviner, qui a fait beaucoup de petits dans toutes les langues et qu'on trouve ici, sur le site du New York Times.

Ci-dessous un nuage de mots généré à partir du texte du dictionnaire érotique latin français, un ouvrage du domaine public disponible sur le site du Projet Gutenberg, où il rencontre son petit succès.

nuage de mots créé pour le texte du dictionnaire érotique latin français
nuage de mots créé pour le texte du dictionnaire érotique latin français