Des chercheurs ont développé une nouvelle technique pour estimer la prévalence de l’utilisation du modèle de langage à grande échelle (LLM) dans la rédaction scientifique, selon une étude Ars Technica rapport. Cette méthode repose sur l’identification des « mots excédentaires » dont la fréquence a augmenté depuis l’avènement des LLM en 2023.
Introduction d’une nouvelle méthode de détection
Le défi de la détection de texte généré par l’IA a laissé perplexe les entreprises et les chercheurs en IA. Cependant, article pré-imprimé récent Des chercheurs de l’Université de Tübingen et de l’Université Northwestern proposent une solution unique. En examinant l’augmentation soudaine du vocabulaire spécifique dans les résumés scientifiques, ils proposent une nouvelle façon d’identifier l’influence des LLM sur la rédaction universitaire.
Inspiration des études sur la pandémie
Les chercheurs se sont inspirés d’études qui ont mesuré l’impact de la pandémie de COVID-19 à travers la surmortalité par rapport aux données historiques. En appliquant une approche similaire, ils ont analysé « l’utilisation excessive de mots » dans les résumés scientifiques publié sur PubMed de 2010 à 2024. Cette comparaison a révélé des changements significatifs dans le vocabulaire coïncidant avec l’adoption généralisée des LLM fin 2022.

Analyse des données
Pour mesurer ces changements, l’équipe a examiné 14 millions de résumés, en suivant la fréquence de chaque mot chaque année. En comparant la fréquence attendue des mots, basée sur les tendances d’avant 2023, à l’utilisation réelle en 2023 et 2024, ils ont identifié une augmentation spectaculaire de certains termes. Par exemple, le mot « delves » est apparu 25 fois plus fréquemment que prévu dans les résumés de 2024. De même, les termes « showcase » et « underscores » ont vu leur utilisation multipliée par neuf.
Voici les mots les plus utilisés dans les textes générés par l’IA avec leurs taux d’augmentation d’utilisation correspondants :
- Plongée – 25 fois plus
- Présentation – augmentation de 9 fois
- Soulignements – augmentation de 9 fois
- Potentiel – augmentation de 4,1 points de pourcentage
- Résultats – augmentation de 2,7 points de pourcentage
- Crucial – augmentation de 2,6 points de pourcentage
- À travers – augmentation significative (taux exact non spécifié)
- En outre – augmentation significative (taux exact non précisé)
- Global – augmentation significative (taux exact non précisé)
- Amélioration – augmentation significative (taux exact non spécifié)
- Exposé – augmentation significative (taux exact non précisé)
- Informations – augmentation significative (taux exact non précisé)
- Notamment – augmentation significative (taux exact non précisé)
- En particulier – augmentation significative (taux exact non précisé)
- Dans – augmentation significative (taux exact non précisé)
Les taux spécifiques pour les mots 7 à 15 n’ont pas été fournis, mais il a été noté qu’ils ont connu une augmentation prononcée de l’utilisation scientifique dans l’ère post-LLM.
Changements de vocabulaire
Cette augmentation de mots spécifiques, appelés « mots marqueurs », est un indicateur clé de l’utilisation du LLM. Si la langue évolue naturellement, de tels changements abrupts et généralisés n’étaient auparavant associés qu’à des événements mondiaux importants comme les crises sanitaires. Les chercheurs ont noté que, contrairement aux changements de vocabulaire à forte teneur nominale pendant la pandémie de COVID-19, l’ère post-LLM a vu une augmentation des verbes, des adjectifs et des adverbes.
En identifiant ces mots-clés, les chercheurs peuvent estimer qu’au moins 10 % des résumés scientifiques de 2024 ont été générés ou assistés par des LLM. Ce chiffre sous-estime probablement la véritable ampleur, car tous les textes assistés par des LLM n’incluront pas ces marqueurs spécifiques.

Variations géographiques dans l’utilisation du LLM
L’étude a également mis en évidence des différences géographiques dans l’utilisation des LLM. Les articles provenant de pays comme la Chine, la Corée du Sud et Taiwan ont montré une fréquence plus élevée de mots marqueurs, ce qui suggère que les LLM sont particulièrement utiles aux locuteurs non natifs de l’anglais pour éditer et rédiger des textes scientifiques.
À l’inverse, les anglophones natifs pourraient être plus aptes à reconnaître et à supprimer ces marqueurs, obscurcissant ainsi leur utilisation des LLM.
Crédits de l’image en vedette : Glen Carrie/Unsplash