Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
No Result
View All Result

Ces mots crient au contenu conçu par l’IA

byKerem Gülen
juillet 10, 2024
in Non classé

Des chercheurs ont développé une nouvelle technique pour estimer la prévalence de l’utilisation du modèle de langage à grande échelle (LLM) dans la rédaction scientifique, selon une étude Ars Technica rapport. Cette méthode repose sur l’identification des « mots excédentaires » dont la fréquence a augmenté depuis l’avènement des LLM en 2023.

Introduction d’une nouvelle méthode de détection

Le défi de la détection de texte généré par l’IA a laissé perplexe les entreprises et les chercheurs en IA. Cependant, article pré-imprimé récent Des chercheurs de l’Université de Tübingen et de l’Université Northwestern proposent une solution unique. En examinant l’augmentation soudaine du vocabulaire spécifique dans les résumés scientifiques, ils proposent une nouvelle façon d’identifier l’influence des LLM sur la rédaction universitaire.

Inspiration des études sur la pandémie

Les chercheurs se sont inspirés d’études qui ont mesuré l’impact de la pandémie de COVID-19 à travers la surmortalité par rapport aux données historiques. En appliquant une approche similaire, ils ont analysé « l’utilisation excessive de mots » dans les résumés scientifiques publié sur PubMed de 2010 à 2024. Cette comparaison a révélé des changements significatifs dans le vocabulaire coïncidant avec l’adoption généralisée des LLM fin 2022.

Ces mots crient au contenu conçu par l'IA
Ces mots crient au contenu conçu par l’IA (Crédit d’image)

Analyse des données

Pour mesurer ces changements, l’équipe a examiné 14 millions de résumés, en suivant la fréquence de chaque mot chaque année. En comparant la fréquence attendue des mots, basée sur les tendances d’avant 2023, à l’utilisation réelle en 2023 et 2024, ils ont identifié une augmentation spectaculaire de certains termes. Par exemple, le mot « delves » est apparu 25 fois plus fréquemment que prévu dans les résumés de 2024. De même, les termes « showcase » et « underscores » ont vu leur utilisation multipliée par neuf.

Voici les mots les plus utilisés dans les textes générés par l’IA avec leurs taux d’augmentation d’utilisation correspondants :

  • Plongée – 25 fois plus
  • Présentation – augmentation de 9 fois
  • Soulignements – augmentation de 9 fois
  • Potentiel – augmentation de 4,1 points de pourcentage
  • Résultats – augmentation de 2,7 points de pourcentage
  • Crucial – augmentation de 2,6 points de pourcentage
  • À travers – augmentation significative (taux exact non spécifié)
  • En outre – augmentation significative (taux exact non précisé)
  • Global – augmentation significative (taux exact non précisé)
  • Amélioration – augmentation significative (taux exact non spécifié)
  • Exposé – augmentation significative (taux exact non précisé)
  • Informations – augmentation significative (taux exact non précisé)
  • Notamment – ​​augmentation significative (taux exact non précisé)
  • En particulier – augmentation significative (taux exact non précisé)
  • Dans – augmentation significative (taux exact non précisé)

Les taux spécifiques pour les mots 7 à 15 n’ont pas été fournis, mais il a été noté qu’ils ont connu une augmentation prononcée de l’utilisation scientifique dans l’ère post-LLM.

Changements de vocabulaire

Cette augmentation de mots spécifiques, appelés « mots marqueurs », est un indicateur clé de l’utilisation du LLM. Si la langue évolue naturellement, de tels changements abrupts et généralisés n’étaient auparavant associés qu’à des événements mondiaux importants comme les crises sanitaires. Les chercheurs ont noté que, contrairement aux changements de vocabulaire à forte teneur nominale pendant la pandémie de COVID-19, l’ère post-LLM a vu une augmentation des verbes, des adjectifs et des adverbes.

En identifiant ces mots-clés, les chercheurs peuvent estimer qu’au moins 10 % des résumés scientifiques de 2024 ont été générés ou assistés par des LLM. Ce chiffre sous-estime probablement la véritable ampleur, car tous les textes assistés par des LLM n’incluront pas ces marqueurs spécifiques.

Ces mots crient au contenu conçu par l'IA
L’étude a également mis en évidence des différences géographiques dans l’utilisation du LLM (Crédit d’image)

Variations géographiques dans l’utilisation du LLM

L’étude a également mis en évidence des différences géographiques dans l’utilisation des LLM. Les articles provenant de pays comme la Chine, la Corée du Sud et Taiwan ont montré une fréquence plus élevée de mots marqueurs, ce qui suggère que les LLM sont particulièrement utiles aux locuteurs non natifs de l’anglais pour éditer et rédiger des textes scientifiques.

À l’inverse, les anglophones natifs pourraient être plus aptes à reconnaître et à supprimer ces marqueurs, obscurcissant ainsi leur utilisation des LLM.


Crédits de l’image en vedette : Glen Carrie/Unsplash

Related Posts

L’impact des tissus intelligents sur les performances des vêtements tactiques

L’impact des tissus intelligents sur les performances des vêtements tactiques

mai 15, 2025
Databricks parie en grande partie sur les Postgres sans serveur avec son acquisition néon de 1 milliard de dollars

Databricks parie en grande partie sur les Postgres sans serveur avec son acquisition néon de 1 milliard de dollars

mai 15, 2025
Alphaevolve: comment la nouvelle IA de Google vise la vérité avec l’auto-correction

Alphaevolve: comment la nouvelle IA de Google vise la vérité avec l’auto-correction

mai 15, 2025
Tiktok implémente des textes ALT générés par l’AI pour une meilleure accessibilité

Tiktok implémente des textes ALT générés par l’AI pour une meilleure accessibilité

mai 15, 2025
Trump oblige Apple à repenser sa stratégie d’iPhone en Inde

Trump oblige Apple à repenser sa stratégie d’iPhone en Inde

mai 15, 2025
YouTube a maintenant l’IA sait maintenant quand vous êtes sur le point d’acheter

YouTube a maintenant l’IA sait maintenant quand vous êtes sur le point d’acheter

mai 15, 2025

Recent Posts

  • L’impact des tissus intelligents sur les performances des vêtements tactiques
  • Databricks parie en grande partie sur les Postgres sans serveur avec son acquisition néon de 1 milliard de dollars
  • Alphaevolve: comment la nouvelle IA de Google vise la vérité avec l’auto-correction
  • Tiktok implémente des textes ALT générés par l’AI pour une meilleure accessibilité
  • Trump oblige Apple à repenser sa stratégie d’iPhone en Inde

Recent Comments

Aucun commentaire à afficher.
Dataconomy FR

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.