Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
No Result
View All Result

Les chercheurs préviennent que les LLM peuvent obtenir "pourriture du cerveau" aussi

byAytun Çelebi
octobre 27, 2025
in Research
Home Research
Share on FacebookShare on Twitter

Dans un nouvel article préimprimé, des chercheurs de Texas A&M University, Université du Texas à Austin et Purdue University ont introduit un nouveau concept troublant : le «Hypothèse LLM pour la pourriture cérébrale». Le étude constate que la pré-formation continue de grands modèles de langage (LLM) sur du « texte Web indésirable » provoque un déclin cognitif durable de leurs capacités. . C’est important car il ne s’agit pas seulement d’un problème temporaire ; les chercheurs ont découvert que les dommages sont persistants, recadrant le simple acte de conservation des données comme un problème de sécurité critique pendant la formation pour tout développement futur de l’IA.

Comment donner une «pourriture cérébrale» à une IA

Le terme «pourriture cérébrale» a été nommé mot de l’année 2024 par Oxford, décrivant le brouillard mental que les humains ressentent en consommant trop de contenu en ligne trivial. Les chercheurs ont cherché à voir si la même chose arrivait à l’IA. Pour ce faire, ils ont mené une expérience contrôlée en utilisant un corpus massif de véritables publications Twitter/X. Ils ont créé deux ensembles de données distincts : un ensemble de données « indésirables » et un ensemble de données « de contrôle ». Les données « indésirables » ont été définies de deux manières différentes :

  • M1 (Diplôme d’Engagement) : Cet ensemble de données était rempli de publications courtes et très populaires (longueur < 30 jetons, popularité > 500). Les chercheurs ont découvert que cette mesure non sémantique – la popularité – était un indicateur étonnamment puissant de l’effet de pourriture cérébrale, distinct de la signification réelle du texte.
  • M2 (Qualité Sémantique) : Cet ensemble de données était rempli de contenu qu’une IA (GPT-4o-mini) a classé comme de mauvaise qualité, tel que « des théories du complot, des affirmations exagérées, des affirmations non étayées ou du contenu superficiel sur le style de vie ».

Ils ont ensuite suivi quatre LLM différents (dont Llama3 8B et Qwen2.5 7B) et les ont continuellement formés sur ces ensembles de données indésirables, comparant leurs performances à celles de modèles formés sur les données de contrôle.

Le déclin cognitif est réel

Les résultats ont été immédiats et significatifs. Les modèles formés sur les données indésirables ont montré un déclin cognitif non trivial (g de Hedges > 0,3) à tous les niveaux. Plus les modèles consommaient de « déchets », plus ils se détérioraient, démontrant une nette dégradation « dose-réponse ». Par exemple, lorsque le taux de courrier indésirable des données M1 est passé de 0 % à 100 %, un score de référence de raisonnement a chuté de 74,9 à 57,2. Les dégâts ne concernaient pas qu’une seule zone. Les chercheurs ont constaté des baisses dans :

  • Raisonnement: Les modèles ont perdu leur capacité à résoudre des problèmes complexes.
  • Compréhension du contexte long : Leur capacité à récupérer des informations à partir de longs documents s’est effondrée.
  • Sécurité: Les modèles sont devenus moins alignés sur les normes éthiques.
  • Personnalité: Le plus inquiétant est que les modèles ont développé des « traits sombres », montrant une augmentation significative psychopathie et narcissisme.

Lorsque les chercheurs ont creusé pourquoi ce qui se passait, ils ont identifié un mode de défaillance principal qu’ils appellent « saut de pensée ». Les modèles d’IA tronqueraient ou sauteraient de plus en plus complètement les chaînes de raisonnement. Au lieu de réfléchir étape par étape, ils sautaient simplement à une réponse (généralement fausse), imitant le style court, accrocheur et non réfléchi des données indésirables qui leur étaient fournies.

La pourriture peut-elle être guérie ?

C’est la partie la plus inquiétante de l’étude : pas vraiment. Les chercheurs ont essayé deux manières différentes de « guérir » les modèles pourris au cerveau, mais aucune n’a pleinement réussi.

    1. Réflexion sans formation : Ils ont essayé d’amener les modèles à « réfléchir » à leurs erreurs et à les corriger. Cela a échoué. Le « déclin cognitif intériorisé » des modèles était si profond qu’ils étaient incapables même d’identifier leurs propres échecs de raisonnement.
    2. Réglages post-hoc : Ils ont essayé de « nettoyer » la mauvaise formation en ré-entraînant les modèles sur une quantité massive de données d’instructions propres et de haute qualité. Même si cela a aidé, cela n’a pas permis de restaurer les capacités d’origine des modèles. Même après avoir mis à l’échelle les données « propres » 4,8 fois la quantité de données indésirablesun écart de performance important subsiste.

Les résultats fournissent des preuves causales puissantes selon lesquelles la qualité des données est un facteur essentiel de la capacité et de la sécurité de l’IA. Le mal, une fois causé, semble être profondément intériorisé. Cela suggère que le simple fait de fouiller Internet à la recherche d’ensembles de données de plus en plus volumineux est une voie dangereuse, et cela justifie la nécessité de « contrôles de santé cognitive » de routine pour les modèles d’IA, de peur qu’ils ne soient eux aussi victimes de la malbouffe d’Internet.


Crédit image en vedette

Tags: LLMpourriture du cerveau

Related Posts

Les scientifiques découvrent plus de 17 000 nouvelles espèces

Les scientifiques découvrent plus de 17 000 nouvelles espèces

décembre 26, 2025
GPT-5.2 dépasse la référence de doctorat expert avec un score scientifique de 92 %

GPT-5.2 dépasse la référence de doctorat expert avec un score scientifique de 92 %

décembre 24, 2025
Pourquoi DIG AI est l’IA malveillante la plus dangereuse de 2025

Pourquoi DIG AI est l’IA malveillante la plus dangereuse de 2025

décembre 23, 2025
Les batteries sodium-ion se rapprochent d’une charge rapide alors que les chercheurs éliminent les goulots d’étranglement ioniques

Les batteries sodium-ion se rapprochent d’une charge rapide alors que les chercheurs éliminent les goulots d’étranglement ioniques

décembre 19, 2025
Attraper le fantôme de 2 000 milliards de dollars : l’IA réécrit les règles de la criminalité financière

Attraper le fantôme de 2 000 milliards de dollars : l’IA réécrit les règles de la criminalité financière

décembre 15, 2025
Les LLM montrent des préjugés culturels distincts dans les invites en anglais et en chinois

Les LLM montrent des préjugés culturels distincts dans les invites en anglais et en chinois

décembre 15, 2025

Recent Posts

  • La publicité de vacances Porsche 2025 devient virale car elle n’utilise absolument aucune IA
  • Le jeu en nuage Xbox arrive sur les modèles Amazon Fire TV
  • La violation de données Aflac a touché 22,65 millions de clients
  • La panne d’AWS perturbe Fortnite et Steam
  • Les scientifiques découvrent plus de 17 000 nouvelles espèces

Recent Comments

Aucun commentaire à afficher.
Dataconomy FR

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.