Une nouvelle étude a découvert Une augmentation alarmante des documents de recherche formule dérivés de la National Health and Nutrition Examination Survey (NHANES), suggérant que les outils d’intelligence artificielle sont mal utilisés pour produire en masse statistiquement faible et potentiellement trompeur de la littérature scientifique. Les auteurs pointent vers une augmentation des analyses à facteurs uniques qui ne tiennent pas compte de la complexité multifactorielle, exploitent les données ouvertes sélectivement et contournent des corrections statistiques robustes.
Entre 2014 et 2021seulement quatre articles de ce type ont été publiés chaque année. Mais en 2024 seulement, jusqu’au 9 octobre, le décompte a fait grimper à 190. Cette croissance exponentielle, associée à un changement d’origine de publication et à une dépendance à l’automatisation, indique que les pipelines assistés par l’IA peuvent accélérer la production de manuscrits de faible qualité. Au cœur du problème se trouve l’utilisation abusive de Nhanes, un ensemble de données gouvernemental respecté et prêt pour l’AI pour l’élaboration initialement de la population de santé publique à travers la population.
Déballage du problème Nhanes
Nhanes fournit un ensemble de données exceptionnellement riche, combinant des données cliniques, comportementales et de laboratoire sur des milliers de variables. Il est accessible via des API et a des bibliothèques Python et R standardisées, permettant aux chercheurs d’extraire et d’analyser efficacement les données. Cela en fait un outil précieux pour les chercheurs en santé publique et les développeurs d’IA. Mais cette commodité crée également une vulnérabilité: elle permet aux chercheurs de générer des résultats rapidement et avec un minimum de surveillance, conduisant à une explosion de la recherche formule.
La nouvelle étude a analysé 341 articles basés sur le NHANES publiés entre 2014 et 2024 qui reposaient sur des corrélations à variable unique. Ces articles, en moyenne, sont apparus dans des revues à impact modéré (facteur d’impact moyen de 3,6), et se concentraient souvent sur des conditions telles que la dépression, le diabète ou les maladies cardiovasculaires. Au lieu d’explorer la nature multifactorielle de ces conditions, les études ont généralement tiré la signification statistique d’une seule variable indépendante, contournant la correction de fausses découvertes et s’appuyant fréquemment sur un sous-ensemble de données inexpliqué.
Une préoccupation majeure est que les problèmes de santé multifactoriels – tels que les troubles de santé mentale, l’inflammation chronique ou les maladies cardiovasculaires – ont été analysées en utilisant des méthodes plus adaptées aux relations binaires simples. En effet, ces études ont présenté des résultats qui ont éliminé les nuances et ignoré la réalité selon laquelle les résultats pour la santé sont rarement tirés par un seul facteur.
La dépression a été utilisée comme étude de cas, avec 28 articles individuels revendiquant des associations entre la condition et diverses variables indépendantes. Cependant, seules 13 de ces associations sont restées statistiquement significatives après avoir appliqué une correction du taux de fausses découvertes (FDR). Sans correction appropriée, ces publications risquent d’introduire un volume élevé de Erreurs de type I dans la littérature scientifique. Dans certains cas, les chercheurs ont semblé recycler les variables en tant que prédicteurs et résultats entre les articles, en train de brouiller les eaux.
Adele de Microsoft veut donner à votre IA un profil cognitif
Exploration de données sélective et harcèlement
Un autre problème découvert par les auteurs a été l’utilisation de sous-ensembles de données non justifiés. Bien que NHANES fournit un large calendrier de données sur la santé datant de 1999, de nombreux chercheurs ont choisi des fenêtres étroites d’analyse sans divulguer la justification. Par exemple, certaines études n’ont utilisé que le 2003 à 2018 Fenêtre pour analyser le diabète et l’inflammation, malgré une plus grande disponibilité des données. La pratique laisse entendre le dragage ou le harcèlement de données, émettant des hypothèses après que les résultats sont connus, une approche méthodologiquement imparfaite qui sape la reproductibilité et la transparence.
L’étude médiane n’a analysé que quatre ans de données NHANES, malgré la base de données offrant plus de deux décennies d’informations. Cet échantillonnage sélectif permet aux auteurs d’augmenter la probabilité d’obtenir des résultats significatifs sans tenir compte de la complexité de l’ensemble de données complet, ce qui facilite la production et la publication de manuscrits en volume élevé.
Les résultats posent un sérieux défi à l’intégrité de la littérature scientifique. Les études à variable unique qui ne tiennent pas compte des interdépendances complexes sont plus susceptibles d’être trompeuses. Lorsqu’il est répété à grande échelle, de telles recherches inondent l’écosystème académique avec des articles qui répondent aux seuils de publication mais offrent peu de nouvelles informations. Ceci est aggravé par une faible revue par les pairs et la pression croissante sur les chercheurs pour publier fréquemment et rapidement.
Les auteurs avertissent que ces pratiques, si elles ne sont pas contrôlées, pourraient déplacer l’équilibre dans certains sous-domaines où les papiers fabriqués sont plus nombreux que les papiers manufacturés. L’utilisation de l’IA pour accélérer la génération de manuscrits ne fait qu’amplifie ce risque. À mesure que les modèles génératifs deviennent plus accessibles, ils permettent une conversion rapide des sorties statistiques en manuscrits complètes, réduisant le temps et l’expertise requis pour publier des articles scientifiques.
Recommandations pour les parties prenantes:
Pour atténuer les risques de dragage de données sur l’IA et de recherche produite en masse, les auteurs proposent plusieurs étapes concrètes:
- Pour les chercheurs: Reconnaissez les limites des études à facteurs uniques et incorporez une analyse multifactorielle le cas échéant. Justifie clairement tout sous-ensemble de données ou modifications d’hypothèse.
- Pour les fournisseurs de données: Introduisez un accès véritable via des clés API ou des ID d’application pour décourager l’exploitation aveugle. Exigent que toute publication citant ses ensembles de données divulgue la complète de l’historique d’extraction des données.
- Pour les éditeurs: Augmentez les taux de rejet de bureau pour les papiers de formule. Emploie les examinateurs statistiques dédiés. Utilisez des modèles pour identifier les manuscrits à l’aide de pipelines identiques avec uniquement des échanges variables.
- Pour les pair examinateurs: Traitez l’utilisation d’une analyse à variable unique pour les conditions complexes comme un drapeau rouge. Demandez des éclaircissements lorsque la rigueur statistique manque ou que les sous-ensembles de données sont mal justifiés.
- Pour la communauté scientifique plus large: Engagez un examen post-publication. Des plateformes comme PubPeer doivent être activement utilisées pour signaler les pratiques douteuses, même lorsque les méthodes statistiques semblent superficiellement solides.