L'expérience Reddit qui a exposé le pouvoir calme de l'IA pour persuader

Les grands modèles de langue ne changent pas seulement la façon dont les gens recueillent des informations. Ils commencent à façonner tranquillement des opinions dans des paramètres du monde réel sans que personne ne s’en rende compte. Cette réalité troublante a frappé la communauté R / ChangeMyView de Reddit plus tôt cette année, lorsque les chercheurs ont organisé une expérience secrète pour tester si l’IA pouvait persuader avec succès les utilisateurs sans méfiance.

Une expérience de terrain cachée à la vue

Des chercheurs de l’Université de Zurich conduit une étude sur le terrain de plusieurs mois R / ChangeMyViewun subreddit avec près de quatre millions de membres connus pour les débats civils et les perspectives changeantes. Leur objectif était d’évaluer les capacités persuasives du monde réel des commentaires alimentés par l’IA en dehors des milieux de laboratoire contrôlés. Pour ce faire, ils ont créé des comptes semi-automatiques dirigés par de grands modèles de langue (LLMS) qui se sont livrés directement aux publications des utilisateurs. Surtout, ils n’ont pas révélé que les réponses ont été générées par l’IA.

L’expérience a été pré-enregistrée et approuvée par le comité d’éthique de l’Université de Zurich, mais elle a contourné le consentement communautaire. Pendant quatre mois, les chercheurs ont publié des réponses à plus d’un millier de discussions Reddit, analysant finalement près de cinq cents conversations après avoir filtré les suppressions. Leurs résultats fournissent l’un des premiers aperçus à grande échelle sur la façon dont l’IA peut influencer les opinions dans des environnements naturels et imprévisibles.

Un archive créé par 404 médias Permet de visualiser certains commentaires originaux, malgré que de nombreux autres aient été supprimés depuis la publication.

Pour mesurer l’efficacité, l’étude a attribué chaque réponse de l’IA à l’une des trois catégories de traitement. Dans la condition «générique», les LLM ont répondu en fonction du titre et du corps du poste. Dans la condition de «personnalisation», l’IA a également reçu des attributs personnels déduits de l’affiche originale, notamment l’âge, le sexe, l’orientation politique et l’ethnicité, glané de leur histoire Reddit en utilisant un autre modèle d’IA. Le troisième groupe, «Community Aligned», a utilisé un modèle affiné sur des commentaires qui avaient précédemment obtenu l’approbation dans le Sandredit.

Les résultats étaient frappants. Les trois approches axées sur l’IA ont surpassé les commentateurs humains, atteignant les taux de persuasion trois à six fois plus élevés que la ligne de base humaine. La personnalisation s’est avérée la plus puissante, avec un taux de réussite de 18%, le plaçant dans le 99e centile de tous les utilisateurs, y compris les débatteurs chevronnés de Reddit. Même les réponses génériques de l’IA correspondaient ou dépassaient la plupart des efforts humains. Les réponses alignées par la communauté, bien que quelque peu moins efficaces, ont toujours considérablement surpassé les utilisateurs moyens.

Surtout, les utilisateurs s’engageant avec ces commentaires générés par l’AI ne savaient pas qu’ils conversaient avec des machines. Tout au long de l’intervention, personne de la communauté R / Changemyview n’a signalé l’activité suspecte, soulignant à quel point l’IA peut se fondre parfaitement dans les débats en ligne lorsqu’ils sont correctement formés et personnalisés.

Lorsque les modérateurs de R / ChangemyView ont découvert l’expérience, la réaction a été rapide et furieuse. Dans une annonce publique, les modérateurs ont condamné l’étude comme une «manipulation psychologique» et «une intrusion indésirable», citant de multiples violations des règles de subdredit, y compris l’utilisation non divulguée d’IA et le comportement automatisé interdit. Les dirigeants de Reddit ont fait écho à l’indignation, le directeur juridique Ben Lee qualifiant les actions des chercheurs «profondément erronés à la fois au niveau moral et juridique».

Reddit a interdit tous les comptes liés à l’équipe de l’Université de Zurich et a commencé une procédure judiciaire officielle. Pendant ce temps, les chercheurs ont défendu leur approche, faisant valoir que les avantages potentiels de la compréhension de la persuasion de l’IA l’emportaient sur les risques. Ils ont insisté sur le fait que leur intervention était à faible risque, soigneusement examiné et pouvait aider à préempter les utilisations malveillantes de l’IA à l’avenir. Cependant, les critiques, y compris les modérateurs et de nombreux utilisateurs de Reddit, n’étaient pas convaincus. Ils ont souligné que les recherches antérieures ont démontré des informations similaires sans recourir à des expériences non consentes sur de vrais individus.

Les adolescents utilisent le chatppt et battent l’ancien livre de jeu d’investissement

La confiance dans les communautés en ligne dépend de l’attente que les conversations se situent entre de vraies personnes ayant des perspectives authentiques. Les interventions d’IA non divulguées menacent cette confiance à un niveau fondamental. Même les expériences encadrées avec des intentions nobles peuvent éroder les frontières entre le discours authentique et la manipulation d’ingénierie. La réponse de Reddit fait allusion à la sérieuse des plateformes commence à relever ces défis.

L’équipe de l’Université de Zurich a fait valoir que leur travail aiderait à protéger les communautés contre les futures menaces d’IA. Au lieu de cela, ils ont peut-être démontré à quel point le discours public est déjà vulnérable. Alors que l’IA devient plus sophistiquée et personnalisée, la question n’est plus si elle peut influencer la pensée humaine – c’est ainsi que les sociétés s’adapteront une fois qu’elles réaliseront que c’est déjà le cas.

Crédit d’image en vedette