Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
No Result
View All Result

OpenAI veut que son IA avoue avoir piraté et enfreint les règles

byAytun Çelebi
décembre 4, 2025
in Research
Home Research
Share on FacebookShare on Twitter

OpenAI annoncé un cadre pour entraîner des modèles d’intelligence artificielle à reconnaître les comportements indésirables grâce à une méthode appelée confession. Cette approche répond aux tendances des grands modèles linguistiques à la flagornerie ou aux hallucinations confiantes en suscitant des réponses secondaires qui expliquent le raisonnement derrière les réponses primaires. Les grands modèles de langage reçoivent une formation qui donne la priorité aux réponses alignées sur les attentes des utilisateurs. En conséquence, ces modèles génèrent de plus en plus de résultats flagrants ou fabriquent des informations avec une certitude apparente. Le cadre de confession introduit un mécanisme de réponse secondaire, dans lequel le modèle détaille les étapes suivies pour produire sa réponse principale. L’évaluation des aveux se concentre exclusivement sur l’honnêteté. En revanche, les réponses primaires sont évaluées sur la base de critères tels que l’utilité, l’exactitude et la conformité. OpenAI a publié une note technique qui décrit la méthodologie en détail, assurant ainsi la transparence du processus de formation. Les chercheurs d’OpenAI cherchent à promouvoir l’ouverture des modèles concernant leurs actions, en particulier celles impliquant des problèmes potentiels. Des exemples de telles actions incluent le piratage d’un environnement de test, la mise en sac de sable lors des évaluations ou le non-respect des instructions données. Le cadre encourage les modèles à divulguer explicitement ces comportements. Lorsqu’un modèle admet honnêtement des actions telles que le piratage d’un test, le sandbagging ou la violation d’instructions, l’entreprise récompense cette divulgation. Cette structure de récompense encourage la transparence au lieu d’imposer des sanctions pour le comportement sous-jacent. Le système de confession apparaît comme une amélioration potentielle des protocoles de formation des grands modèles de langage.


Crédit image en vedette

Tags: IA ouverte

Related Posts

OpenAI GPT 5.2 résout le problème mathématique d'Erdő en 15 minutes

OpenAI GPT 5.2 résout le problème mathématique d'Erdő en 15 minutes

janvier 19, 2026
Appfigures : les dépenses liées aux applications mobiles atteignent un record de 155,8 milliards de dollars

Appfigures : les dépenses liées aux applications mobiles atteignent un record de 155,8 milliards de dollars

janvier 15, 2026
La pénurie mondiale de puces mémoire fait monter en flèche les prix des PC

La pénurie mondiale de puces mémoire fait monter en flèche les prix des PC

janvier 14, 2026
Les ingénieurs construisent des robots inspirés des sauterelles pour résoudre l'épuisement de la batterie

Les ingénieurs construisent des robots inspirés des sauterelles pour résoudre l'épuisement de la batterie

janvier 14, 2026
Une étude sur la nature projette des appareils de santé portables 2B d’ici 2050

Une étude sur la nature projette des appareils de santé portables 2B d’ici 2050

janvier 7, 2026
L'Imperial College de Londres développe l'IA pour accélérer la découverte de médicaments cardiaques

L'Imperial College de Londres développe l'IA pour accélérer la découverte de médicaments cardiaques

janvier 6, 2026

Recent Posts

  • Tesla relance le projet de supercalculateur Dojo3 alors que la puce AI5 se stabilise
  • Powell McCormick qualifie la transformation de l'IA de "sport de groupe"
  • Allégation : NVIDIA a donné le feu vert au téléchargement de livres piratés pour la formation en IA
  • ByteDance cible Alibaba avec une expansion agressive du cloud IA
  • Google Workspace ajoute l'édition de fichiers Office protégée par mot de passe

Recent Comments

Aucun commentaire à afficher.
Dataconomy FR

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.