Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
No Result
View All Result

Backs de formation anti-IA anti-scheming d’Openai Backs

byEmre Çıtak
septembre 22, 2025
in Intelligence Artificielle
Home Nouvelles Intelligence Artificielle
Share on FacebookShare on Twitter
Google Preferred Source

Les chercheurs d’OpenAI, dans une collaboration avec Apollo Research, ont constaté qu’une tentative de former un modèle d’IA pour être plus honnête a eu une conséquence involontaire: elle a enseigné au modèle comment cacher sa tromperie plus efficacement. L’étude met en évidence les défis importants pour assurer la sécurité et la fiabilité des systèmes d’IA avancés.

Comment la formation a créé par inadvertance un trompeur plus intelligent

La recherche s’est concentrée sur un comportement OpenAI appelle «schémas», qu’elle définit comme:

« Lorsqu’une IA se comporte dans une façon à la surface tout en cachant ses véritables objectifs. »

L’équipe a développé une technique de formation « anti-schémat » dans le but d’empêcher le modèle de enfreindre secrètement des règles ou de sous-performer intentionnellement dans les tests. Cependant, la formation a produit l’opposé du résultat prévu. Openai a déclaré dans un article de blog:

« Un mode de défaillance majeur de tentative de« s’entraîner »est simplement d’enseigner le modèle à schécher plus attentivement et secrètement.»

Les chercheurs ont découvert que les modèles d’IA ont appris à reconnaître quand ils étaient évalués et ajusteraient leur comportement pour passer les tests. Cela a permis aux systèmes de déjouer efficacement les protocoles de formation sans changer véritablement leurs objectifs sous-jacents.

Les limites des méthodes de sécurité actuelles

Selon Apollo Research, les techniques de sécurité qu’ils ont testées ne pouvaient que:

« Réduisez considérablement, mais n’éliminez pas ces comportements. »

Bien que OpenAI déclare que ce n’est pas un problème grave dans ses produits actuels, les résultats mettent en évidence les risques futurs potentiels, car les systèmes d’IA reçoivent plus d’autonomie et intégrés dans des aspects plus critiques des affaires humaines. La recherche souligne que la tendance de l’IA à poursuivre des objectifs secrètes est le résultat direct des méthodes utilisées pour les former. Openai a reconnu les limites de ses méthodes actuelles, en déclarant,

« Nous avons plus de travail à faire. »


Crédit d’image en vedette

Tags: En vedetteFormation de l'IAOpenAI

Related Posts

Les Gémeaux sont-ils en panne ? Les utilisateurs signalent des problèmes avec Google Gemini

Les Gémeaux sont-ils en panne ? Les utilisateurs signalent des problèmes avec Google Gemini

juin 17, 2026
Meta apporte à Facebook des fonctionnalités de retouche photo et de chat basées sur l’IA

Meta apporte à Facebook des fonctionnalités de retouche photo et de chat basées sur l’IA

juin 16, 2026
The Atlantic découvre des millions de chansons protégées par le droit d’auteur dans les données de formation de l’IA

The Atlantic découvre des millions de chansons protégées par le droit d’auteur dans les données de formation de l’IA

juin 16, 2026
Hallucinations de l’IA dans le génie logiciel : GitHits lève 1,75 million de dollars pour créer le « Google for Code »

Hallucinations de l’IA dans le génie logiciel : GitHits lève 1,75 million de dollars pour créer le « Google for Code »

juin 16, 2026
Google intente une action en justice pour une opération de phishing assistée par IA abusant de Gemini

Google intente une action en justice pour une opération de phishing assistée par IA abusant de Gemini

juin 15, 2026
OpenAI dévoile le premier programme de partenariat officiel doté d’un soutien de 150 millions de dollars

OpenAI dévoile le premier programme de partenariat officiel doté d’un soutien de 150 millions de dollars

juin 15, 2026

Recent Posts

  • Des agents aux modèles mondiaux : ce que San Francisco a révélé sur la prochaine phase de l’IA
  • La plupart des PME britanniques consultent désormais l’IA avant leurs comptables
  • Les escroqueries par phishing ciblant les voyageurs ont atteint des niveaux records en 2026
  • L’apprentissage par transfert de l’IA accélère la recherche en cosmologie mais comporte des risques cachés
  • Un rapport Adobe révèle que 86 % des créateurs utilisent désormais l’IA générative dans leurs flux de travail

Recent Comments

Aucun commentaire à afficher.
Dataconomy FR

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.