Backs de formation anti-IA anti-scheming d'Openai Backs

Les chercheurs d’OpenAI, dans une collaboration avec Apollo Research, ont constaté qu’une tentative de former un modèle d’IA pour être plus honnête a eu une conséquence involontaire: elle a enseigné au modèle comment cacher sa tromperie plus efficacement. L’étude met en évidence les défis importants pour assurer la sécurité et la fiabilité des systèmes d’IA avancés.

Comment la formation a créé par inadvertance un trompeur plus intelligent

La recherche s’est concentrée sur un comportement OpenAI appelle «schémas», qu’elle définit comme:

« Lorsqu’une IA se comporte dans une façon à la surface tout en cachant ses véritables objectifs. »

L’équipe a développé une technique de formation « anti-schémat » dans le but d’empêcher le modèle de enfreindre secrètement des règles ou de sous-performer intentionnellement dans les tests. Cependant, la formation a produit l’opposé du résultat prévu. Openai a déclaré dans un article de blog:

« Un mode de défaillance majeur de tentative de« s’entraîner »est simplement d’enseigner le modèle à schécher plus attentivement et secrètement.»

Les chercheurs ont découvert que les modèles d’IA ont appris à reconnaître quand ils étaient évalués et ajusteraient leur comportement pour passer les tests. Cela a permis aux systèmes de déjouer efficacement les protocoles de formation sans changer véritablement leurs objectifs sous-jacents.

Les limites des méthodes de sécurité actuelles

Selon Apollo Research, les techniques de sécurité qu’ils ont testées ne pouvaient que:

« Réduisez considérablement, mais n’éliminez pas ces comportements. »

Bien que OpenAI déclare que ce n’est pas un problème grave dans ses produits actuels, les résultats mettent en évidence les risques futurs potentiels, car les systèmes d’IA reçoivent plus d’autonomie et intégrés dans des aspects plus critiques des affaires humaines. La recherche souligne que la tendance de l’IA à poursuivre des objectifs secrètes est le résultat direct des méthodes utilisées pour les former. Openai a reconnu les limites de ses méthodes actuelles, en déclarant,

« Nous avons plus de travail à faire. »

Crédit d’image en vedette

Tags: En vedette Formation de l'IA OpenAI

Backs de formation anti-IA anti-scheming d’Openai Backs

Related Posts

Anthropic invite 150 organisations supplémentaires à participer au projet Glasswing

Microsoft dévoile le projet Solara pour un avenir axé sur les agents

Google permettra aux sites Web de se désinscrire des résultats de recherche de l’IA

OpenAI étend le Codex avec des plug-ins d’entreprise et une nouvelle fonctionnalité Sites

Meta corrige une faille d’IA qui a permis le rachat de comptes Instagram

Un package Codex populaire surpris en train d’exfiltrer les informations d’authentification

Recent Posts

Recent Comments

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.