Les voitures autonomes sont censées être l’avenir. L’IA est censée prendre la roue, naviguer parfaitement et éliminer l’erreur humaine. Pourtant, nous voici, saisissant toujours nos roues de direction tandis que l’IA trébuche à travers des simulations, faisant des erreurs qui vont de hilarante à la mal à dangereuse.
Pourquoi? Parce que l’IA apprend à travers essais et erreur– L’équivalent numérique de lancer des fléchettes dans l’obscurité jusqu’à ce qu’il frappe enfin le bullseye. C’est bien lorsque les enjeux sont faibles, comme jouer aux échecs ou optimiser les publicités. Mais en ce qui concerne les applications du monde réel – où une erreur signifie labourer en piéton – cette approche s’effondre.
Selon une étude menée par Zhenghao Peng, Wenjie Mo, Chenda Duan et Bolei Zhou de Université de Californie, Los Angeles (UCLA)avec Quanyi Li de Université d’ÉdimbourgLa formation IA peut être considérablement améliorée en utilisant Propagation de la valeur proxy (PVP). Leurs recherches, intitulées Apprendre de l’implication humaine active à travers la propagation de la valeur proxydéfie l’apprentissage traditionnel du renforcement en prouvant que L’intervention humaine active conduit à une formation d’IA plus rapide, plus sûre et plus efficace.
Traditionnel Apprentissage par renforcement (RL)La manière standard de l’IA apprenne à prendre des décisions, est douloureusement lente. Cela nécessite des millions de tentatives Avant qu’une IA ne comprenne ce qui fonctionne. Pire, il suppose que l’IA peut comprendre l’intention humaine simplement en suivant un système de récompense – alors qu’en réalité, les systèmes de récompense conduisent souvent à des comportements bizarres et involontaires. Pensez à une IA formée pour gagner une course qui découvre qu’il peut simplement conduire en rond sur la ligne de départ pour accumuler des points de «distance parcourue» sans jamais terminer le parcours.
De toute évidence, l’IA a besoin d’un meilleur enseignant. Et ce professeur? Toi.
Laissez les humains intervenir en temps réel
Propagation de la valeur proxy (PVP) est une nouvelle méthode qui transforme la formation de l’IA en quelque chose de bien plus humain. Au lieu de laisser Ai se faire une erreur dans ses erreurs pendant des mois, PvP permet aux humains d’intervenir, d’intervenir et de montrer AI quoi faire en temps réel.
- Imaginez que l’IA apprend à conduire dans une simulation, disons, Grand Theft Auto V (GTA V).
- L’IA prend une décision terrible – disons, allumer un feu rouge directement dans la circulation.
- Au lieu de regarder le chaos se dérouler, un humain prend le contrôle à ce moment et corrige l’action de l’IA.
- Le système étiquette ensuite la décision de l’homme en tant que Mouvement « bon » Et l’erreur précédente de l’IA en tant que Mouvement « mauvais ».
- Utilisation d’une technique appelée propagation de valeurL’IA propage cette correction dans des situations similaires, apprenant à éviter de mauvaises décisions sans avoir besoin de millions de tentatives.
Le résultat est surprenant. L’IA apprend beaucoup plus rapideavec moins d’erreurset – surtout – il s’aligne sur les attentes humaines au lieu de chasser aveuglément des points de récompense.
Les chiffres ne mentent pas: PvP fonctionne
L’équipe derrière PvP l’a mis à l’épreuve GTA V, Carla (un simulateur de conduite) et Minigrid (une tâche de navigation de labyrinthe virtuel). Les résultats étaient superbes:
- IA formé avec PvP appris 10 fois plus vite que les méthodes traditionnelles.
- Il ne faut que 1 200 interventions humaines—Pargé à la 300 000 Les tentatives de l’IA ont généralement besoin dans RL.
- Le taux de réussite de l’IA formé par le PVP pour atteindre les destinations en toute sécurité était 85%par rapport à 20-50% pour les méthodes précédentes.
- Ai fait 75% moins d’erreurs critiques Lorsqu’il est formé avec le PVP par rapport à l’apprentissage traditionnel du renforcement.
En d’autres termes, l’IA a commencé à conduire comme un humain– Pas juste un robot programmé pour maximiser les récompenses abstraites.
Une victoire pour l’IA et pour les humains
Le PVP n’est pas seulement mieux pour l’IA. Cela facilite également la vie aux personnes qui l’entraînent. La formation traditionnelle d’IA nécessite une surveillance humaine constante, des heures de rétroaction et beaucoup de patience. Avec PvP, AI avait besoin 50% moins d’effort humain s’entraîner. Les testeurs ont évalué l’IA formé par le PVP 4,8 sur 5 pour la précisionpar rapport à 3.0 pour les méthodes plus anciennes. IA qui a suivi la formation PVP a provoqué nettement moins de stress Pour les entraîneurs humains, car il ne nécessitait pas constamment des corrections. Pour une technologie qui est censée nous faciliter la vie, c’est un énorme pas en avant.
De GTA aux rues
Le PVP a déjà fait ses preuves dans les tests de conduite virtuels. La vraie question est: cela peut-il fonctionner Applications du monde réel?
Le potentiel est massif. Au lieu de s’appuyer uniquement sur des règles pré-programmées, l’IA pourrait apprendre directement de l’intervention humaine, ce qui le rend plus sûr. Les robots alimentés par l’IA dans les entrepôts, les hôpitaux ou même les maisons pourraient être formés en temps réel plutôt qu’à l’essai et à l’erreur. Les médecins humains pourraient intervenir pendant les chirurgies ou les diagnostics assistés par l’IA, enseignant directement au système ce qui est bien ou mal.
Parfois, l’objectif est juste de faire l’IA assez humain– Agir de manière à nous attendre, à s’aligner sur nos valeurs et à éviter les erreurs qui nous mettent en danger.
Crédit d’image en vedette: Kerem Gülen / Midjourney