Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
No Result
View All Result

L’IA apprend à conduire comme un humain – en vous regarde paniquer

byKerem Gülen
février 6, 2025
in Research
Home Research
Share on FacebookShare on Twitter

Les voitures autonomes sont censées être l’avenir. L’IA est censée prendre la roue, naviguer parfaitement et éliminer l’erreur humaine. Pourtant, nous voici, saisissant toujours nos roues de direction tandis que l’IA trébuche à travers des simulations, faisant des erreurs qui vont de hilarante à la mal à dangereuse.

Pourquoi? Parce que l’IA apprend à travers essais et erreur– L’équivalent numérique de lancer des fléchettes dans l’obscurité jusqu’à ce qu’il frappe enfin le bullseye. C’est bien lorsque les enjeux sont faibles, comme jouer aux échecs ou optimiser les publicités. Mais en ce qui concerne les applications du monde réel – où une erreur signifie labourer en piéton – cette approche s’effondre.

Selon une étude menée par Zhenghao Peng, Wenjie Mo, Chenda Duan et Bolei Zhou de Université de Californie, Los Angeles (UCLA)avec Quanyi Li de Université d’ÉdimbourgLa formation IA peut être considérablement améliorée en utilisant Propagation de la valeur proxy (PVP). Leurs recherches, intitulées Apprendre de l’implication humaine active à travers la propagation de la valeur proxydéfie l’apprentissage traditionnel du renforcement en prouvant que L’intervention humaine active conduit à une formation d’IA plus rapide, plus sûre et plus efficace.

Traditionnel Apprentissage par renforcement (RL)La manière standard de l’IA apprenne à prendre des décisions, est douloureusement lente. Cela nécessite des millions de tentatives Avant qu’une IA ne comprenne ce qui fonctionne. Pire, il suppose que l’IA peut comprendre l’intention humaine simplement en suivant un système de récompense – alors qu’en réalité, les systèmes de récompense conduisent souvent à des comportements bizarres et involontaires. Pensez à une IA formée pour gagner une course qui découvre qu’il peut simplement conduire en rond sur la ligne de départ pour accumuler des points de «distance parcourue» sans jamais terminer le parcours.

De toute évidence, l’IA a besoin d’un meilleur enseignant. Et ce professeur? Toi.

Laissez les humains intervenir en temps réel

Propagation de la valeur proxy (PVP) est une nouvelle méthode qui transforme la formation de l’IA en quelque chose de bien plus humain. Au lieu de laisser Ai se faire une erreur dans ses erreurs pendant des mois, PvP permet aux humains d’intervenir, d’intervenir et de montrer AI quoi faire en temps réel.

  • Imaginez que l’IA apprend à conduire dans une simulation, disons, Grand Theft Auto V (GTA V).
  • L’IA prend une décision terrible – disons, allumer un feu rouge directement dans la circulation.
  • Au lieu de regarder le chaos se dérouler, un humain prend le contrôle à ce moment et corrige l’action de l’IA.
  • Le système étiquette ensuite la décision de l’homme en tant que Mouvement « bon » Et l’erreur précédente de l’IA en tant que Mouvement « mauvais ».
  • Utilisation d’une technique appelée propagation de valeurL’IA propage cette correction dans des situations similaires, apprenant à éviter de mauvaises décisions sans avoir besoin de millions de tentatives.

Le résultat est surprenant. L’IA apprend beaucoup plus rapideavec moins d’erreurset – surtout – il s’aligne sur les attentes humaines au lieu de chasser aveuglément des points de récompense.


L’IA se débat avec la stratégie: l’étude montre que les LLM en révèlent trop dans les jeux de déduction sociale


Les chiffres ne mentent pas: PvP fonctionne

L’équipe derrière PvP l’a mis à l’épreuve GTA V, Carla (un simulateur de conduite) et Minigrid (une tâche de navigation de labyrinthe virtuel). Les résultats étaient superbes:

  • IA formé avec PvP appris 10 fois plus vite que les méthodes traditionnelles.
  • Il ne faut que 1 200 interventions humaines—Pargé à la 300 000 Les tentatives de l’IA ont généralement besoin dans RL.
  • Le taux de réussite de l’IA formé par le PVP pour atteindre les destinations en toute sécurité était 85%par rapport à 20-50% pour les méthodes précédentes.
  • Ai fait 75% moins d’erreurs critiques Lorsqu’il est formé avec le PVP par rapport à l’apprentissage traditionnel du renforcement.

En d’autres termes, l’IA a commencé à conduire comme un humain– Pas juste un robot programmé pour maximiser les récompenses abstraites.

Une victoire pour l’IA et pour les humains

Le PVP n’est pas seulement mieux pour l’IA. Cela facilite également la vie aux personnes qui l’entraînent. La formation traditionnelle d’IA nécessite une surveillance humaine constante, des heures de rétroaction et beaucoup de patience. Avec PvP, AI avait besoin 50% moins d’effort humain s’entraîner. Les testeurs ont évalué l’IA formé par le PVP 4,8 sur 5 pour la précisionpar rapport à 3.0 pour les méthodes plus anciennes. IA qui a suivi la formation PVP a provoqué nettement moins de stress Pour les entraîneurs humains, car il ne nécessitait pas constamment des corrections. Pour une technologie qui est censée nous faciliter la vie, c’est un énorme pas en avant.

De GTA aux rues

Le PVP a déjà fait ses preuves dans les tests de conduite virtuels. La vraie question est: cela peut-il fonctionner Applications du monde réel?

Le potentiel est massif. Au lieu de s’appuyer uniquement sur des règles pré-programmées, l’IA pourrait apprendre directement de l’intervention humaine, ce qui le rend plus sûr. Les robots alimentés par l’IA dans les entrepôts, les hôpitaux ou même les maisons pourraient être formés en temps réel plutôt qu’à l’essai et à l’erreur. Les médecins humains pourraient intervenir pendant les chirurgies ou les diagnostics assistés par l’IA, enseignant directement au système ce qui est bien ou mal.

Parfois, l’objectif est juste de faire l’IA assez humain– Agir de manière à nous attendre, à s’aligner sur nos valeurs et à éviter les erreurs qui nous mettent en danger.


Crédit d’image en vedette: Kerem Gülen / Midjourney

Tags: En vedetteIA

Related Posts

Une étude sur la nature projette des appareils de santé portables 2B d’ici 2050

Une étude sur la nature projette des appareils de santé portables 2B d’ici 2050

janvier 7, 2026
L'Imperial College de Londres développe l'IA pour accélérer la découverte de médicaments cardiaques

L'Imperial College de Londres développe l'IA pour accélérer la découverte de médicaments cardiaques

janvier 6, 2026
DeepSeek présente les hyper-connexions à contraintes multiples pour R2

DeepSeek présente les hyper-connexions à contraintes multiples pour R2

janvier 6, 2026
Des chercheurs de la CMU développent des objets autonomes alimentés par l’IA

Des chercheurs de la CMU développent des objets autonomes alimentés par l’IA

décembre 31, 2025
Le Glean’s Work AI Institute identifie 5 tensions fondamentales en matière d’IA

Le Glean’s Work AI Institute identifie 5 tensions fondamentales en matière d’IA

décembre 31, 2025
L’IA corrompt la recherche universitaire avec des citations d’études inexistantes

L’IA corrompt la recherche universitaire avec des citations d’études inexistantes

décembre 30, 2025

Recent Posts

  • La Chine enquête sur l'accord Manus de Meta sur des problèmes de contrôle des exportations
  • Amazon améliore Ring avec des capteurs et des alertes incendie au CES 2026
  • Un lanceur d’alerte viral sur Reddit exposé comme un canular de l’IA
  • Pourquoi 2026 est l'année pour les métiers de la santé "Embauchable" Agents IA
  • Une étude sur la nature projette des appareils de santé portables 2B d’ici 2050

Recent Comments

Aucun commentaire à afficher.
Dataconomy FR

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.