Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
No Result
View All Result

L’instruct PDDL du MIT améliore la validité du plan LLAMA-3-8B

byEmre Çıtak
septembre 22, 2025
in Intelligence Artificielle
Home Nouvelles Intelligence Artificielle
Share on FacebookShare on Twitter
Google Preferred Source

Des chercheurs du Laboratoire de l’informatique et de l’intelligence artificielle du MIT ont développé une instruction PDDL, un cadre utilisant un raisonnement logique et une validation externe pour améliorer la façon dont les modèles de langage importants génèrent des plans en plusieurs étapes, atteignant jusqu’à 94% de validité sur des références spécifiques. Le cadre aborde la défaillance commune des modèles de grands langues (LLM) à produire des plans logiquement valides, qui semblent souvent plausibles mais sont incorrects. PDDL-INSTRUCT le contrecarre en intégrant une sémantique explicite d’état et d’action avec vérification du sol. Grâce à «l’éducation aux erreurs», des modèles sont formés pour expliquer les échecs du plan, notamment des conditions préalables non satisfaites, des effets incorrects, des violations de cadre ou un objectif non atteint. Une méthode d’incitation à la chaîne logique (COT) guide également le modèle à effectuer une inférence étape par étape, produisant des traces détaillées à l’état-action formatées comme ⟨sᵢ, aᵢ₊₁, sᵢ₊₁⟩ basées sur la sémantique formelle. Pour garantir l’exactitude, chaque étape d’un plan généré est vérifiée par le validateur de plan Val externe. Le système peut recevoir des commentaires binaires (valides / non valides) ou des commentaires détaillés spécifiant quelle condition préalable ou effet a échoué. La recherche a indiqué que la rétroaction détaillée a produit les gains de performance les plus solides. PDDL-Istruct utilise également un processus d’optimisation à deux étapes. La première étape optimise les chaînes de raisonnement du modèle en pénalisant les erreurs de transition de l’État. La deuxième étape optimise ensuite la précision finale du plan de tâche finale, créant un régime d’entraînement systématique. Le système a été évalué sur la référence Planbench, qui comprend les domaines Blocksworld, Mystery BlockSworld et Logistics Planning. Mystery Blocksworld est particulièrement difficile car il obscurcit les noms de prédicat pour empêcher la correspondance de modèles; Les modèles antérieurs ont rapporté moins de 5% de validité sur cette tâche sans support d’outil. Avec PDDL-Instruct, un modèle LLAMA-3-8B a réalisé jusqu’à 94% de plans valides sur BlockSworld. Sur Mystery Blocksworld, le cadre a produit des améliorations des ordres de grandeur, rapportées jusqu’à 64 fois mieux que les modèles de base. Des augmentations substantielles des plans valides ont également été enregistrées dans le domaine logistique. Dans tous les domaines, le cadre a démontré jusqu’à une amélioration absolue de 66% de la génération de plans valides par rapport aux lignes de base non étoilées. Les performances ont été encore améliorées en utilisant une rétroaction détaillée du validateur et des budgets de rétroaction plus longs pendant la formation. Cette approche neuro-symbolique fonde le raisonnement d’un LLM dans la sémantique formelle qui est vérifiée automatiquement. Sa portée actuelle est limitée aux domaines du langage de définition du domaine de planification classique (PDDL) et nécessite Val comme oracle externe. La méthode montre l’utilité des pipelines d’agent qui peuvent accueillir un vérificateur, tandis que les extensions de planification temporelle, numérique et sensible aux coûts restent des défis ouverts.


Crédit d’image en vedette

Tags: LLAMA-3-8BMITPddl-instruct

Related Posts

Les Gémeaux sont-ils en panne ? Les utilisateurs signalent des problèmes avec Google Gemini

Les Gémeaux sont-ils en panne ? Les utilisateurs signalent des problèmes avec Google Gemini

juin 17, 2026
Meta apporte à Facebook des fonctionnalités de retouche photo et de chat basées sur l’IA

Meta apporte à Facebook des fonctionnalités de retouche photo et de chat basées sur l’IA

juin 16, 2026
The Atlantic découvre des millions de chansons protégées par le droit d’auteur dans les données de formation de l’IA

The Atlantic découvre des millions de chansons protégées par le droit d’auteur dans les données de formation de l’IA

juin 16, 2026
Hallucinations de l’IA dans le génie logiciel : GitHits lève 1,75 million de dollars pour créer le « Google for Code »

Hallucinations de l’IA dans le génie logiciel : GitHits lève 1,75 million de dollars pour créer le « Google for Code »

juin 16, 2026
Google intente une action en justice pour une opération de phishing assistée par IA abusant de Gemini

Google intente une action en justice pour une opération de phishing assistée par IA abusant de Gemini

juin 15, 2026
OpenAI dévoile le premier programme de partenariat officiel doté d’un soutien de 150 millions de dollars

OpenAI dévoile le premier programme de partenariat officiel doté d’un soutien de 150 millions de dollars

juin 15, 2026

Recent Posts

  • Ce que les startups européennes de l’IA construisent pour l’ère de l’entreprise
  • Des agents aux modèles mondiaux : ce que San Francisco a révélé sur la prochaine phase de l’IA
  • La plupart des PME britanniques consultent désormais l’IA avant leurs comptables
  • Les escroqueries par phishing ciblant les voyageurs ont atteint des niveaux records en 2026
  • L’apprentissage par transfert de l’IA accélère la recherche en cosmologie mais comporte des risques cachés

Recent Comments

Aucun commentaire à afficher.
Dataconomy FR

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies to improve your experience. You can choose to accept or reject them. Visit our Privacy Policy.