Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
No Result
View All Result

L’instruct PDDL du MIT améliore la validité du plan LLAMA-3-8B

byEmre Çıtak
septembre 22, 2025
in Artificial Intelligence
Home Artificial Intelligence
Share on FacebookShare on Twitter

Des chercheurs du Laboratoire de l’informatique et de l’intelligence artificielle du MIT ont développé une instruction PDDL, un cadre utilisant un raisonnement logique et une validation externe pour améliorer la façon dont les modèles de langage importants génèrent des plans en plusieurs étapes, atteignant jusqu’à 94% de validité sur des références spécifiques. Le cadre aborde la défaillance commune des modèles de grands langues (LLM) à produire des plans logiquement valides, qui semblent souvent plausibles mais sont incorrects. PDDL-INSTRUCT le contrecarre en intégrant une sémantique explicite d’état et d’action avec vérification du sol. Grâce à «l’éducation aux erreurs», des modèles sont formés pour expliquer les échecs du plan, notamment des conditions préalables non satisfaites, des effets incorrects, des violations de cadre ou un objectif non atteint. Une méthode d’incitation à la chaîne logique (COT) guide également le modèle à effectuer une inférence étape par étape, produisant des traces détaillées à l’état-action formatées comme ⟨sᵢ, aᵢ₊₁, sᵢ₊₁⟩ basées sur la sémantique formelle. Pour garantir l’exactitude, chaque étape d’un plan généré est vérifiée par le validateur de plan Val externe. Le système peut recevoir des commentaires binaires (valides / non valides) ou des commentaires détaillés spécifiant quelle condition préalable ou effet a échoué. La recherche a indiqué que la rétroaction détaillée a produit les gains de performance les plus solides. PDDL-Istruct utilise également un processus d’optimisation à deux étapes. La première étape optimise les chaînes de raisonnement du modèle en pénalisant les erreurs de transition de l’État. La deuxième étape optimise ensuite la précision finale du plan de tâche finale, créant un régime d’entraînement systématique. Le système a été évalué sur la référence Planbench, qui comprend les domaines Blocksworld, Mystery BlockSworld et Logistics Planning. Mystery Blocksworld est particulièrement difficile car il obscurcit les noms de prédicat pour empêcher la correspondance de modèles; Les modèles antérieurs ont rapporté moins de 5% de validité sur cette tâche sans support d’outil. Avec PDDL-Instruct, un modèle LLAMA-3-8B a réalisé jusqu’à 94% de plans valides sur BlockSworld. Sur Mystery Blocksworld, le cadre a produit des améliorations des ordres de grandeur, rapportées jusqu’à 64 fois mieux que les modèles de base. Des augmentations substantielles des plans valides ont également été enregistrées dans le domaine logistique. Dans tous les domaines, le cadre a démontré jusqu’à une amélioration absolue de 66% de la génération de plans valides par rapport aux lignes de base non étoilées. Les performances ont été encore améliorées en utilisant une rétroaction détaillée du validateur et des budgets de rétroaction plus longs pendant la formation. Cette approche neuro-symbolique fonde le raisonnement d’un LLM dans la sémantique formelle qui est vérifiée automatiquement. Sa portée actuelle est limitée aux domaines du langage de définition du domaine de planification classique (PDDL) et nécessite Val comme oracle externe. La méthode montre l’utilité des pipelines d’agent qui peuvent accueillir un vérificateur, tandis que les extensions de planification temporelle, numérique et sensible aux coûts restent des défis ouverts.


Crédit d’image en vedette

Tags: LLAMA-3-8BMITPddl-instruct

Related Posts

La mère de l'un des enfants d'Elon Musk poursuit xAI pour deepfakes sexuels à Grok

La mère de l'un des enfants d'Elon Musk poursuit xAI pour deepfakes sexuels à Grok

janvier 16, 2026
OpenAI lance ChatGPT Translate autonome

OpenAI lance ChatGPT Translate autonome

janvier 15, 2026
Le calendrier de lancement de DeepSeek V4 et R2 reste caché

Le calendrier de lancement de DeepSeek V4 et R2 reste caché

janvier 15, 2026
Gemini gagne en intelligence personnelle pour synthétiser les données de Gmail et Photos

Gemini gagne en intelligence personnelle pour synthétiser les données de Gmail et Photos

janvier 15, 2026
Amazon force la mise à niveau des membres Prime vers Alexa+

Amazon force la mise à niveau des membres Prime vers Alexa+

janvier 14, 2026
Google met à niveau Veo 3.1 avec la génération vidéo verticale native

Google met à niveau Veo 3.1 avec la génération vidéo verticale native

janvier 14, 2026

Recent Posts

  • Réparation de 20 $ de Verizon : comment réclamer votre crédit de panne aujourd'hui
  • Anthropic nomme Irina Ghose, vétéran de Microsoft, pour diriger l'expansion en Inde
  • Bluesky lance le badge Live Now et les cashtags dans une mise à jour majeure
  • Netflix conclut un accord mondial de 7 milliards de dollars pour une sélection de films de Sony Pictures
  • Samsung réorganise Mobile Gaming Hub pour réparer la découverte de jeux cassés

Recent Comments

Aucun commentaire à afficher.
Dataconomy FR

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.