Des chercheurs du Laboratoire de l’informatique et de l’intelligence artificielle du MIT ont développé une instruction PDDL, un cadre utilisant un raisonnement logique et une validation externe pour améliorer la façon dont les modèles de langage importants génèrent des plans en plusieurs étapes, atteignant jusqu’à 94% de validité sur des références spécifiques. Le cadre aborde la défaillance commune des modèles de grands langues (LLM) à produire des plans logiquement valides, qui semblent souvent plausibles mais sont incorrects. PDDL-INSTRUCT le contrecarre en intégrant une sémantique explicite d’état et d’action avec vérification du sol. Grâce à «l’éducation aux erreurs», des modèles sont formés pour expliquer les échecs du plan, notamment des conditions préalables non satisfaites, des effets incorrects, des violations de cadre ou un objectif non atteint. Une méthode d’incitation à la chaîne logique (COT) guide également le modèle à effectuer une inférence étape par étape, produisant des traces détaillées à l’état-action formatées comme ⟨sᵢ, aᵢ₊₁, sᵢ₊₁⟩ basées sur la sémantique formelle. Pour garantir l’exactitude, chaque étape d’un plan généré est vérifiée par le validateur de plan Val externe. Le système peut recevoir des commentaires binaires (valides / non valides) ou des commentaires détaillés spécifiant quelle condition préalable ou effet a échoué. La recherche a indiqué que la rétroaction détaillée a produit les gains de performance les plus solides. PDDL-Istruct utilise également un processus d’optimisation à deux étapes. La première étape optimise les chaînes de raisonnement du modèle en pénalisant les erreurs de transition de l’État. La deuxième étape optimise ensuite la précision finale du plan de tâche finale, créant un régime d’entraînement systématique. Le système a été évalué sur la référence Planbench, qui comprend les domaines Blocksworld, Mystery BlockSworld et Logistics Planning. Mystery Blocksworld est particulièrement difficile car il obscurcit les noms de prédicat pour empêcher la correspondance de modèles; Les modèles antérieurs ont rapporté moins de 5% de validité sur cette tâche sans support d’outil. Avec PDDL-Instruct, un modèle LLAMA-3-8B a réalisé jusqu’à 94% de plans valides sur BlockSworld. Sur Mystery Blocksworld, le cadre a produit des améliorations des ordres de grandeur, rapportées jusqu’à 64 fois mieux que les modèles de base. Des augmentations substantielles des plans valides ont également été enregistrées dans le domaine logistique. Dans tous les domaines, le cadre a démontré jusqu’à une amélioration absolue de 66% de la génération de plans valides par rapport aux lignes de base non étoilées. Les performances ont été encore améliorées en utilisant une rétroaction détaillée du validateur et des budgets de rétroaction plus longs pendant la formation. Cette approche neuro-symbolique fonde le raisonnement d’un LLM dans la sémantique formelle qui est vérifiée automatiquement. Sa portée actuelle est limitée aux domaines du langage de définition du domaine de planification classique (PDDL) et nécessite Val comme oracle externe. La méthode montre l’utilité des pipelines d’agent qui peuvent accueillir un vérificateur, tandis que les extensions de planification temporelle, numérique et sensible aux coûts restent des défis ouverts.





