Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
Subscribe
No Result
View All Result
Dataconomy FR
No Result
View All Result

Cette référence demande si l’IA peut penser comme un ingénieur

byKerem Gülen
avril 9, 2025
in Research
Home Research
Share on FacebookShare on Twitter

Selon une nouvelle étude intitulée « Feabench: Évaluation des modèles de langue sur la capacité de raisonnement multiphysique«  Par des chercheurs de Google et de Harvard, les modèles de grands langues peuvent parler d’un grand jeu, mais en ce qui concerne l’ingénierie du monde réel, la plupart ne peuvent même pas exécuter une simulation de chaleur correctement.

Ce nouveau référence, surnommé Faillitene teste pas les modèles sur la génération de code ou les problèmes de physique des manuels. Il les met au défi de résoudre des tâches d’ingénierie complexes basées sur la simulation en utilisant COMSOL Multiphysicsune plate-forme d’analyse des éléments finis de qualité professionnelle (FEA). En d’autres termes, il demande: votre assistant AI préféré peut-il construire un faisceau virtuel, appliquer la bonne physique et calculer ce qui se passe ensuite?

Pourquoi la simulation bat le spitball

FEA ne concerne pas les approximations. Il s’agit de traduire la réalité physique en précision numérique: modéliser la façon dont la chaleur se propage dans un semi-conducteur, comment un faisceau fléchit sous pression, comment la défaillance du matériau se propage. Ce sont des questions qui définissent le succès de l’ingénierie ou la catastrophe. Contrairement aux références génériques, Feabench augmente la barre: il exige la raison des modèles d’IA à travers la physique multi-domaines et les outils de simulation de qualité professionnelle pour résoudre réellement des problèmes.

Cette référence demande si l'IA peut penser comme un ingénieur
Capture d’écran tirée de l’étude partagée

Compamer le non-benchmarkable

Feabench comble une lacune que les repères d’IA existants manquent. Les travaux antérieurs ont largement mesuré les performances en mathématiques symboliques ou en génération de code, mais la science basée sur la simulation nécessite plus que la syntaxe. Il a besoin d’une compréhension sémantique de la géométrie spatiale, des interactions matérielles et des solveurs numériques. Feabench fait cela en évaluant si les LLM peuvent prendre un problème de physique du langage naturel, générer des appels API COMSOL Multiphysics® et calculer le résultat correct.

La référence est disponible en deux niveaux. Or feabench Comprend 15 problèmes méticuleusement vérifiés avec des entrées propres, des cibles clairement définies et des valeurs de sortie correctes – chacune résoluble via l’API Java de Comsol. Ceux-ci impliquent des domaines de physique du transfert de chaleur à la mécanique quantique. Ensuite, il y a Feabench grand: Un ensemble de 200 tutoriels analysés algorithmiques qui testent la génération de code plus large mais manquent de vérité stricte. Gold teste la précision; GRANDS TESTS LA LAGNE.

Pour lutter contre ces tâches, les chercheurs ont construit un pipeline agentique complet. UN Contrôlerager supervise le processus. UN Correctorsubagent affine itérativement le code en fonction des erreurs d’exécution. UN Toollookupgent Rechet la documentation physique ou les extraits de code annotés pour vous aider. Le Évaluateur Utilise à la fois la rétroaction de l’API et un Verifierllm pour évaluer si la solution est logique. Ce système n’exécute pas seulement des invites à un coup – elle navigue, la corrige et l’apprentissage des erreurs.

Cette référence demande si l'IA peut penser comme un ingénieur
Capture d’écran tirée de l’étude partagée

Les poids fermés gagnent, mais transpirent toujours

Dans les essais de base, des modèles de source fermée comme Claude 3.5, GPT-4O et Gemini 1.5 ont surpassé les modèles de poids ouvert. Claude 3.5 a mené le pack, atteignant 79% d’exécutabilité et marquant la seule cible valide sur un problème d’or. Les modèles ouverts ont lutté, avec des interfaces de physique hallucinantes ou des caractéristiques erronées. La partie la plus difficile? Le bloc de physiqueoù les modèles devaient appliquer des conditions aux limites précises et des propriétés de physique pour obtenir des résultats qui correspondaient à la vérité au sol.

  • Claude 3.5 Sonnet: 0,79 exécutabilité, 1/15 cible valide
  • GPT-4O: 0,78 exécutabilité, 0/15 cible valide
  • Gemini-1.5-pro: 0,60 exécutabilité, 0/15 cible valide

Quand un plan ne suffit pas

La référence comprend deux types de tâches. Dans le Modèles pecs Tâche, le LLM ne reçoit que les spécifications techniques et doit raisonner une solution. Dans le Plan Tâche, le modèle obtient des instructions étape par étape. Étonnamment, la tâche du plan n’a pas conduit à de meilleures performances. Les modèles ont souvent échoué en prenant des instructions trop littéralement et en hallucinant les noms d’API incorrects. L’ajout d’une liste de fonctionnalités corsol valides à l’invite – a appelé le Phydoc dans le contexte Stratégie – a permis de réduire considérablement les hallucinations et une amélioration de la factualité d’interface.

Cette référence demande si l'IA peut penser comme un ingénieur
Capture d’écran tirée de l’étude partagée

Leçons pour les ingénieurs de l’IA

Un gros point à retenir: la traduction est plus difficile que la planification. Même lorsque le modèle sait quoi faire, l’exprimer dans le DSL de Comsol (langue spécifique au domaine) est le barrage routier. La solution de l’équipe? Fournissez des outils de mise à la terre comme les bibliothèques de code annotées et la documentation en contexte, puis la jumelez avec des workflows agentiques structurés. Cette recette a transformé de mauvaises performances à un coup en amélioration robuste multi-tour. En fait, la stratégie de l’agent multi-tours a atteint 88% d’exécutabilitéla plus élevée de toutes les expériences.

  • Agent ModelsPecs + Multi-tour: 0,88 exécutabilité, 2/15 cibles valides
  • ModelsPecs + Phydoc: 0,62 exécutabilité, 1/15 cibles valides

Les simulations sont la façon dont les ingénieurs compressent le temps et le risque. Feabench montre que les LLM ne sont pas prêts à exécuter des simulations sans surveillance, mais ils se rapprochent de devenir des copilotes utiles. Cela compte si nous voulons que l’IA aide à un prototypage rapide, à une découverte scientifique ou à une conception structurelle. Et si l’IA peut apprendre à modéliser le monde physique aussi précisément qu’il imite le langage, il ne discutera pas seulement – il simulera, résoudra, et peut-être un jour, même inventer.


Crédit d’image en vedette

Tags: En vedetteFabricchIA

Related Posts

Appfigures : les dépenses liées aux applications mobiles atteignent un record de 155,8 milliards de dollars

Appfigures : les dépenses liées aux applications mobiles atteignent un record de 155,8 milliards de dollars

janvier 15, 2026
La pénurie mondiale de puces mémoire fait monter en flèche les prix des PC

La pénurie mondiale de puces mémoire fait monter en flèche les prix des PC

janvier 14, 2026
Les ingénieurs construisent des robots inspirés des sauterelles pour résoudre l'épuisement de la batterie

Les ingénieurs construisent des robots inspirés des sauterelles pour résoudre l'épuisement de la batterie

janvier 14, 2026
Une étude sur la nature projette des appareils de santé portables 2B d’ici 2050

Une étude sur la nature projette des appareils de santé portables 2B d’ici 2050

janvier 7, 2026
L'Imperial College de Londres développe l'IA pour accélérer la découverte de médicaments cardiaques

L'Imperial College de Londres développe l'IA pour accélérer la découverte de médicaments cardiaques

janvier 6, 2026
DeepSeek présente les hyper-connexions à contraintes multiples pour R2

DeepSeek présente les hyper-connexions à contraintes multiples pour R2

janvier 6, 2026

Recent Posts

  • Réparation de 20 $ de Verizon : comment réclamer votre crédit de panne aujourd'hui
  • Anthropic nomme Irina Ghose, vétéran de Microsoft, pour diriger l'expansion en Inde
  • Bluesky lance le badge Live Now et les cashtags dans une mise à jour majeure
  • Netflix conclut un accord mondial de 7 milliards de dollars pour une sélection de films de Sony Pictures
  • Samsung réorganise Mobile Gaming Hub pour réparer la découverte de jeux cassés

Recent Comments

Aucun commentaire à afficher.
Dataconomy FR

COPYRIGHT © DATACONOMY MEDIA GMBH, ALL RIGHTS RESERVED.

  • Home
  • Sample Page

Follow Us

  • Home
  • Sample Page
No Result
View All Result
Subscribe

This website uses cookies. By continuing to use this website you are giving consent to cookies being used. Visit our Privacy Policy.