GPT-4.5 d’Openai surperformé Les humains dans un récent test de Turing de UC San Diego, montrant à quel point les gens peuvent faciliter l’IA pour une véritable conversation en s’engageant dans des chats côte à côte.
Le test de Turing a longtemps mesuré si une machine peut passer en tant qu’humain par interaction textuelle. Dans cette version mise à jour, près de 300 participants de la langue et du laboratoire de cognition d’UC San Diego ont chacun discuté avec un humain et une IA avant de décider lequel était lequel.
Le GPT-4.5, équipé d’un personnage averti par la pop-culture, a convaincu les participants qu’il était humain à 73% du temps – bien au-dessus de la référence à 50% historiquement utilisée pour définir un laissez-passer. Les humains réels ne trompent pas les participants aussi souvent.
Les autres systèmes comprenaient Meta’s Llama 3, le GPT-4O d’Openai et Eliza, l’un des premiers chatbots. Sans personnage défini, le taux de réussite de GPT-4,5 est tombé à 36% et GPT-4O n’a marqué que 21%.
Les chercheurs notent que passer le test de Turing ne signifie pas qu’une IA comprend vraiment le langage comme une personne. Pourtant, les résultats soulignent à quel point ces modèles peuvent imiter la conversation humaine, surtout lorsqu’ils ont donné des rôles spécifiques. Les résultats sont actuellement publiés sur un serveur de préparation, avec une version évaluée par des pairs en attente.