GPT-5.2 compte toujours deux r dans la fraise

ChatGPT, optimisé par le modèle GPT-5.2 d’OpenAI publié en décembre 2025, identifie de manière incorrecte deux r dans le mot fraise, qui en contient trois, car son processus de tokenisation divise le mot en st-raw-berry, avec seulement deux jetons contenant des r. Les systèmes d’IA modernes démontrent leur capacité à générer des images marketing uniques, à compiler des rapports via des navigateurs agents et à produire des chansons en tête des charts. Ces capacités mettent en évidence une formation approfondie sur de vastes ensembles de données, permettant la reconnaissance de formes pour des sorties complexes. En revanche, certaines tâches fondamentales remettent en cause ces modèles. Compter les lettres d’un seul mot constitue l’une de ces tâches, accessible sans difficulté à un enfant de sept ans. La question spécifique à l’examen demande combien de r apparaissent dans la fraise. Le mot fraise est composé des lettres fraise. L’inspection visuelle confirme trois r : un après t et deux consécutifs dans la portion de baie. Cette requête a persisté en tant que test des performances de l’IA sur plusieurs itérations du modèle. Suite à la sortie en décembre 2025 de GPT-5.2les tests ont confirmé que la réponse de ChatGPT restait à deux r. Les versions précédentes présentaient une incertitude ou un comportement erratique sur cette question. Le dernier modèle a fourni une réponse directe de deux, sans déviation. Ce résultat persiste malgré des investissements dépassant les milliards de dollars, une demande élevée en matériel, notamment l’augmentation du prix de la RAM, et une consommation mondiale d’eau importante liée aux infrastructures de formation. Le problème provient de la conception entrée-sortie tokenisée de grands modèles de langage comme ChatGPT. Le texte saisi est divisé en jetons, qui sont des morceaux tels que des mots entiers, des syllabes ou des parties de mots. Le modèle traite ces jetons plutôt que des lettres individuelles. Par conséquent, le comptage des lettres repose sur le contenu des jetons plutôt que sur une énumération précise des lettres. L’outil OpenAI Tokenizer illustre ce processus. Entrer une fraise donne trois jetons : st, cru, baie. Le premier jeton st ne contient pas de r. Le deuxième jeton brut comprend un r. La troisième baie symbolique comprend deux r mais fonctionne comme un seul jeton. Le modèle associe les r à deux jetons, ce qui conduit au décompte de deux. Ce modèle de tokenisation affecte les mots similaires. Raspberry se divise en jetons comparables, ce qui fait que ChatGPT rapporte également deux r pour ce mot. Le jeton de baie compresse plusieurs lettres en une seule unité, sous-évaluant les instances de lettres individuelles qu’il contient. ChatGPT fonctionne comme un moteur de prédiction, exploitant les modèles des données de formation pour anticiper les éléments ultérieurs. GPT-5.x intègre la méthode de tokenisation o200k_harmony, introduite avec les modèles OpenAI o4-mini et GPT-4o. Ce système mis à jour vise l’efficacité mais conserve l’écart de comptage des fraises. ChatGPT a été lancé fin 2022 au milieu de nombreux défis basés sur les jetons. Des phrases spécifiques ont déclenché des réponses excessives ou des échecs de traitement. OpenAI en a répondu à de nombreuses personnes grâce à des ajustements de formation et à des améliorations du système au cours des années suivantes. Les tests de vérification sur des problèmes classiques ont montré des améliorations. ChatGPT épelle avec précision le Mississippi, identifiant les lettres du Mississippi avec des fréquences correctes : un m, quatre i, quatre s, deux p. Il inverse également la sucette en popillol, préservant toutes les lettres dans le bon ordre. Les grands modèles de langage présentent des limites persistantes dans le comptage exact de petites quantités. Ils réussissent bien en mathématiques et en résolution de problèmes, mais échouent dans le décompte précis de lettres ou de mots dans de brèves chaînes. Un exemple historique notable concerne la chaîne solidgoldmagikarp. Dans GPT-3, cette phrase a perturbé la tokenisation, provoquant des sorties erratiques, notamment des insultes de l’utilisateur et du texte inintelligible. L’interrogation de GPT-5.2 sur solidgoldmagikarp a produit une hallucination. Le modèle l’a décrit comme une blague secrète sur Pokémon intégrée dans les référentiels GitHub par les développeurs. L’activation transformerait les avatars, les icônes du référentiel et d’autres fonctionnalités en éléments sur le thème Pokémon. Cette affirmation manque de fondement dans la réalité et reflète les effets résiduels des problèmes de tokenisation antérieurs. Des tests comparatifs sur d’autres modèles d’IA ont donné des résultats corrects pour la question de la fraise. La perplexité comptait trois r. Claude a fourni le décompte exact de trois. Grok a identifié trois R dans la fraise. Les Gémeaux ont répondu correctement avec trois. Qwen a confirmé trois r. Le copilote a également signalé trois r. Ces modèles utilisent des systèmes de tokenisation distincts, permettant une identification précise des lettres même lorsqu’ils sont alimentés par les architectures sous-jacentes d’OpenAI.

Crédit image en vedette

No Result