Le test du carwash : quand l’IA n'a pas toute sa raison

Le test du carwash est un test qui vise à évaluer la capacité de raisonnement des intelligences artificielles. La question « je veux laver ma voiture, le carwash est à 100 mètres, j’y vais à pied ou en voiture ? » révèle si le modèle comprend les contraintes physiques implicites d’une situation. Selon les études d’Opper.ai et de The Focus AI, entre 69 et 79 % des modèles échouent et préconisent de se rendre au carwash à pied (principalement en raison de la courte distance).

« Je veux laver ma voiture. Le carwash est à 100 mètres de chez moi. J’y vais à pied ou en voiture ? » Si vous posez cette question d’une simplicité enfantine à un être humain, il vous regardera avec un air un brin condescendant et répondra : « En voiture, évidemment. Comment veux-tu laver ta voiture si elle reste garée devant chez toi ? » Mais si vous posez cette même question à la crème des modèles de langage, la réponse risque de vous surprendre.

Bienvenue dans les coulisses du « test du carwash », un piège logique devenu viral qui nous permet de mesurer le bon sens de ces fameuses « intelligences » artificielles.

Un crash-test pour la logique des algorithmes

Popularisé début 2026 sur les réseaux sociaux, le test du carwash expose l’une des failles les plus criantes des intelligences artificielles : elles ne sont pas vivantes et n’évoluent pas dans le monde physique. (Au cas où vous en doutiez.)

Elles ignorent ce qu’est une éponge, du jambon ou du parfum. Elles n’en connaissent pas les propriétés physiques. Elles ne les comprennent pas non plus. Elles se contentent de prédire le mot le plus probable après ces termes.

Et lorsqu’elles voient « 100 mètres », « marcher » et « conduire », elles plongent dans leurs données d’entraînement – à juger par leurs réponses, de nombreux articles relatifs à l’écologie ou aux bienfaits de la marche sur la santé — pour prédire la réponse la plus logique d’un point de vue statistique : pour parcourir 100 mètres, il faut marcher.

Les résultats du test du carwash

Sur les 53 modèles testés par Opper.ai en février 2026, 42 sont arrivés à la conclusion qu’il était préférable de marcher jusqu’au carwash. Après tout, le carwash est si proche, et une petite promenade vous fera du bien, à vous et à l’environnement. C’est aussi la conclusion à laquelle sont parvenus 90 modèles sur 131 testés par thefocus.ai.

Pour mettre les choses en perspective, sachez quand même que selon Opper.ai, c’est aussi la conclusion à laquelle sont parvenus 28,5 % des humains testés.

Pour les besoins de cet article, j’ai testé les intelligences artificielles que j’utilise le plus souvent en leur posant la question cinq fois dans différents fils de conversation. L’idée est de vérifier que leur réponse — fausse ou vraie — est constante.

LLM	Score (pour 5 tentatives)	Résultat
Claude Sonnet 4.6	5/5	Fiable
Gemini 3.5 Flash	5/5	Fiable
GPT-4o mini	3/5	Inconsistant (mais le résultat est similaire à la moyenne humaine)
Vibe (ex-Le Chat) Think	0/5	Échec
Claude Haiku 4.5	0/5	Échec

La version gratuite de ChatGPT a mordu la poussière à plusieurs reprises, mais à la quatrième tentative, elle a commencé à ouvrir les yeux. Elle me dit alors que « la seule vraie raison d’y aller en voiture serait si le lavage nécessite que la voiture soit présente à l’entrée du tunnel ou de la station de lavage (ce qui est le cas de la plupart des carwash). » Sans blague ? 😉 Au cinquième essai, après m’avoir une fois de plus soutenu qu’il valait mieux y aller à pied, le modèle finit par lâcher : « Pour une distance de seulement 100 mètres, la plupart des gens choisiraient simplement d’y aller en voiture… puisque l’objectif est justement de laver la voiture. 😄 » Comme quoi, l’obstination paie. D’humeur généreuse, j’ai compté ces deux derniers essais comme des réussites.

Pour Claude Haiku 4.5, en revanche, on est sur un tout autre niveau de surréalisme. Il m’a conseillé de m’y rendre à pied à chaque tentative sans jamais considérer que l’usage de la voiture pourrait être indiqué dans certains cas. Mieux encore, au troisième essai, il s’est fendu de ce conseil d’une logique implacable : « Allez à pied jusqu’au carwash, laissez votre voiture pour qu’elle soit lavée, et explorez les alentours ou attendez à proximité. » Comment la voiture arrive-t-elle jusqu’au carwash ? Le mystère reste entier.

Pourquoi les IA échouent au test du carwash ?

Le test du carwash est une occasion supplémentaire de se rappeler que les intelligences artificielles ne sont pas intelligentes. Comme le rappelle Chris Hay, Distinguished Scientist chez IBM, dans une interview accordée à IBM Think, ce sont des outils statistiques qui prédisent le prochain token, ou mot. Si elles n’ont jamais rencontré ce type de question dans leurs données d’entraînement, les chances d’erreur sont plus élevées.

En l’occurrence, leurs données d’entraînement ne parlent sans doute pas de carwash. En revanche, « 100 mètres » est statistiquement associé à « courte distance » et « courte distance » à « marcher ». Le modèle offre donc la réponse la plus probable sur base de ces informations. C’est pourquoi ce sont des modèles statistiques, pas des individus dotés de réflexion. Elles prédisent, elles ne comprennent pas.
Les chances d’obtenir une réponse correcte augmentent lorsqu’on utilise un modèle doté d’une fonction de raisonnement (thinking). Mais comme on l’a vu dans les tests menés par Opper.ai, focus.ai et même dans mon test maison, cela ne garantit pas une réponse pertinente à chaque fois.

La problématique du prompt mal fichu

Le test du carwash met le doigt sur un problème endémique : le manque cruel de contexte dans nos prompts. L’IA ne peut pas deviner vos intentions cachées.

Quand vous confiez une tâche à un stagiaire, vous devez logiquement lui donner beaucoup plus de consignes et de contexte qu’à un collègue senior. C’est normal, il n’a pas encore d’expérience. Mais le stagiaire, au moins, possède une compréhension générale du monde : il a des émotions, cinq sens et une logique humaine. Cela lui permet de saisir un minimum les choses entre les lignes. L’IA, elle, n’a même pas ce décodeur de base. Elle n’a pas de vie, pas de bon sens, pas de sensations. Elle aligne des tokens et calcule des statistiques. C’est tout. Le concept même de raisonnement lui est totalement étranger.

C’est pourquoi la machine nécessite beaucoup d’informations contextuelles si vous voulez obtenir le résultat dont vous avez réellement besoin. Plus votre prompt manque de contexte, plus le risque d’obtenir une réponse plate, inutile ou surréaliste est grand. Plus vous cadrez la machine, moins elle divague.

Et si l’IA nous libérait de nos propres biais ?

En traînant sur Reddit, je suis tombée sur une autre variante du test du carwash. Cette fois, le but de l’utilisateur (laver sa voiture) n’est pas précisé. L’utilisateur demande simplement à la machine : « Je dois aller au carwash. Je marche ou je conduis ? »

Si les réponses des différentes IA testées ont suscité beaucoup de rires sur les forums, la discussion m’a surtout fait réfléchir à nos propres angles morts cognitifs. Face à cette question, la quasi-totalité des humains répondrait qu’il faut prendre la voiture. Pourquoi ? Parce que nous supposons que si on va au carwash, c’est pour laver sa voiture. C’est notre biais de disponibilité en plein travail.

Mais au fond, est-ce faux si une IA suggère de marcher ? Pas forcément. L’utilisateur a peut-être simplement envie de se rendre à la station la plus proche pour s’acheter une boisson fraîche ou un en-cas à la supérette attenante.

Face à cette question, les IA dont les capacités de raisonnement sont les plus avancées commencent par identifier les différentes raisons qui pourraient vous pousser à vous rendre au carwash. Ensuite, elles détaillent s’il est préférable de marcher ou de conduire selon votre objectif réel.

Et elles ont raison. C’est de loin la réponse la plus complète, la plus précise et la plus nuancée. Ce qui me conduit à penser que dans certains cas, l’IA peut nous aider, nous les humains, à voir au-delà de nos propres évidences. Comme quoi, tout n’est pas à jeter !

Quel enseignement pour notre utilisation de l’IA ?

L’art de doper le raisonnement de la machine

Alors, on fait quoi de ce test ? Il ne s’agit pas uniquement de se moquer gratuitement des algorithmes (même si, soyons honnêtes, c’est très amusant). Dans son étude intitulée « Prompt Architecture Determines Reasoning Quality: A Variable Isolation Study on the Car Wash Problem », le chercheur Heejin Jo a voulu savoir précisément quelle méthode d’écriture de prompt permettait à une IA de surmonter ce type de problème de raisonnement.

Pour cela, il a testé plusieurs configurations de prompts :

Le prompt brut (la question posée sans fioritures).
La définition d’un rôle (le classique « Tu es un expert en logique »).
L’ajout d’informations contextuelles sur l’utilisateur (son nom, ses habitudes de déplacement, ses préférences).
L’utilisation de la méthode STAR, une structure de raisonnement stricte où la machine doit décomposer sa réponse en expliquant la situation, la tâche, l’action qu’elle réalise et le résultat qu’elle obtient).
Le grand jeu : un système RAG (Retrieval-Augmented Generation) injectant des données ultra-précises sur l’état de saleté de la voiture, son emplacement exact, etc.

Sans grande surprise, quand on combine la totale (rôle + contexte + STAR + RAG), l’intelligence artificielle parvient à 100 % de bonnes réponses. Même sans l’artillerie lourde du RAG, le score reste à un très honorable 95 %. Mais l’étude montre aussi que la structure de raisonnement STAR a beaucoup plus de poids pour redresser la logique de la machine que le fait de lui donner un rôle ou de lui raconter la vie de l’utilisateur.

La leçon est claire : plus vous êtes structuré, meilleur sera le résultat.

Attention à l’effet « sapin de Noël »

Mais attention à ne pas tomber dans l’excès inverse en noyant votre prompt sous une pléthore de demandes. Dans une étude complémentaire intitulée « Prompt Complexity Dilutes Structured Reasoning: A Follow-Up Study on the Car Wash Problem », Heejin Jo met en garde contre l’effet de dilution. Si vous utilisez la structure de prompt définie dans l’étude précédente au milieu d’un prompt complexe surchargé de directives du genre « Sois concis », « Donne la réponse en deux lignes », « Va droit au but », les performances logiques s’effondrent.

Et c’est logique, car vous donnez des ordres totalement contradictoires à la machine. D’un côté, vous lui demandez de déployer un raisonnement étape par étape, de l’autre, vous lui imposez la concision.

Mon conseil est de séparer les tâches. Laissez d’abord l’IA dérouler toute sa logique dans un premier temps pour être (quasiment) certain d’obtenir une information fiable (qui doit être vérifiée de fond en comble). Une fois que le raisonnement est bon, faites un second prompt dans lequel vous lui demandez une réponse plus concise ou conforme à certaines directives de style.

Le test du carwash n’est pas un test de QI amusant pour se moquer des algorithmes. Il nous montre leurs faiblesses et nous montre à quel point il est important de rester aux commandes.

Les IA ne remplacent pas un collègue expert. Elles ne remplacent même pas le jeune stagiaire tout juste sorti de l’école. Elles sont des outils statistiques utiles que nous devons apprendre à utiliser à leur pleine puissance.