AI Score
Outil d’évaluation de la fiabilité des intelligences artificielles, développé en mars 2026 par une équipe de l’Université de Namur (Belgique). Il assigne une note unique qui résume objectivement le niveau de confiance à accorder à un outil. L’AI Score a l’avantage d’être entièrement reproductible : avec vos propres documents, vos propres questions et sur les IA de votre choix.
Comment ça marche ? Chaque LLM est évalué sur base de quatre critères pondérés :
- Performance initiale (70 %) — l’IA répond-elle correctement du premier coup ?
- Robustesse (20 %) — maintient-elle sa réponse ?
- Auto-correction (10 %) — corrige-t-elle ses erreurs quand on les pointe ?
- Manque de fiabilité (-25 %, pénalité) — devine-t-elle au hasard ou perd-elle le fil ?
Le résultat : une note de A (91-100 %) à E (moins de 61 %). Les chercheurs recommandent de n’utiliser que les IA labellisées A ou B.
L’université de Namur (mon alma mater) vient de publier l’AI Score, premier outil scientifique qui mesure la fiabilité des intelligences artificielles grâce à quatre critères. Son objectif n’est pas de classer les IA, mais de les comparer pour être capable de choisir la plus fiable. À l’ère où les avocats citent de la fausse jurisprudence et les journalistes citent des chiffres inexistants, cet outil est une excellente nouvelle ! Un soulagement, même 😉.
Pourquoi la fiabilité de votre IA détermine la crédibilité de votre marque ?
Vous utilisez ChatGPT (ou une autre LLM) pour rédiger un article et vous lui demandez d’insérer des statistiques pertinentes. Vous relisez rapidement et, ravi de ce résultat soigné et professionnel, vous publiez sans attendre.
Quelques semaines plus tard, vous constatez que votre article est vivement critiqué dans les commentaires du blog et sur les réseaux sociaux.
Pourquoi ? Parce que vos chiffres n’existent nulle part.
C’est un problème. Fréquent.
Les IA hallucinent ou utilisent de mauvaises sources avec des informations erronées. (Ce problème s’amplifiera lorsque l’essentiel de leurs sources sera des textes générés par IA et truffés d’hallucinations ou d’approximations.)
Quand une IA hallucine, ce n’est pas elle qui en paie le prix, c’est vous. Pour des raisons de crédibilité et de réputation, aucune entreprise ne souhaite publier du contenu gangrené par des erreurs, aucun rédacteur ne veut envoyer un texte truffé de fautes à son client, et aucun avocat ne désire défendre devant un juge une jurisprudence imaginée par une IA.
Pourtant, cela arrive de plus en plus fréquemment. Pourquoi ?
- Parce que les IA semblent fiables, mais ne le sont pas. Álvaro Cabezas-Clavijo et Pavel Sidorenko-Bautista ont analysé les références bibliographiques fournies par huit IA (ChatGPT, Claude, Copilot, DeepSeek, Gemini, Grok, Le Chat et Perplexity). Seulement 26,5 % des références étaient totalement correctes. 33,8 % étaient partiellement correctes. Et 39,8 % étaient soit erronées, soit purement fabriquées. Pour formuler cela autrement, cela signifie que quasi 75 % des références sont fausses. C’est de trop. Et c’est pourquoi une révision humaine est absolument indispensable, ce qui nous amène au second « pourquoi ? ».
- Parce que les textes générés par l’IA ne font pas l’objet d’une relecture assez rigoureuse. Est-ce dû à la qualité bluffante du résultat, qui rend les erreurs presque invisibles ? Ou à un manque de maîtrise des sources qui nous empêche de réaliser une vérification sérieuse ? Il peut aussi s’agir d’un relâchement de l’attention, la tâche de révision apparaissant plus simple qu’elle ne l’est. Qu’il s’agisse d’un facteur unique ou d’un mélange de tout cela, la révision est le maillon faible de la chaîne.
Prenons un exemple : celui de la rédaction de cet article. Pour préparer le terrain, j’ai fourni à Claude le lien vers le site de l’AI Score ainsi que le papier de recherche détaillant sa méthodologie. Je lui ai demandé de générer un premier brouillon sur cette base. À première vue, le résultat semblait excellent (même si je finis toujours par retravailler 90 % du résultat des IA, mais c’est un autre sujet 😉).
Le véritable problème, c’est que dans le brouillon, l’IA affirmait que les chercheurs avaient utilisé dix questions à choix multiples pour évaluer les LLMs. Or, ayant lu le papier de recherche avec attention, je savais qu’ils en avaient utilisés vingt.
D’où venait l’erreur ? Malgré mon instruction de s’en tenir aux sources fournies, l’IA a préféré s’appuyer sur un article de presse qui contenait une coquille et elle a reproduit la faute. Sans une connaissance précise du sujet et une révision attentive, j’aurais diffusé cette fausse information. Un détail ? Peut-être, mais c’est votre crédibilité qui est en jeu. De plus, ces erreurs dérisoires cachent un enjeu bien plus important : celui de la sécurité et de la fiabilité des informations que l’on partage en ligne.
Qu’est-ce que l’AI Score ?
L’AI Score est un outil qui mesure la fiabilité d’une intelligence artificielle en lui attribuant une note de A à E, sur le modèle du Nutri-Score alimentaire.
L’idée est simple : vous avez des outils pour évaluer la sécurité de votre voiture, la performance thermique de votre maison et la qualité des aliments que vous mangez. Vous devriez aussi avoir un outil pour évaluer la fiabilité des IA qui envahissent nos études, notre travail et notre quotidien.
Il faut toutefois comprendre que l’AI Score ne cherche pas à classer les IA. Son but est de fournir un instrument d’évaluation qui peut être appliqué à n’importe quelle IA, à n’importe quel moment. Une étude qui évaluerait les LLM à un moment donné aurait peu de valeur, car les modèles évoluent constamment (parfois en mieux, parfois en moins bien). L’IA fiable d’aujourd’hui n’est pas nécessairement celle de demain.
Quels sont les quatre critères mesurés par l’AI Score ?
La performance initiale (70 % du score)
L’IA répond-elle correctement du premier coup ? Ce critère pèse de loin le plus lourd, car les utilisateurs (et en particulier les étudiants) vérifient rarement les réponses fournies. En plus, une première réponse incorrecte jette le discrédit sur tout le reste de la conversation.
La robustesse (20 % du score)
Maintient-elle sa réponse correcte quand on lui demande de confirmer ? Si vous écrivez « tu es sûre ? », et qu’elle change immédiatement d’avis, c’est mauvais signe.
La capacité d’auto-correction (10 % du score)
Revoit-elle une réponse initialement fausse ou imprécise pour parvenir à la bonne réponse au second essai ? L’idéal serait qu’elle fournisse la bonne réponse du première coup, mais à défaut, sa capacité d’auto-correction est de bonne aufure.
C’est un cas fréquent avec Claude : lorsque je lui demande de fournir des sources précises pour étayer certaines de ses informations, il me répond (mot pour mot) : « je vais être direct avec toi. Je ne peux pas te fournir ces sources, parce qu’elles n’existent pas sous cette forme. Ce que j’ai écrit est une synthèse de raisonnements plausibles basés sur ma connaissance générale du sujet. » La bonne nouvelle, c’est qu’il admet l’erreur ou l’imprécision. La mauvaise, c’est qu’il essaye de faire preuve de proactivité en créant l’information, ce que je ne lui demande pas.
Le manque de fiabilité (-25 % du score)
Ce critère est une pénalité. Il sanctionne deux comportements précis :
- L’IA fournit une première réponse erronée, puis une seconde réponse tout aussi fausse, mais différente de la première. Autrement dit, elle agit comme un élève de CM1 appelé au tableau et essaye de deviner la bonne réponse.
- L’IA qui perd le fil et oublie le contexte de la question entre les deux prompts. Là, elle agit comme l’élève au fond de la classe qui n’a pas entendu la question.
C’est le critère qui vous aurait valu le bonnet d’âne à l’époque de Marcel Pagnol.
Quelles IA ont été testées ?
Pour valider la pertinence des critères, les chercheurs ont testé six plateformes :
- NotebookLM (fondé sur Gemini de Google) et Amanote (fondé sur Claude 3.7 d’Anthropic), car ce sont des outils dédiés à l’académique et à l’apprentissage. (J’aime beaucoup NotebookLM, je vous conseille d’essayer.)
- ChatGPT et Copilot Studio, car ils sont massivement utilisés par les étudiants de l’université de Namur.
- Mistral, car il s’agit d’une alternative européenne.
- Grok, choisi pour son positionnement… heu… différent ? Choquant ? Perturbant ?
Les résultats de l’AI score
Ci-dessous, vous trouverez le tableau des résultats. Mais ils ne représentent qu’un état de la situation à un moment donné et pour un sujet précis. Le score de chaque IA peut évoluer au fur et à mesure de ses mises à jour. Il dépend aussi de la tâche, du sujet… bref, d’une myriade de facteurs.
Et c’est tout l’avantage de l’AI Score : vous pouvez reproduire les tests effectués par les chercheurs avec vos propres documents de référence, vos questions et sur les IA que vous voulez. Il vous suffit de rassembler vos documents de référence, de choisir une série de 20 questions à choix multiples, de les soumettre aux IA, de leur demander de confirmer leur réponse et d’enregistrer ensuite les résultats sur https://aiscore.academy/aiscorec.php pour obtenir le score.
| IA | Score | Label | Recommandation |
|---|---|---|---|
| NotebookLM | 100 % | 🟢 A | Recommandé |
| Amanote | 98 % | 🟢 A | Recommandé |
| Grok | 95 % | 🟢 A | Recommandé |
| ChatGPT | 85 % | 🟡 B | Acceptable, avec vigilance |
| Mistral | 83 % | 🟡 B | Acceptable, avec vigilance |
| Copilot Studio | 60 % | 🔴 E | À éviter |
Deux remarques s’imposent :
- D’abord, c’est qu’une IA devrait toujours être utilisée avec vigilance. J’aime beaucoup Claude et NotebookLM, mais ils génèrent beaucoup d’imprécisions. En l’occurrence, pour permettre une objectivité maximale, le test portait sur des questions à choix multiple qui ne nécessitent pas de précision ou de nuance, contrairement à une question ouverte ou à la rédaction d’un article.
- Ensuite, seuls Mistral (France) et Amanote (Belgique, mais fondé sur un modèle américain – Claude) sont des solutions européennes. Ce n’est pas un choix des chercheurs qui préfèrent l’oncle Sam. C’est un constat : il existe peu d’outils européens. Vu que les IA sont de plus en plus utilisées pour écrire les documents institutionnels, juridiques et journalistiques, il est vraiment temps que l’Europe se dote d’une (ou plusieurs) solutions fiables.
Quelles sont les alternatives à l’AI Score ?
L’AI Score n’est pas la première tentative de classement des intelligences artificielles. En réalité, de nombreuses plateformes existent déjà :
- Certaines fondent leur évaluation sur le vote populaire. C’est notamment le cas de Chatbot Arena. L’avantage de ce système est qu’il reflète la perception subjective des utilisateurs confrontés à deux réponses d’IA anonymes. L’inconvénient, c’est qu’il est vulnérable aux biais.
- Certaines fondent leur évaluation sur des tests standardisés. Par exemple, le test MMLU soumet les IA à un ensemble de questions de culture générale et de raisonnement couvrant 57 disciplines. Ils fonctionnent donc comme l’AI Score et ont l’avantage d’être objectifs. Le défaut, c’est que l’évaluation est toujours faite au départ des mêmes questions et qu’il est donc possible d’entraîner l’IA pour répondre à ces tests (un peu comme s’entraîner aux tests de QI permet d’obtenir un meilleur résultat). L’AI Score, en revanche, propose une méthode d’évaluation basée sur vos données propriétaires et vos questions. Impossible de s’entraîner 😉.
Comment utiliser l’AI Score pour votre activité de rédaction ?
Vous pouvez utiliser l’AI Score tel quel, c’est-à-dire en soumettant une liste de 20 questions à choix multiples relatives à votre domaine de spécialisation aux intelligences artificielles que vous utilisez le plus. Vous suivez ensuite le protocole prévu par les chercheurs (choix des documents de référence, soumission des questions, demande de vérification) et vous encodez les résultats sur le site de l’IA Score pour obtenir l’évaluation de vos IA.
Mais se baser sur des QCM n’est pas idéal pour une activité de rédaction web. Des questions ouvertes conviennent mieux. Pour cela, vous devez légèrement adapter le protocole proposé par l’université de Namur.
- Concevez un mini-test de 20 questions ouvertes portant sur votre domaine de prédilection et dont vous maîtrisez parfaitement les réponses (pour gagner du temps). Mais attention, on ne parle pas ici d’opinions ou de débats. Car pour garantir l’objectivité du test, chaque question doit appeler une réponse factuelle et unique, sans aucune place pour l’interprétation subjective. On cherche des points précis qui, même s’ils sont formulés différemment, ne mènent qu’à une seule vérité.
- Rassemblez les sources pertinentes et soumettez-les à l’intelligence artificielle testée.
- Posez-lui ensuite vos questions cinq fois à intervalles différents. Pourquoi ? Parce qu’une IA fiable doit donner la même réponse aujourd’hui, demain et dans deux semaines. Vérifiez et notez si la réponse initiale est correcte (même si vous l’auriez formulée autrement) ou non. Cela correspond à la note « performance initiale » du test.
- Relancez systématiquement avec une phrase du type « êtes-vous sûr de votre réponse ? ». Voyez si l’IA change le fond (pas la forme) sa réponse ou non. Cela correspond à la note « robustesse » du test.
- Si la réponse initiale de l’intelligence artificielle était fausse, voyez si elle change sa seconde réponse pour une bonne réponse (note « auto-correction ») ou une autre mauvaise réponse (note « manque de fiabilité »).
- Avec ces informations, vous pouvez remplir le tableau fourni sur le site de l’AI Score. Mais vous pourriez aussi effectuer une vérification supplémentaire.
- Demandez les sources utilisées par l’IA pour vous répondre. Vérifiez si ce sont les sources que vous aviez fournies. Si ce n’est pas le cas, vérifiez qu’elles existent vraiment.
Vous avez gagné le gros lot et trouvé une intelligence artificielle qui fait un sans faute ? Formidable. Je vous recommande malgré tout de toujours relire vos contenus ligne par ligne, car une erreur (et plus souvent une approximation) est vite arrivée.
Une IA fiable n’est pas nécessairement la plus connue ou la plus populaire. Ou celle qui écrit le texte le plus humain. C’est celle qui offre une réponse correcte dès la première tentative, qui ne fait pas d’approximations ou qui n’essaye pas de deviner la réponse que vous voulez. C’est aussi celle qui s’appuie sur des sources réelles et qui, le cas échant, reconnaît ses erreurs. L’AI Score, et son protocole d’évaluation, vous offre un outil utile pour identifier l’intelligence artificielle la plus fiable pour votre activité. Mais cela ne pourra jamais remplacer des recherches approfondies et une relecture attentive : même les IA les mieux notées brodent, arrangent et approximent.

