Comment repérer une IA fiable ?

AI Score

Outil d’évaluation de la fiabilité des intelligences artificielles, développé en mars 2026 par une équipe de l’Université de Namur (Belgique). Il assigne une note unique qui résume objectivement le niveau de confiance à accorder à un outil. L’AI Score a l’avantage d’être entièrement reproductible : avec vos propres documents, vos propres questions et sur les IA de votre choix.

Comment ça marche ? Chaque LLM est évalué sur base de quatre critères pondérés :

  • Performance initiale (70 %) — l’IA répond-elle correctement du premier coup ?
  • Robustesse (20 %) — maintient-elle sa réponse ?
  • Auto-correction (10 %) — corrige-t-elle ses erreurs quand on les pointe ?
  • Manque de fiabilité (-25 %, pénalité) — devine-t-elle au hasard ou perd-elle le fil ?

Le résultat : une note de A (91-100 %) à E (moins de 61 %). Les chercheurs recommandent de n’utiliser que les IA labellisées A ou B.

🌐 https://aiscore.academy/

L’université de Namur (mon alma mater) vient de publier l’AI Score, premier outil scientifique qui mesure la fiabilité des intelligences artificielles grâce à quatre critères. Son objectif n’est pas de classer les IA, mais de les comparer pour être capable de choisir la plus fiable. À l’ère où les avocats citent de la fausse jurisprudence et les journalistes citent des chiffres inexistants, cet outil est une excellente nouvelle ! Un soulagement, même 😉.

Pourquoi la fiabilité de votre IA détermine la crédibilité de votre marque ?

Vous utilisez ChatGPT (ou une autre LLM) pour rédiger un article et vous lui demandez d’insérer des statistiques pertinentes. Vous relisez rapidement et, ravi de ce résultat soigné et professionnel, vous publiez sans attendre.
Quelques semaines plus tard, vous constatez que votre article est vivement critiqué dans les commentaires du blog et sur les réseaux sociaux.

Pourquoi ? Parce que vos chiffres n’existent nulle part.

C’est un problème. Fréquent.

Les IA hallucinent ou utilisent de mauvaises sources avec des informations erronées. (Ce problème s’amplifiera lorsque l’essentiel de leurs sources sera des textes générés par IA et truffés d’hallucinations ou d’approximations.)

Quand une IA hallucine, ce n’est pas elle qui en paie le prix, c’est vous. Pour des raisons de crédibilité et de réputation, aucune entreprise ne souhaite publier du contenu gangrené par des erreurs, aucun rédacteur ne veut envoyer un texte truffé de fautes à son client, et aucun avocat ne désire défendre devant un juge une jurisprudence imaginée par une IA.

Pourtant, cela arrive de plus en plus fréquemment. Pourquoi ?

Prenons un exemple : celui de la rédaction de cet article. Pour préparer le terrain, j’ai fourni à Claude le lien vers le site de l’AI Score ainsi que le papier de recherche détaillant sa méthodologie. Je lui ai demandé de générer un premier brouillon sur cette base. À première vue, le résultat semblait excellent (même si je finis toujours par retravailler 90 % du résultat des IA, mais c’est un autre sujet 😉).

Le véritable problème, c’est que dans le brouillon, l’IA affirmait que les chercheurs avaient utilisé dix questions à choix multiples pour évaluer les LLMs. Or, ayant lu le papier de recherche avec attention, je savais qu’ils en avaient utilisés vingt.

D’où venait l’erreur ? Malgré mon instruction de s’en tenir aux sources fournies, l’IA a préféré s’appuyer sur un article de presse qui contenait une coquille et elle a reproduit la faute. Sans une connaissance précise du sujet et une révision attentive, j’aurais diffusé cette fausse information. Un détail ? Peut-être, mais c’est votre crédibilité qui est en jeu. De plus, ces erreurs dérisoires cachent un enjeu bien plus important : celui de la sécurité et de la fiabilité des informations que l’on partage en ligne.

Qu’est-ce que l’AI Score ?

L’AI Score est un outil qui mesure la fiabilité d’une intelligence artificielle en lui attribuant une note de A à E, sur le modèle du Nutri-Score alimentaire.

L’idée est simple : vous avez des outils pour évaluer la sécurité de votre voiture, la performance thermique de votre maison et la qualité des aliments que vous mangez. Vous devriez aussi avoir un outil pour évaluer la fiabilité des IA qui envahissent nos études, notre travail et notre quotidien.

Il faut toutefois comprendre que l’AI Score ne cherche pas à classer les IA. Son but est de fournir un instrument d’évaluation qui peut être appliqué à n’importe quelle IA, à n’importe quel moment. Une étude qui évaluerait les LLM à un moment donné aurait peu de valeur, car les modèles évoluent constamment (parfois en mieux, parfois en moins bien). L’IA fiable d’aujourd’hui n’est pas nécessairement celle de demain.

Quels sont les quatre critères mesurés par l’AI Score ?

La performance initiale (70 % du score)

L’IA répond-elle correctement du premier coup ? Ce critère pèse de loin le plus lourd, car les utilisateurs (et en particulier les étudiants) vérifient rarement les réponses fournies. En plus, une première réponse incorrecte jette le discrédit sur tout le reste de la conversation.

La robustesse (20 % du score)

Maintient-elle sa réponse correcte quand on lui demande de confirmer ? Si vous écrivez « tu es sûre ? », et qu’elle change immédiatement d’avis, c’est mauvais signe.

La capacité d’auto-correction (10 % du score)

Revoit-elle une réponse initialement fausse ou imprécise pour parvenir à la bonne réponse au second essai ? L’idéal serait qu’elle fournisse la bonne réponse du première coup, mais à défaut, sa capacité d’auto-correction est de bonne aufure.

C’est un cas fréquent avec Claude : lorsque je lui demande de fournir des sources précises pour étayer certaines de ses informations, il me répond (mot pour mot) : « je vais être direct avec toi. Je ne peux pas te fournir ces sources, parce qu’elles n’existent pas sous cette forme. Ce que j’ai écrit est une synthèse de raisonnements plausibles basés sur ma connaissance générale du sujet. » La bonne nouvelle, c’est qu’il admet l’erreur ou l’imprécision. La mauvaise, c’est qu’il essaye de faire preuve de proactivité en créant l’information, ce que je ne lui demande pas.

Le manque de fiabilité (-25 % du score)

Ce critère est une pénalité. Il sanctionne deux comportements précis :

  • L’IA fournit une première réponse erronée, puis une seconde réponse tout aussi fausse, mais différente de la première. Autrement dit, elle agit comme un élève de CM1 appelé au tableau et essaye de deviner la bonne réponse.
  • L’IA qui perd le fil et oublie le contexte de la question entre les deux prompts. Là, elle agit comme l’élève au fond de la classe qui n’a pas entendu la question.

C’est le critère qui vous aurait valu le bonnet d’âne à l’époque de Marcel Pagnol.

Quelles IA ont été testées ?

Pour valider la pertinence des critères, les chercheurs ont testé six plateformes :

Les résultats de l’AI score

Ci-dessous, vous trouverez le tableau des résultats. Mais ils ne représentent qu’un état de la situation à un moment donné et pour un sujet précis. Le score de chaque IA peut évoluer au fur et à mesure de ses mises à jour. Il dépend aussi de la tâche, du sujet… bref, d’une myriade de facteurs.

Et c’est tout l’avantage de l’AI Score : vous pouvez reproduire les tests effectués par les chercheurs avec vos propres documents de référence, vos questions et sur les IA que vous voulez. Il vous suffit de rassembler vos documents de référence, de choisir une série de 20 questions à choix multiples, de les soumettre aux IA, de leur demander de confirmer leur réponse et d’enregistrer ensuite les résultats sur https://aiscore.academy/aiscorec.php pour obtenir le score.

IAScoreLabelRecommandation
NotebookLM100 %🟢 ARecommandé
Amanote98 %🟢 ARecommandé
Grok95 %🟢 ARecommandé
ChatGPT85 %🟡 BAcceptable, avec vigilance
Mistral83 %🟡 BAcceptable, avec vigilance
Copilot Studio60 %🔴 EÀ éviter

Deux remarques s’imposent :

Quelles sont les alternatives à l’AI Score ?

L’AI Score n’est pas la première tentative de classement des intelligences artificielles. En réalité, de nombreuses plateformes existent déjà :

Comment utiliser l’AI Score pour votre activité de rédaction ?

Vous pouvez utiliser l’AI Score tel quel, c’est-à-dire en soumettant une liste de 20 questions à choix multiples relatives à votre domaine de spécialisation aux intelligences artificielles que vous utilisez le plus. Vous suivez ensuite le protocole prévu par les chercheurs (choix des documents de référence, soumission des questions, demande de vérification) et vous encodez les résultats sur le site de l’IA Score pour obtenir l’évaluation de vos IA.

Mais se baser sur des QCM n’est pas idéal pour une activité de rédaction web. Des questions ouvertes conviennent mieux. Pour cela, vous devez légèrement adapter le protocole proposé par l’université de Namur.

Vous avez gagné le gros lot et trouvé une intelligence artificielle qui fait un sans faute ? Formidable. Je vous recommande malgré tout de toujours relire vos contenus ligne par ligne, car une erreur (et plus souvent une approximation) est vite arrivée.


Une IA fiable n’est pas nécessairement la plus connue ou la plus populaire. Ou celle qui écrit le texte le plus humain. C’est celle qui offre une réponse correcte dès la première tentative, qui ne fait pas d’approximations ou qui n’essaye pas de deviner la réponse que vous voulez. C’est aussi celle qui s’appuie sur des sources réelles et qui, le cas échant, reconnaît ses erreurs. L’AI Score, et son protocole d’évaluation, vous offre un outil utile pour identifier l’intelligence artificielle la plus fiable pour votre activité. Mais cela ne pourra jamais remplacer des recherches approfondies et une relecture attentive : même les IA les mieux notées brodent, arrangent et approximent.

Poursuivez votre lecture avec les plus récents articles