Lisible ou compréhensible ? Le point sur les formules de lisibilité

Une formule de lisibilité (Flesch, Gunning Fog, Coleman-Liau) est un calcul statistique qui évalue la difficulté de lecture d’un texte à partir de critères comme la longueur des phrases et des mots. Elle ne mesure toutefois pas la compréhensibilité réelle, qui dépend aussi de la structure des idées, du niveau d’abstraction et des connaissances préalables du lecteur. Un texte composé de mots courts peut rester incompréhensible si ses concepts sont mal expliqués.

Ils s’appellent Flesch, Kincaid, Gunning, Coleman ou Liau. Ils sont linguistes, mathématiciens ou scientifiques. Ils ont travaillé pour l’éducation ou l’armée. Et tous les jours, ils imposent une discipline de fer aux rédacteurs du monde entier. Pourquoi ? Parce qu’ils ont créé les formules de lisibilité les plus utilisées. Vous les voyez dans les statistiques de votre traitement de texte, de votre correcteur orthographique et même certaines extensions de votre CMS (Content Management System). Précurseurs du langage clair, ces formules de lisibilité sont-elles encore pertinentes ? L’ont-elles jamais été ? Je fais le point dans cet article.

Quelles sont les principales formules de lisibilité ?

Flesch Reading ease et Flesch-Kincaid

FRE=206,835−(1,015×ASL)−(84,6×ASW)

ASL = Longueur moyenne des phrases = nombre de mots ÷ nombre de phrases
ASW = Nombre moyen de syllabes par mot = nombre de syllabes ÷ nombre de mots

La formule de lisibilité Flesch (Flesch Reading Ease) a été développée par Rudolf Flesch en 1948 pour améliorer la lisibilité des journaux. J. Peter Kincaid l’a ensuite ajustée en 1975 pour créer le niveau de lecture « Flesch-Kincaid » (Flesch-Kincaid Grade Level). Cette dernière utilise les mêmes critères que la formule d’origine, mais avec des pondérations différentes. Pour vous donner une idée, la formule Flesch-Kincaid est (0,39×LMP)+(11,8×NSM)−15,59.

Il n’existe donc pas un, mais deux tests de lisibilité :

La formule de lisibilité Flesch attribue un score de lisibilité au texte. Plus ce score est élevé, plus le texte est facile à lire.
Le niveau de lecture « Flesch-Kincaid » estime le niveau scolaire nécessaire pour comprendre un texte. Les textes les plus complexes obtiennent donc un résultat élevé.

Les deux tests sont basés sur une pondération de deux facteurs :

la longueur moyenne des phrases (en mots) ;
la longueur moyenne des mots (en syllabes).

Petite précision qui a son importance : Kincaid a mis au point son niveau de lecture en 1975 pour l’US Navy, afin d’évaluer la difficulté des manuels techniques de l’armée américaine. Autrement dit, un outil pensé pour des marins anglophones, que l’on applique aujourd’hui à vos articles de blog en français. On y reviendra.

Dans les années 40, la formule de lisibilité est une petite révolution. En effet, la littérature du XIXe et du début du XXe siècle n’est pas la plus digeste. Les phrases sont longues. Les mots, compliqués. À cette époque, un simple raccourcissement peut avoir un effet grandiose sur la lisibilité d’un contenu. Mais est-ce encore suffisant ? Un texte composé de mots et de phrases courtes est-il lisible ? Et compréhensible ?

Gunning Fog

Fog=0,4×[ASL+100×(mots complexes/total des mots)]

Créée en 1952, la formule de Gunning (ou Gunning Fog Index) permet d’évaluer le niveau de difficulté d’un écrit. Plus précisément, elle identifie le nombre d’années d’étude nécessaires pour le comprendre.

Pour y parvenir, deux facteurs sont pris en compte :

le nombre moyen de mots par phrase, un facteur en commun avec la formule de Flesch-Kincaid ;
le pourcentage de mots complexes.

Selon l’auteur de la formule, un mot complexe est tout mot de 3 syllabes ou plus, à l’exception des noms propres, du jargon et des mots composés. Et cela a du sens dans le cadre de l’éducation et de l’apprentissage d’une langue. Un enfant apprenant à lire peut buter davantage sur les mots les plus longs.

Mais cette formule n’est pas représentative de la difficulté d’un texte pour une personne ayant terminé l’enseignement élémentaire. En effet, de nombreux mots de 3 syllabes ou plus font partie du langage courant et n’occasionnent aucune difficulté de lecture spécifique. Pensez à des mots tels que « possible », « étagère » ou « ratatouille ». La longueur d’un mot n’est pas représentative de sa complexité.

Flesch–Kandel-Moles

FREfr=207−(1,015×ASL)−(73,6×ASW)

En 1958, L. Kandel et A. Moles constatent que la formule développée par Flesch n’est pas adaptée à la langue française. En moyenne, les mots français sont plus longs et contiennent plus de syllables, ce qui a pour conséquence qu’un texte écrit en français est jugé plus durement q’un texte écrit en anglais lorsque l’on applique la formule de Flesch.

L. Kandel et A. Moles conservent donc le principe de la formule d’origine (la longueur des phrases et le nombre de syllabes par mot), mais ils en ajustent les coefficients. Cette adaptation francophone est restée relativement confidentielle, mais vous pouvez l’utiliser pour tester vos textes sur readability.ch.

Kandel et Moles ne sont pas les seuls à s’être penchés sur l’application des formules de lisibilité au français. Cinq ans plus tard, Gilbert De Landsheere reprend le chantier, et son diagnostic est plus sévère. Le problème, selon lui, n’est pas seulement une affaire de coefficients. La formule de Flesch pèse lourdement le nombre de syllabes ; or le français en aligne naturellement plus que l’anglais. Le français est donc pénalisé, non parce qu’il est plus difficile, mais parce que l’outil est mal réglé pour lui. Gilbert De Landsheere est catégorique : les formules développées pour l’anglais ne conviennent pas pour le français, malgré des ajustements. Il va plus loin et postule qu’une équipe multidisciplinaire est nécessaire pour parvenir à une formule réellement adaptée au français. Pour lui, la forme (la longueur ou le nombre de mots) ne suffit pas à identifier un texte lisible.

Henry

En 1975, sous la direction de Gilbert De Landsheere, Georges Henry développe la première formule de lisibilité pour la langue française (Comment mesurer la lisibilité, Labor / Nathan, 1975). Ou plutôt, il en développe trois.

Comme Gilbert De Landsheere avant lui, Georges Henry estime que la difficulté d’un texte ne dépend pas uniquement de sa forme (longueur des mots et des phrases). Elle dépend aussi de la familiarité du vocabulaire. À l’issue de ses recherches, il développe trois formules dont l’utilisation dépend du contexte (la plus simple étant utilisée en FLE, par exemple). Elles sont basées sur les variables suivantes :

La longueur moyenne des phrases (comme Flesch)
Le pourcentage de mots non courants, c’est-à-dire de mots absents de la liste du français fondamental de Georges Gougenheim
La proportion de mots-outils (conjonctions de coordination, adverbes, etc.) et de ponctuations fortes (point, point d’interrogation, point d’exclamation, points de suspension)
Le pourcentage de pronoms personnels de dialogue
Le pourcentage d’indicateurs de dialogue
La proportion de mots concrets
La variété du vocabulaire employé

Les travaux de Georges Henry sont surtout utilisés pour le français langue étrangère, mais leur portée est plus large : c’est le premier chercheur à faire entrer le vocabulaire dans l’équation. Pour la première fois, une formule essaie de s’approcher du sens, là où Flesch ne voyait que des syllabes. On progresse.

Coleman-Liau

CLI=0,0588×L−0,296×S−15,8

L = nombre moyen de lettres pour 100 mots
S = nombre moyen de phrases pour 100 mots

Développée en 1975 aux USA, la formule Coleman-Liau cherche aussi à évaluer la complexité d’un texte. Elle se distingue des autres formules par une évaluation du nombre de caractères, et non du nombre de syllabes.

Ainsi, l’évaluation se base sur les facteurs suivants :

le nombre moyen de lettres pour 100 mots ;
le nombre moyen de phrases pour 100 mots.

Selon cette formule, un score élevé révèle un texte difficile à déchiffrer. Mais une fois encore, il s’agit de statistiques. À elles seules, elles sont incapables d’évaluer la complexité réelle d’un texte.

Dès lors, devez-vous vous préoccuper de scores de lisibilité élevés ? Signifient-ils que vos textes sont trop complexes ?

L’efficacité linguistique de Richaudeau

R = [(S x P)/M]

R : efficacité linguistique ;
P : coefficient de pondération dépendant de la qualité du lecteur et du type de phrase
M : nombre total de mots dans la phrase
S : nombre de mots mémorisés

Thomas François, Les apports du traitement automatique du langage à la lisibilité du français langue étrangère, Thèse, 2011-2012, UCL

C’est ici que les choses deviennent vraiment intéressantes. Un peu confuses aussi. Mais intéressantes. En 1973, François Richaudeau développe une première formule de lisibilité dont le critère principal est le taux de mots retenus après la lecture. Selon lui, ce n’est pas la longueur brute d’une phrase qui compte. Une phrase longue mais bien segmentée se lit et se retient mieux qu’une phrase courte, mais syntaxiquement tordue.

Il ne s’arrête pas là. En 1976, il critique les formules de lisibilité classiques dont le résultat dépend trop, selon lui, de la redondance d’un texte. Attention: il n’a rien contre ces formules ensoi. Il reconnaît qu’elle peuvent identifier des problèmes dans un texte. Mais elles ne devraient pas dicter la manière dont on écrit.

Il propose alors, en 1978, un concept neuf : l’efficacité linguistique, qu’il distingue de la lisibilité. Et cette distinction est décisive. Un texte peut être lisible parce qu’il est redondant et donc peu porteur d’information. Un texte efficace, lui, apporte toujours du nouveau et marque l’esprit du lecteur. Son critère principal reste le nombre de mots qu’une phrase laisse en mémoire à court terme, mais il fait intervenir des critères qui rappelent les formules de lisibilité traditionnelles, dont :

Le nombre de mots-outils
Le nombre de répétitions
Le nombre de termes d’énumération

Sa formule n’a pas connu un énorme succès, sans doute parce qu’elle est moins commode à appliquer. Mais son idée, elle, est restée. Et c’est elle qui nous amène à la vraie question.

Quelles sont les limites des formules de lisibilité ?

Pour planter le décor, je partage avec vous les définitions de « lisible » et « compréhensible » proposées par Antidote :

Lisible : facile à déchiffrer, à lire.
Compréhensible : qui peut se comprendre.

Certes, vous voulez que votre texte soit lisible. Et les formules de lisibilité traditionnelles répondent à ce besoin grâce à une analyse statistique de vos écrits.

Mais vous souhaitez aussi être compris. Et c’est là que l’histoire qu’on vient de parcourir devient éclairante.

Flesch comptait deux choses : la longueur des phrases et celle des mots. De Landsheere a montré que ce comptage n’était pas adapté au français. Henry a ajouté le critère du vocabulaire, parce que la forme ne suffit pas à évaluer la complexité d’un texte. Richaudeau, lui, a fini par changer de question : il ne s’agit plus de mesurer si un texte est facile, mais s’il apprend quelque chose au lecteur et s’il peut être facilement retenu. Henry et Richaudeau ont donc le mérite de faire appel à des critères moins mathématiques. Le problème, c’est que cela rend leurs formules plus difficiles à appliquer. C’est sans doute ce qui explique qu’aujourd’hui, la formule de Flesch (ou une de ses variantes) reste la référence mondiale, peu importe le langage et la culture.

Et c’est un problème. Une évaluation statistique « simple » ne suffit pas pour évaluer un système aussi complexe que le langage. La vie serait facile si la complexité du texte dépendait uniquement de la longueur des mots et des phrases. Malheureusement, d’autres facteurs interviennent, et en particulier :

Le respect des règles grammaticales, orthographiques et typographiques.
La popularité réelle des termes employés. Le mot « abscons » devrait être privilégié pour satisfaire les formules, même si « incompréhensible », pourtant plus long, est mieux compris du grand public. C’est l’un des critères introduits par Georges Henry.
La structure et la cohérence générale du texte. Certains contenus brillent par leur absence de logique, même avec des mots simples. C’est, mot pour mot, l’efficacité linguistique de Richaudeau : un texte peut être parfaitement lisible et ne rien transmettre.

Voilà pourquoi je vous conseille de ne pas accorder trop d’importance aux scores de ces formules. Elles sont des détecteurs de fumée, utiles pour repérer certaines anomalies, mais pas pour décider si votre texte mérite d’être lu. Fiez-vous à votre jugement. Dans le doute, faites relire votre écrit par un autre humain. Après tout, vous écrivez pour les gens, pas pour les machines. Alors, si le score de lisibilité de Yoast SEO s’affiche en rouge vif, tant pis.

Pour conclure cet article comme il se doit, voici un lien vers le dictionnaire du français difficile. Peut-être y trouverez-vous quelques mots abscons de deux syllabes à utiliser dans vos articles 😉

Les principales formules de lisibilité en un coup d’œil

Formule	Année	Critères	Limites principales
Flesch Reading Ease	1948	Longueur moyenne des phrases et nombre moyen de syllabes par mot.	Formule conçue pour l’anglais et qui ignore la complexité du vocabulaire et la cohérence du texte.
Gunning Fog	1952	Longueur des phrases et pourcentage de mots « complexes ».	Définition contestable de la « complexité » (mots de 3 syllabes ou plus).
Flesch–Kandel-Moles	1958	Longueur moyenne des phrases et nombre moyen de syllabes par mot (avec adaptation du coéfficient de Flesch au français).	Adaptation française de Flesch qui reproduit les mêmes limites que celles de la formule d’origine.
Henry	1975	Longueur moyenne des phrases, variété du vocabulaire, pourcentage de mots non courants, de pronoms personnels, d’indicateurs de dialogue, de mots-outils, de ponctuations fortes, de mots concrets.	Système complexe avec plusieurs formules. La formule la plus simple n’est utilisée que pour le FLE.
Coleman-Liau	1975	Nombre de caractères et de phrases par 100 mots.	Formule statistique pure ne prenant pas en compte la complexité réelle ou la syntaxe.
Richaudeau	1978	Nombre total de mots dans la phrase, nombre de mots mémorisés, qualité du lecteur et type de phrase.	Théorie difficile à appliquer en pratique grâce à des formules statistiques (ce qui est aussi l’objectif de cette formule).

Sources :

L. Kandel et A. Moles, Application de l’indice de Flesch à la langue francaise, Cahiers Etudes de Radio-Télévision, 1958, 19, 253-274.
Gilbert De Landsheere, Pour une application des tests de lisibilite de Flesch a la langue francaise, Travail Humain, 1963, 26, p. 141-154
Jean-Pierre Benoît, Revue critique des formules de lisibilité, Pratiques, 1986, 52, p. 45-63
François Richaudeau, Faut-il brûler les formules de lisibilité ?, Communication & Langages, 1976, 30 p. 6-19