Fréquence d'apparition des lettres en français

Le calcul de la fréquence des lettres dans une langue est difficile et soumis à interprétation. On compte la fréquence des lettres d’un texte arbitrairement long, mais un certain nombre de paramètres influencent les résultats :

  • Le style narratif : s’il y a beaucoup de verbes à la 2e personne du pluriel (le vouvoiement, présent dans beaucoup de dialogues), il y aura significativement plus de « Z ».
  • Le vocabulaire spécifique du document : si l’on parle de chemins de fer, il y aura beaucoup plus de « W » (wagon) ; si l’un des protagonistes se dénomme Loïs, le nombre d'« Ï » s’en ressentira.
  • Le type de document : des petites annonces en France présenteront souvent le symbole Euro (), qui est absent de la plupart des autres documents.
  • Les paramètres techniques : on peut facilement calculer des statistiques sur des textes informatisés, mais souvent ceux-ci ne comportent pas de majuscules accentuées (car difficiles à entrer sur certains ordinateurs) et il arrive aux auteurs d'oublier des accents. La graphie de l’e-dans-l’o (œ) est impossible à représenter dans le codage latin-1 qui est souvent utilisé pour les textes en français. C'est un problème parce que « œ » n'est pas une ligature esthétique (optionnelle) mais une ligature linguistique (obligatoire), elle se prononce différemment de la suite de voyelles « oe » . Par exemple, « œ » va se prononcer [ɛ] dans œsophage alors que « oe » va se prononcer [ɔ.ɛ] dans coexistence.
  • La présence de caractères non alphabétiques (symboles de ponctuation, chiffres, parenthèses et accolades, symboles mathématiques courants…) peut ou non être prise en compte ; la virgule, le point ou l’apostrophe sont par exemple plus fréquents que plus de la moitié des lettres[réf. souhaitée].

Si ces paramètres ont un impact spectaculaire sur les symboles les moins fréquents (la fréquence du œ varie entre 0,002 % et 0,09 % pour trois textes pris au hasard)[réf. nécessaire], elle est également sensible même pour les lettres les plus fréquentes (l’ordre de fréquence des lettres A, S, I, T et N, qui sont les plus fréquentes à part E, fluctue d’un texte à l’autre).

Remarque importante

La fréquence des lettres dans un texte diffère de celle de la liste des mots d’un dictionnaire. En effet, très peu de mots apparaissent au pluriel dans un dictionnaire, ce qui conduit la lettre s à y être moins fréquente. De plus, les lettres accentuées à et ù apparaissent dans un nombre très limité de mots, mais dont certains sont d'usage fréquent (à, ), ce qui contribue à modifier la fréquence relative de ces lettres.

Le corpus de textes littéraires disponible sur le Net (par exemple sur le site de l’Association des bibliophiles universels (ABU)) permet à tout un chacun de se livrer en quelques minutes aux analyses de fréquence de lettres chez l’auteur de son choix.

Fréquence des caractères dans le corpus de Wikipédia en français

Le corpus de Wikipédia en français, en 2008, a été segmenté en mots par le laboratoire CLLE-ERSS qui a ensuite recensé les occurrences de ces derniers[1], permettant ainsi le calcul de la fréquence des caractères.

Fréquence des caractères[2] sur le corpus de Wikipédia en français
RangCaractèreNombre d'occurrencesPourcentage
1e 115 024 20512,10
2a 67 563 6287,11
3i 62 672 9926,59
4s 61 882 7856,51
5n 60 728 1966,39
6r 57 656 2096,07
7t 56 267 1095,92
8o 47 724 4005,02
9l 47 171 2474,96
10u 42 698 8754,49
11d 34 914 6853,67
12c 30 219 5743,18
13m 24 894 0342,62
14p 23 647 1792,49
15é 18 451 9371,94
17g 11 684 1401,23
18b 10 817 1711,14
19v 10 590 8581,11
20h 10 583 5621,11
21f 10 579 1921,11
28q6 140 3070,65
31y4 351 9530,46
35x3 588 9900,38
40j3 276 0640,34
43è2 969 4660,31
44à2 966 0290,31
45k2 747 5470,29
47w1 653 4350,17
48z1 433 9130,15
49ê802 2110,08
52ç544 5090,06
59ô357 1970,04
62â320 8370,03
63î280 2010,03
69û164 5160,02
70ù151 2360,02
71ï138 2210,01
77á73 7510,01
79ü55 1720,01
82ë53 8620,01
83ö51 0200,01
84í48 3910,01
  • Lettres absentes de la langue française

Dans d'autres langues

[réf. nécessaire]

Diagramme comparatif de la fréquence des lettres dans 11 langues.

Références

Annexes

Articles connexes

Liens externes

  • Portail de l’écriture
Cet article est issu de Wikipedia. Le texte est sous licence Creative Commons - Attribution - Sharealike. Des conditions supplémentaires peuvent s'appliquer aux fichiers multimédias.