UTF-8

Dans l'ancien temps, les ordinateurs utilisaient 8 bits pour stocker une lettre. Il y a 256 combinaisons possibles de 8 bits. Bien suffisant pour beaucoup de langues, mais pas suffisant pour les langues asiatiques comme le Chinois qui compte des milliers de "lettres" différentes. Il existait beaucoup de manières incompatibles pour mixer différents alphabets vers les 256 combinaisons. Le plus courant, ASCII, définissait ce qui arriverait dans les 127 premières combinaisons, mais c'était seulement suffisant pour l'anglais.

Pour simplifier le problème un consortium de fabricants d'ordinateurs arriva avec un standard baptisé l'Uni Code. Sous l'Unicode, vous pouviez utiliser 16 bits pour stocker une lettre. Cela vous donne de la place pour 65536 lettres, ce qui est suffisant pour simplement tous les alphabets connus, rendant possible le texte en multilangue sur les ordinateurs.

Le problème est que tous les gens qui parlaient anglais étaient distraits d'imaginer perdre un extra de 8 bits sur chaque lettre même s'ils écrivaient seulement en anglais. Et en plus, il existait déjà beaucoup de systèmes qui assumaient le fait que 8 bits = 1 lettre. Aussi le Consortium Unicode revint avec un standard appelé UTF-8. Dans ce scheme, toutes les lettres en anglais (et à fortiori, tous les caractères en dessous de 128 extrait du vieux jeu de caractère ASCII) serait écrit exactement de la même façon qu'avant. Seules les lettres non-anglaises seraient encodées entre 2 et 6 bits. Ce standard est la méthode la plus populaire pour encoder sur l'Internet.

Les détails, bien sûr, sont plus compliqués que cela, et en fait, c'est une sursimplification très grotesque, mais à ce stade nous vous avons probablement suffisamment ennuyé, aussi, nous vous proposons de plier bagage. -- Joel Spolsky (Source via tentative de traduction d'un menu d'aide CityDesk)

Ailleurs :

Dernière modification le vendredi 4 novembre 2005 2:09:38

Éditer HistoriqueDeLaPage Diff  InfosSurLaPage