Accéder au contenu.
Menu Sympa

typographie - Re: [typo] Unicode, Latin-1 et UTF-8

Objet : Liste consacrée aux discussions à propos de la composition et de la typographie

Archives de la liste

Re: [typo] Unicode, Latin-1 et UTF-8


Chronologique Discussions 
  • From: Marc Autret <marcautret AT free.fr>
  • To: typographie AT listes.irisa.fr
  • Subject: Re: [typo] Unicode, Latin-1 et UTF-8
  • Date: Fri, 26 Sep 2008 11:27:25 +0200 (CEST)

Pour simplifier, à l'attention de Pierre Walusinski:

- Unicode est un vaste ensemble de caractères, chacun adressé par un numéro 
unique;

- Latin-1 est un minuscule ensemble de caractères, chacun adressé par un 
numéro unique;

- Latin-1 est vu comme un sous-ensemble d'Unicode en ce sens que:
 a) tous les caractères du premier appartiennent au second,
 b) le numéro utilisé pour adresser un caractère commun est identique;

- UTF-8 n'est pas un ensemble de caractères mais un codage qui "comprime" 
intelligemment les numéros utilisés dans Unicode. Il permet ainsi d'adresser 
chacun des éléments de ce vaste ensemble en minimisant la consommation 
d'octets. Cela repose sur le fait que, dans nos contrées, nous utilisons plus 
volontiers les caractères de l'alphabet latin que, par exemple, les 
idéogrammes chinois ou les caractères syllabiques tibétains. Grosso modo, 
l'UTF-8 est un "format compressé" (sans perte d'information) pour les textes 
Unicode, un peu comme ZIP pour les fichiers ou TIF pour les images. 
Naturellement, il convient de le "décompresser" en sortie pour retrouver les 
étiquettes Unicode et donc les caractères en clair.

Une propriété amusante (et délibérée) du système UTF-8 est qu'il code les 
caractères portant les plus petits numéros (ceux de la zone dite Ascii) en 
utilisant un seul octet et que cet octet représente justement le code Ascii 
du caractère! Tant et si bien qu'un flux de codes UTF-8 qu'on afficherait tel 
quel (sans décodage) dans un vieil éditeur Ascii, conserverait intacts tous 
les caractères Ascii du message d'origine. En cela, UTF-8 est transparent 
pour l'Ascii. Ce qui fait que quand on récupère un flux non décodé dans un 
logiciel de messagerie, les lettres de notre alphabet minimal passent sans 
problème mais de drôles de zigouigouis apparaissent en lieu et place des 
caractères accentués, diacritiques, etc.

Pour info, l'algorithme UTF-8 est expliqué ici: 
http://fr.wikipedia.org/wiki/UTF-8

Post scriptum: ce qu'on appelle ici un "caractère" est tout à fait abstrait 
pour Unicode, qui ne s'occupe absolument pas de la fonte avec laquelle on va 
le dessiner. L'exposé se poserait sans doute dans des termes identiques si 
Unicode avait vocation à décrire un ensemble d'insectes, de pommes de terre 
ou d'êtres humains. Mais la particularité des caractères est qu'ils se 
manifestent généralement sous la forme de séquences (les textes) avec des 
éléments plus récurrents que d'autres, ce qui rend le codage UTF-8 très 
appréciable. 


Marc Autret 

----- Mail Original -----
De: "Pierre Walusinski" 
<pierre AT walusinski.com>
À: 
typographie AT listes.irisa.fr
Envoyé: Vendredi 26 Septembre 2008 09:44:44 GMT +01:00 Amsterdam / Berlin / 
Berne / Rome / Stockholm / Vienne
Objet: Re: [typo] Quels points de suspension ? 

j'aime bien lire cette conversation…
quand on se dit savoir deux trois trucs sur la typo, et que tout d'un  
coup des gens que vous croyiez comprendre se mettent à parler chinois !
à moins que ce soit informatique: je comprend les mots mais aucun  
sens concret ne s'en dégage.
C'est amusant.



Archives gérées par MHonArc 2.6.16.

Haut de le page