SELFHTML/Quickbar  Paramètres internationaux


Le système unicode

Cette page est un document avec du texte et des informations

 Généralités sur unicode
 Les signes unicode

 

Généralités sur unicode

Unicode est un système dans lequel les signes ou éléments de toutes les cultures d'écriture connues sont fixés. Par ce système, il devient possible de dire à un ordinateur quel signe on veut voir représenté. La condition préalable est naturellement que l'ordinateur ou le programme exécuté connaisse le système unicode. Beaucoup de types d'ordinateur plus récents et de systèmes d'exploitation sont déjà basés en interne sur le système unicode. Ainsi par exemple chez Windows NT tous les signes sont sauvegardés en interne comme unicodes dans la mémoire de travail quelque soit le logiciel avec lequel vous travaillez.

Chaque signe ou élément dans l'unicode est exprimé par un chiffre long de deux octets. Il est possible de la sorte de caser jusqu'à 65536 signes différents dans le système. Dans la version 2.0 du standard unicode, 38885 signes sont documentés. Il y a donc encore assez de place. Pour que ça ne devienne pas trop juste, il existe entre temps un schéma étendu avec lequel il est possible de mettre dans le système beaucoup plus d'un million de signes différents.

Unicode dépasse ainsi sensiblement le principe des différents  jeux de caractères. À l'aide de ce système il est possible par exemple, en plein milieu d'un texte français de noter quelques mots en arabe. Même pour les caractères de contrôle comme les traits d'union les espaces imposés et les signes de tabulation existent des unicodes. Les signes de formules mathématiques existent aussi bien que les signes de syllabes ou de mots des cultures d'écriture extrême-orientales. Même des parties constituantes de signes comme par exemple le tréma ont leur propre unicode. Les caractères peuvent être combinés dynamiquement - ainsi existe aussi naturellement le "ï" français mais la même lettre peut être créée par un "i" et par l'élément pour le tréma sur le signe.

Outre le simple adressage d'un signe ou d'un élément, un jeu de propriétés est aussi défini dans le système unicode pour chaque signe. Le sens de l'écriture (pour l'arabe par exemple le sens d'écriture est de droite à gauche) fait partie de la propriété du signe. D'innombrables résultats des recherches sur la science des langues au niveau mondial sont rassemblées dans le système unicode. La version 2.0 du système unicode est conforme à la norme internationale ISO/IEC 10646. Cette version a été établie par le consortium unicode et un groupe de travail ISO. Vous trouverez des informations sur le consortium unicode sur le WWW à la  page d'accueil du consortium unicode

Le grand problème d'unicode n'est à vrai dire que la façon dont doivent être représentés tous ces nombreux signes à l'ordinateur. Car unicode ne définit que des codes et des propriétés de signes, mais il contient aussi peu que les jeux de caractères banals, d'informations sur la façon exacte dont le signe doit être représenté. Pour cela des ports telles que les  polices de caractères sont nécessaires à l'ordinateur. Nos polices de caractères d'ordinateur répandues aujourd'hui sont pourtant pour ainsi dire inappropriées, étant donné qu'elles s'orientent dans une large mesure sur certains jeux de caractères. À cela s'ajoutent des problèmes comme la transcription d'un autre  sens d'écriture. Il est bien possible à partir de HTML 4.0, de coder des  unicodes en HTML. Pourtant, l'intelligence logicielle nécessaire à la représentation effective manque encore la plupart du temps sur les ordinateurs d'aujourd'hui.

Même le standard international valide Universal Character Set (UCS) d'après le standard ISO 10646 repose sur les valeurs de signes du système unicode.

 

Les signes unicodes

Le système unicode est divisé en passages numériques. Les nombres eux mêmes sont notés sous la forme U+XXXX. Le U veut dire unicode, et les quatre X pour un nombre hexadécimal chacun. Chaque groupe de deux chiffres hexadécimaux couvre un octet (le système unicode est bien un système à deux octets). Pour la notation correcte de tels signes en HTML, reportez vous à la partie  noter les unicodes en HTML .

Les différents signes du système unicode ne sont pas rangés arbitrairement. Tout le système est partagé en passages de signes. Les passages de signes reflètent chacun une certaine culture d'écriture ou un jeu de caractères spéciaux.

Ci-après sont listés les différents passages de signes unicode. Pour chaque passage de signes vous trouverez un lien sur le WWW. Le lien mène à la page correspondante de la page d'accueil du consortium unicode. Là vous trouverez un tableau graphique du passage de signes correspondant avec une représentation des différents signes du passage avec les unicodes correspondants.

caractères de contrôle et signes standard latin (jeu de caractères ASCII)
passage de signes (en mention hexadécimale): U+0000 to U+007F
 tableau exact des codes avec représentation graphique des signes

Latin-1 (voir aussi  jeu de caractères iso 8859-1)
passage de signes (en mention hexadécimale): U+0080 to U+00FF
 tableau exact des codes avec représentation graphique des signes

Latin Extended-A
passage de signes (en mention hexadécimale): U+0100 to U+017F
 tableau exact des codes avec représentation graphique des signes

Latin Extended-B
passage de signes (en mention hexadécimale): U+0180 to U+024F
 tableau exact des codes avec représentation graphique des signes

IPA Extensions
passage de signes (en mention hexadécimale): U+0250 to U+02AF
 tableau exact des codes avec représentation graphique des signes

Spacing Modifier Letters
passage de signes (en mention hexadécimale): U+02B0 to U+02FF
 tableau exact des codes avec représentation graphique des signes

Combining Diacritical Marks
passage de signes (en mention hexadécimale): U+0300 to U+036F
 tableau exact des codes avec représentation graphique des signes

Greek
passage de signes (en mention hexadécimale): U+0370 to U+03FF
 tableau exact des codes avec représentation graphique des signes

Cyrillique
passage de signes (en mention hexadécimale): U+0400 to U+04FF
 tableau exact des codes avec représentation graphique des signes

Arménien
passage de signes (en mention hexadécimale): U+0530 to U+058F
 tableau exact des codes avec représentation graphique des signes

Hébreu
passage de signes (en mention hexadécimale): U+0590 to U+05FF
 tableau exact des codes avec représentation graphique des signes

Arabe
passage de signes (en mention hexadécimale): U+0600 to U+06FF
 tableau exact des codes avec représentation graphique des signes

Devanagari
passage de signes (en mention hexadécimale): U+0900 to U+097F
 tableau exact des codes avec représentation graphique des signes

Bengali
passage de signes (en mention hexadécimale): U+0980 to U+09FF
 tableau exact des codes avec représentation graphique des signes

Gurmukhi
passage de signes (en mention hexadécimale): U+0A00 to U+0A7F
 tableau exact des codes avec représentation graphique des signes

Gujarati
passage de signes (en mention hexadécimale): U+0A80 to U+0AFF
 tableau exact des codes avec représentation graphique des signes

Oriya
passage de signes (en mention hexadécimale): U+0B00 to U+0B7F
 tableau exact des codes avec représentation graphique des signes

Tamil
passage de signes (en mention hexadécimale): U+0B80 to U+0BFF
 tableau exact des codes avec représentation graphique des signes

Telugu
passage de signes (en mention hexadécimale): U+0C00 to U+0C7F
 tableau exact des codes avec représentation graphique des signes

Kannada
passage de signes (en mention hexadécimale): U+0C80 to U+0CFF
 tableau exact des codes avec représentation graphique des signes

Malayalam
passage de signes (en mention hexadécimale): U+0D00 to U+0D7F
 tableau exact des codes avec représentation graphique des signes

Thaï
passage de signes (en mention hexadécimale): U+0E00 to U+0E7F
 tableau exact des codes avec représentation graphique des signes

Lao
passage de signes (en mention hexadécimale): U+0E80 to U+0EFF
 tableau exact des codes avec représentation graphique des signes

Tibétain
passage de signes (en mention hexadécimale): U+0F00 to U+0FBF
 tableau exact des codes avec représentation graphique des signes

Georgien
passage de signes (en mention hexadécimale): U+10A0 to U+10FF
 tableau exact des codes avec représentation graphique des signes

Hangul Jamo
passage de signes (en mention hexadécimale): U+1100 to U+11FF
 tableau exact des codes avec représentation graphique des signes

Latin Extended Additional
passage de signes (en mention hexadécimale): U+1E00 to U+1EFF
 tableau exact des codes avec représentation graphique des signes

Greek Extended
passage de signes (en mention hexadécimale): U+1F00 to U+1FFF
 tableau exact des codes avec représentation graphique des signes

General Punctuation
passage de signes (en mention hexadécimale): U+2000 to U+206F
 tableau exact des codes avec représentation graphique des signes

Superscripts and Subscripts
passage de signes (en mention hexadécimale): U+2070 to U+209F
 tableau exact des codes avec représentation graphique des signes

Symboles monétaires
passage de signes (en mention hexadécimale): U+20A0 to U+20CF
 tableau exact des codes avec représentation graphique des signes

Combining Diacritical Marks for Symbols
passage de signes (en mention hexadécimale): U+20D0 to U+20FF
 tableau exact des codes avec représentation graphique des signes

Letterlike Symbols
passage de signes (en mention hexadécimale): U+2100 to U+214F
 tableau exact des codes avec représentation graphique des signes

Number Forms
passage de signes (en mention hexadécimale): U+2150 to U+218F
 tableau exact des codes avec représentation graphique des signes

Arrows
passage de signes (en mention hexadécimale): U+2190 to U+21FF
 tableau exact des codes avec représentation graphique des signes

Opérateurs mathématiques
passage de signes (en mention hexadécimale): U+2200 to U+22FF
 tableau exact des codes avec représentation graphique des signes

Miscellaneous Technical
passage de signes (en mention hexadécimale): U+2300 to U+23FF
 tableau exact des codes avec représentation graphique des signes

Control Pictures
passage de signes (en mention hexadécimale): U+2400 to U+243F
 tableau exact des codes avec représentation graphique des signes

Optical Character Recognition
passage de signes (en mention hexadécimale): U+2440 to U+245F
 tableau exact des codes avec représentation graphique des signes

Enclosed Alphanumerics
passage de signes (en mention hexadécimale): U+2460 to U+24FF
 tableau exact des codes avec représentation graphique des signes

Box Drawing
passage de signes (en mention hexadécimale): U+2500 to U+257F
 tableau exact des codes avec représentation graphique des signes

Block Elements
passage de signes (en mention hexadécimale): U+2580 to U+259F
 tableau exact des codes avec représentation graphique des signes

Geometric Shapes
passage de signes (en mention hexadécimale): U+25A0 to U+25FF
 tableau exact des codes avec représentation graphique des signes

Miscellaneous Symbols
passage de signes (en mention hexadécimale): U+2600 to U+26FF
 tableau exact des codes avec représentation graphique des signes

Dingbats
passage de signes (en mention hexadécimale): U+2700 to U+27BF
 tableau exact des codes avec représentation graphique des signes

CJK Symbols and Punctuation
passage de signes (en mention hexadécimale): U+3000 to U+303F
 tableau exact des codes avec représentation graphique des signes

Hiragana
passage de signes (en mention hexadécimale): U+3040 to U+309F
 tableau exact des codes avec représentation graphique des signes

Katakana
passage de signes (en mention hexadécimale): U+30A0 to U+30FF
 tableau exact des codes avec représentation graphique des signes

Bopomofo
passage de signes (en mention hexadécimale): U+3100 to U+312F
 tableau exact des codes avec représentation graphique des signes

Hangul Compatibility Jamo
passage de signes (en mention hexadécimale): U+3130 to U+318F
 tableau exact des codes avec représentation graphique des signes

Kanbun
passage de signes (en mention hexadécimale): U+3190 to U+319F
 tableau exact des codes avec représentation graphique des signes

Enclosed CJK Letters and Months
passage de signes (en mention hexadécimale): U+3200 to U+32FF
 tableau exact des codes avec représentation graphique des signes

CJK Compatibility
passage de signes (en mention hexadécimale): U+3300 to U+33FF
 tableau exact des codes avec représentation graphique des signes

CJK Unified Ideographs
passage de signes (en mention hexadécimale): U+4E00 to U+9FA5
 tableau exact des codes avec représentation graphique des signes

Hangul Syllables
passage de signes (en mention hexadécimale): U+AC00 to U+D7A3
 tableau exact des codes avec représentation graphique des signes

High Surrogates
passage de signes (en mention hexadécimale): U+D800 to U+DB7F
 tableau exact des codes avec représentation graphique des signes

Private Use High Surrogates
passage de signes (en mention hexadécimale): U+DB80 to U+DBFF
 tableau exact des codes avec représentation graphique des signes

Low Surrogates
passage de signes (en mention hexadécimale): U+DC00 to U+DFFF
 tableau exact des codes avec représentation graphique des signes

Private Use Area
passage de signes (en mention hexadécimale): U+E000 to U+F8FF
 tableau exact des codes avec représentation graphique des signes

CJK Compatibility Ideographs
passage de signes (en mention hexadécimale): U+F900 to U+FAFF
 tableau exact des codes avec représentation graphique des signes

Alphabetic Presentation Forms
passage de signes (en mention hexadécimale): U+FB00 to U+FB4F
 tableau exact des codes avec représentation graphique des signes

Arabic Presentation Forms-A
passage de signes (en mention hexadécimale): U+FB50 to U+FDFF
 tableau exact des codes avec représentation graphique des signes

Combining Half Marks
passage de signes (en mention hexadécimale): U+FE20 to U+FE2F
 tableau exact des codes avec représentation graphique des signes

CJK Compatibility Forms
passage de signes (en mention hexadécimale): U+FE30 to U+FE4F
 tableau exact des codes avec représentation graphique des signes

Small Form Variants
passage de signes (en mention hexadécimale): U+FE50 to U+FE6F
 tableau exact des codes avec représentation graphique des signes

Arabic Presentation Forms-B
passage de signes (en mention hexadécimale): U+FE70 to U+FEFF
 tableau exact des codes avec représentation graphique des signes

Halfwidth and Fullwidth Forms
passage de signes (en mention hexadécimale): U+FF00 to U+FFEF
 tableau exact des codes avec représentation graphique des signes

Specials
passage de signes (en mention hexadécimale): U+FFF0 to U+FFFF
 tableau exact des codes avec représentation graphique des signes

Pour les signes de syllabes ou de mots de l'extrême orient se trouve sur les pages WWW du consortium unicode une base de données graphiques à disposition Dans la  base de données Unihan pour signes extrême-orientaux vous pouvez cliquer sur les signes de base dans des graphiques composés de liens pour recevoir ensuite pour chacun d'eux une liste des différents signes dérivés. La représentation y est graphique d'un bout à l'autre.

Sur les pages WWW du consortium unicode existe en outre un tableau avec des signes dont l'adoption prochaine dans le système unicode est prévue. Plus de détails à ce sujet sur le WWW sous le titre  Proposed Unicode Characters.

après: Utiliser les jeux de caractères et les unicodes en HTML
avant: Jeux de caractères (famille iso-8859 et autres)
 

SELFHTML/Quickbar  Paramètres internationaux

© 1998 Stefan Münz / © 2001 Traduction  Serge François, 13405@free.fr