11 Jeux de caractères et Unicode
Manuel de Référence MySQL 4.1 : Version Française
. Jeux de caractères et collation : généralités . Jeux de caractères et collation dans MySQL . Déterminer le jeu de caractères et la collation par défaut . Opérations affectées par le support de jeux de caractères. ->Support de Unicode . UTF8 pour les méta-données . Compatibilité avec d'autres bases de données . Nouveau format de fichier de configuration de jeux de caractères . Jeux de caractères national . Préparer le passage de version 4.0 en 4.1 . Les jeux de caractères et collation supportés par MySQL.
|
11.5 Support de Unicode Depuis la version 4.1 de MySQL, il y deux nouveaux jeux de caractères pour
stocker des données Unicode :
ucs2
(le jeux de caractères Unicode UCS-2) et
utf8
(l'encodage UTF-8 du jeu de caractères Unicode).
- Dans UCS-2 (
binary Unicode representation
) chaque caractère
est représenté par un code Unicode de deux octets avec l'octet le plus
significatif en premier. Par exemple : "LATIN CAPITAL LETTER A" a le code
0x0041 et est stocké comme une séquence à deux octets
0x00 0x41
.
"CYRILLIC SMALL LETTER YERU" (Unicode 0x044B) est stocké comme une séquence
à deux octets
0x04 0x4B
. Pour les caractères Unicode et leurs codes
veuillez consulter Unicode Home Page .Restriction temporaire : UCS-2 ne peut pas (encore)
être utilisé comme jeu de caractères client. Cela signifie que
SET NAMES ucs2
ne fonctionnera pas.
- Le jeu de caractères UTF8 (
transform Unicode representation
)
est une alternative pour stocker les données Unicode. il est implémenté selon
la RFC 2279. L'idée du jeu de caractères UTF-8 est que différents caractères
Unicode soient représentés par des séquences de différentes longueurs.
- les lettres, chiffres et caractères de ponctuation latins
de base utilisent un octet.
- La plupart des lettres européennes et moyen-orientales sont stockées
avec une séquence à deux octets : les lettres latines étendues
(avec les tildes, macrons, accents graves, aigus et autres accents),
cyrilliques, grecques, arméniennes, hébreuses, arabes, syriaques et autres.
- Les idéographes coréens, chinois et japonais utilisent des séquences
à trois octets.
- Actuellement, MySQL UTF8 ne supporte pas les séquences à 4 octets.
Conseil : pour économiser de l'espace avec UTF-8, utilisez
VARCHAR
au lieu de
CHAR
. Sinon, MySQL doit réserver 30 octets pour une
colonne
CHAR(10) CHARACTER SET utf8
parce que c'est la longueur
maximale à accepter.
|