sandbox
Sandbox Windows-1252 (décodage)
Convertis un octet Windows-1252 (CP1252) en code point Unicode.
Hex (avec ou sans 0x). Windows-1252 encode un caractère sur un seul octet.
U+20AC€
1 octetDécimal
8364
Octet
0x80
Binaire
10000000
Plage CP1252
Plage 0x80 → 0x9F - l'extension Microsoft. C'est ici que Windows-1252 diverge de Latin-1 : on a 27 caractères imprimables (€ à 0x80, ™ à 0x99, l'em-dash — à 0x97, les guillemets typographiques...) au lieu des contrôles C1.
Étapes détaillées
- 01
Lire la valeur en binaire
On écrit la valeur de l'octet sur 8 bits.
10000000 - 02
Convertir en code point
L'octet est dans l'extension Microsoft. La table CP1252 le fait correspondre à
U+20AC(décimal8364). C'est le piège classique : si on lit ce même octet comme Latin-1, on obtient un contrôle C1 invisible au lieu d'un caractère imprimable.U+20AC