charset.school
Encoder en UTF-32

sandbox

Sandbox UTF-32 (encodage)

Convertis un code point Unicode en 4 octets UTF-32, avec choix de l'endianness.

Accepte U+XXXX, 0xXX, décimal, ou un caractère unique.

Endianness
U+1F389🎉
4 octets

Décimal

127881

Hexadécimal

0x89 0xF3 0x01 0x00

Binaire

10001001
11110011
00000001
00000000

Étapes détaillées

  1. 01

    Choisir l'endianness

    L'octet de poids faible vient en premier (Little Endian). Les 4 octets s'écrivent dans l'ordre inverse du nombre.

    Little Endian (LE)
  2. 02

    Convertir en binaire sur 32 bits

    UTF-32 utilise toujours 32 bits, peu importe le code point.
    Le code point U+1F389 tient sur 21 bits utiles au maximum (plafond Unicode U+10FFFF), donc les 11 bits hauts sont toujours à zéro.
    C'est ce padding qui rend UTF-32 simple : pas de format à deviner, pas de marqueur, juste le code point dans ses 32 bits.

    00000000000000011111001110001001
  3. 03

    Convertir en hexadécimal

    On découpe le binaire en 4 paquets de 8 bits, puis on écrit chaque paquet en hex.
    L'ordre des 4 octets dépend de l'endianness choisie.

    0x89 0xF3 0x01 0x00
charset.school

Outil pédagogique. Pas de tracking, pas de pub.

Développé par Florent Sorel