Red de conocimientos turísticos - Lugares de interés turístico - ¿Cuántos bytes ocupa un carácter chino?

¿Cuántos bytes ocupa un carácter chino?

El chino ocupa 3 o 4 bytes en utf-8.

Los caracteres Utf8 son caracteres de longitud variable, por lo que aquí se muestra el método de codificación de uft-8.

Un byte: 0 * * * * * *

Dos bytes: 110 * * * *, 10 * * * *

Tres Bytes: 1110 * * *, 10 * * * *, 10 * * * *

Cuatro bytes: 11110, 10*****, 10 * * * * *.

Cinco bytes: 11110, 10 * * * * *, 10 * * * * *.

Seis bytes: 111110, 10 * * * *, 10 * * *, 10 * * *.

Entonces, después de obtener la cadena de bytes, si desea juzgar la longitud de bytes del carácter UTF8, solo necesita obtener el primer byte del carácter de acuerdo con las reglas anteriores, y puede juzgar en función de su valor si el carácter está representado por varios bytes.

Codificación GBK, un carácter chino ocupa dos bytes. Codificación UTF-16, generalmente los caracteres chinos ocupan dos bytes, y los caracteres chinos en las extensiones B, C y D de CJKV ocupan cuatro bytes (el rango Unicode de caracteres generales es de U 0000 a U FFFF, y el rango de estas extensiones es mayor que U 20000, por lo que se necesitan dos UTF-16). La codificación UTF-8 es una codificación de longitud variable. Por lo general, los caracteres chinos ocupan tres bytes y los caracteres chinos después del área extendida B ocupan cuatro bytes.