¿A cuántos bits equivale un byte?
En diferentes codificaciones, la relación correspondiente entre caracteres y bytes es diferente, lo que está relacionado con el método de codificación. 1 byte corresponde a 8 bits.
La correspondencia entre caracteres codificados comunes y bytes es la siguiente:
1. En el código ASCII, una letra inglesa (independientemente de mayúsculas o minúsculas) ocupa un byte de espacio y un byte. Letra china Los caracteres chinos ocupan dos bytes de espacio. Una secuencia de números binarios, utilizada como unidad digital en la computadora, es generalmente un número binario de 8 bits, convertido a decimal. El valor mínimo es 0 y el valor máximo es 255.
2. En la codificación UTF-8, un carácter inglés equivale a un byte y un carácter chino (incluido el chino tradicional) equivale a tres bytes.
3. En la codificación Unicode, una palabra en inglés equivale a dos bytes y un carácter chino (incluido el chino tradicional) equivale a dos bytes.
Símbolos: la puntuación en inglés ocupa un byte, la puntuación en chino ocupa dos bytes. Por ejemplo: el período inglés "." ocupa 1 byte y el período chino "." ocupa 2 bytes.
4. El método de codificación GBK ocupa dos bytes para chino y 1 byte para inglés.
Información ampliada:
UTF-8 es un método de codificación muy utilizado, precisamente porque la conversión entre el número de caracteres y el número de bytes en UTF-8 no lo es. arreglado, por lo que no puede determinar la cantidad de bytes de texto UTF-8 a partir de la cantidad de caracteres UNICODE.
UTF-8 es una codificación de longitud variable que requiere 2 bytes para codificar caracteres que requieren solo 1 byte usando el juego de caracteres ASCII extendido.
ISO Latin-1 es un subconjunto de UNICODE, pero no un subconjunto de UTF-8. La codificación UTF-8 de caracteres de 8 bits será filtrada por el portal de correo electrónico, porque la información de Internet fue diseñada originalmente. como código ASCII de 7 bits. De ahí la codificación UTF-7. ?
UTF-8 tiene más de 50 posibilidades de utilizar el valor 100xxxxx en su representación, y las implementaciones existentes como los sistemas ISO 2022, 4873, 6429 y 8859 lo confunden con un código de control C1. De ahí la codificación UTF-7.5.
Enciclopedia Baidu - Caracteres
Enciclopedia Baidu - Bytes
Enciclopedia Baidu - Codificación