Red de conocimientos turísticos - Información de alquiler - ¿Qué es el juego de caracteres GBK?

¿Qué es el juego de caracteres GBK?

GBK es otro estándar de codificación de caracteres chinos, el nombre completo es "Especificación de extensión del código interno chino" (GBK), el nombre en inglés es Especificación del código interno chino, que fue adoptado por el Gobierno de la República Popular China y el Comité Técnico Nacional para Estandarización Nacional de Tecnología de la Información formulada el 1 de diciembre de 1995, el Departamento de Estandarización de la Administración Estatal de Supervisión Técnica y el Departamento de Supervisión de Ciencia, Tecnología y Calidad del Ministerio de Industria Electrónica lo identificaron conjuntamente como un documento guía de especificaciones técnicas para su publicación e implementación en el modelo de Carta de Oferta de Supervisión Técnica [1995] No. 229 del 15 de diciembre de 1995. El Departamento de Normalización de la Administración Estatal de Supervisión Técnica y el Departamento de Ciencia, Tecnología y Supervisión de Calidad del Ministerio de Industria Electrónica emitieron e implementaron conjuntamente la especificación GBK como documento de orientación de especificaciones técnicas en forma de Carta de oferta de supervisión técnica [1995] No 229 del 15 de diciembre de 1995. Esta versión de la especificación GBK es la versión 1.0. GB es "Estándar Nacional" y K es la primera letra de "Extendido" en Pinyin chino.

GBK es compatible hacia abajo con GB 2312 y soporta hacia arriba ISO 10646.1. Es un estándar de transición del primero al segundo.

ISO 10646 es un estándar de codificación emitido por la Organización Internacional de Normalización (ISO). Su nombre completo es Universal Multilpe-Octet Coded Character Set (UCS), que se traduce como Universal Multilpe-Octet Coded Character Set. (UCS) en China continental. El conjunto universal de caracteres codificados de múltiples octetos (UMCS), traducido como conjunto de caracteres codificados de múltiples octetos de uso amplio (WUMCS) en Taiwán, es completamente compatible con la codificación Unicode de la organización Unicode. ISO 10646.1 es la primera parte de la norma, "Arquitectura y plano multicódigo básico". Fue reconocido por China en 1993 como el estándar nacional GB 13000.1 (es decir, GB 13000.1 es equivalente a ISO 10646.1).

ISO 10646 es un sistema de codificación que incluye formas escritas y símbolos adicionales para varios idiomas del mundo. La parte de los caracteres chinos se llama "Caracteres chinos unificados CJK" (C significa China, J significa Japón y K significa Corea). La parte china de "Caracteres chinos unificados para China, Japón y Corea del Sur" incluye los caracteres y símbolos chinos de las normas legales de China continental GB 2312, GB 12345 y la "Lista general de caracteres chinos" (GCCL), así como la primera y segundos caracteres en el estándar CNS 11643 de Taiwán (básicamente equivalente a la codificación BIG-5) y los caracteres y símbolos chinos del decimocuarto carácter.

I. Vocabulario de caracteres

La especificación GBK incluye todos los caracteres y símbolos chinos, japoneses y coreanos en ISO 10646.1, y algunas adiciones. Incluyendo específicamente:

1. Todos los caracteres chinos y símbolos de caracteres no chinos en GB 2312.

2. Otros caracteres chinos, japoneses y chinos coreanos en GB 13000.1. El total anterior es 20902 GB de caracteres chinos.

3. Hay 52 caracteres chinos que no están incluidos en la "Lista de caracteres chinos simplificados" GB 13000.1.

4. Hay 28 radicales y partes importantes de GB 13000.1 que no están incluidos en el "Diccionario Kangxi" y el "Cihai".

5. 13 símbolos de estructura de caracteres chinos.

6. Hay 139 símbolos gráficos en BIG-5 que no están en GB 2312 pero sí en GB 13000.1.

7. GB 12345 añade 6 símbolos pinyin.

8. El carácter chino "○".

9.GB 12345 agrega 19 signos de puntuación verticales (en comparación con GB 2312, GB 12345 agrega 29 signos de puntuación verticales, 10 de los cuales no están incluidos en GB 13000.1, por lo que no están incluidos en GBK).

10. 21 caracteres chinos seleccionados de la zona de compatibilidad GB 13000.1 China, Japón y Corea.

11. 31 símbolos especiales de IBM OS/2 incluidos en GB 13000.1.

II. Asignación y secuencia de puntos de código

GBK también utiliza representación de doble byte, el rango de codificación general es 8140-FEFE y el primer byte está en el rango 81-FE. el último byte está en el rango 40-FE, excluyendo la fila xx7F. Hay un total de 23940 puntos de código, ****, incluidos 21886 caracteres chinos y símbolos gráficos, incluidos 21003 caracteres chinos (incluidos radicales y componentes) y 883 símbolos gráficos.

La codificación completa se divide en tres partes:

1. Incluye:

a.GB 2312 Área de caracteres chinos. Ese es GBK/2: B0A1-F7FE. El pedido original contenía 6.763 GB de 2.312 caracteres chinos.

b.GB 13000.1 área extendida de caracteres chinos. Incluye:

(1) GBK/3:8140-A0FE. Incluyendo 6080 caracteres chinos, japoneses y coreanos en GB 13000.1.

(2) GBK/4: AA40-FEA0, contiene 8160 caracteres chinos, japoneses y coreanos y nuevos caracteres chinos, con los caracteres chinos, japoneses y coreanos primero, ordenados según el tamaño del código UCS, nuevos chinos caracteres (incluidos los radicales, partes) al final, ordenados según el número de página/posición del carácter del "Diccionario Kangxi".

2. Área de símbolos gráficos. Incluyendo:

a.GB 2312 área de símbolo de caracteres no chinos. Eso es GBK/1:A1A1-A9FE. Además de los símbolos de GB 2312, se han agregado 10 números romanos en minúscula y símbolos a GB 12345. 717 símbolos. Además de los símbolos de GB 2312, hay 10 números romanos en minúscula y símbolos añadidos por GB 12345.

b.GB 13000.1 Expande el campo de caracteres no chinos. Es GBK/5: A840-A9A0. En esta área se organizan BIG-5 símbolos no kanji, símbolos estructurales y "○". 166 símbolos en total. Hay 166 símbolos en total.

3. Área definida por el usuario: dividida en tres celdas (1) (2) (3).

(1) AAA1-AFFE, 564 puntos de código.

(2) F8A1-FEFE, 658 puntos de código.

(3) A140-A7A0, 672 puntos de código.

La zona (3), aunque abierta a los usuarios, está restringida ya que no se puede descartar la posibilidad de añadir nuevos personajes a esta zona en el futuro.

III. Formas de los caracteres

GBK ha adoptado las siguientes disposiciones sobre las formas de los caracteres:

1. En principio, son coherentes con los glifos/trazos especificados en GB 13000.1 G (es decir, caracteres chinos derivados de estándares legales en China continental) son consistentes.

2. Dentro del marco general de las reglas de reconocimiento de caracteres chinos para China, Japón y Corea, todos los caracteres chinos codificados en GBK adoptan la "ortografía no repetida" ("GB-ización"), es decir, intenten. para utilizar nuevos glifos de caracteres chinos sin duplicación.

3. Para aquellos caracteres chinos que exceden las reglas de reconocimiento de caracteres chinos, japoneses y coreanos o que las reglas de reconocimiento aún no están claras, los glifos antiguos se colocan temporalmente en el punto de código GBK. Por lo tanto, en muchos casos, GBK incluye glifos antiguos y nuevos del mismo carácter chino.

4. Los glifos de símbolos de caracteres no chinos que se han incluido en GB 2312 son consistentes con GB 2312, y aquellos que exceden GB 2312 son consistentes con GB 13000.1.

5. Las letras Pinyin con tonos están en forma de medio ancho.

5.