《通用多八位编码字符集 (UCS)》 — 即 国际标准ISO/IEC10646.1-1993
国际标准ISO10646.1-1993定义了通用八位编码字符集(Universal Character Set, UCS),用于世界上各种语言的书面形式以及附加符号的表示、传输、交换、处理、存储、输入及显现。 UCS是所有其它字符集标准的一个超集,它保证也其它字符集双向兼容,即编码间相互转换不会丢失任何信息。UCS字符集U+0000到U+007F与US-ASCII是一致的。
1. UCS 的总体结构
UCS 编码字符集的总体结构是一个四维编码空间,它包含 00 ~ 7F 共 128 个三维组,每一个三维组中包含 00 ~ FF 共 256 个二维平面,每一个二维平面包含 00 ~ FF 共 256 个一维行,每行共 256 个字位(00 ~ FF),每个字位用一个字节二进制数表示。因此在 UCS 中每一个字符用 4 个二进制数编码,以确定每个字符在编码空间的组、平面、行和字位。上述四个 8 位二进制数编码形式称为 UCS 的四八位正则形式,记作 UCS-4。
2. 基本多文种平面
在UCS 编码空间中 00组的 00平面称为基本多文种平面。在此平面包含了字母文字、音节文字和表意文字中通常使用的字符以及各种符号和数字。
基本多文种平面的组编码为 00H。UCS 规定当正则形式的组、平面编码为 00H 时可以省略,因此安排在基本多文种平面上的字符可用两个字节的二进制数来表示,形成双八位编码字符集,记作 UCS-2。
基本多文种平面分成 A、I、O、R 四个区。
A 区:代码位置从 0000 ~ 4DFF,共 19903 个字位。此区用于字母文字、音节文字以及各种符号的编码,其中 0000 ~ 001F 和 007E ~ 009F 保留用于控制字符。
I 区:代码位置从 4E00 ~ 9FFF,共 20992 个字位。此区用于中、日、韩(CJK)统一的表意文字,即中国、日本、韩国等三国汉字的编码。
O 区:代码位置从 A000 ~ DFFF,共 16384 个字位。此区目前未用,留作未来的标准化。
R 区:代码位置从 E000 ~ FFFD,共 8190 个字位。此区是限制使用区,用于专用字符、变形显现形式和兼容字符的编码。
3. CJK 统一汉字的编码
在 I 区统一编码的汉字共 20902 个,按部首—比画排序。其中中国用汉字约 17000 个,源字集是 GB 基本集简化字,第一、三、五辅助集繁体字,现代汉语通用字表,邮电通信字符集,台湾地区的 CNS11643 《通用汉字标准交换码》,此外还吸收了香港用字 58 个,延边地区朝鲜族使用的“吏读”字 92 个。CJK 统一汉字编码字符集中日本用汉字和韩国用汉字源字集分别为日、韩两国的有关标准。