1、它并没有确定所有的字形，只是规定了编码范围，留待以后扩充。
2、编码是变长的，其二字节部分与 GBK 兼容；四字节部分是扩充的字形、字位，其编

码范围是首字节 0x81-0xfe、二字节 0x30-0x39、三字节 0x81-0xfe、四字节 0x30-
0x39。

3、它的推广是分阶段的，首先要求实现的是能够完全映射到 Unicode 3.0 标准的所有

字形。

4、它是国家标准，是强制性的。
5、现在还没有任何一个操作系统或软件实现了 GBK2K 的支持，这是现阶段和将来汉化

的工作内容

1.1.3 unicode

这是最统一的编码，可以用来表示所有语言的字符，而且是定长双字节（也有四字节
的）编码，包括英文字母在内。所以可以说它是不兼容 iso8859-1 编码的，也不兼容任何
编码。不过，相对于 iso8859-1 编码来说，uniocode 编码只是在前面增加了一个 0 字节，比
如字母 a 为"00 61"。
需要说明的是，定长编码便于计算机处理（注意 GB2312/GBK 不是定长编码），而
unicode 又可以用来表示所有字符，所以在很多软件内部是使用 unicode 编码来处理的，
比如 java

。

ISO 10646, 即通用字符集(Universal Character Set, UCS)，四个字节编码
UCS

标准 (ISO 10646)

描述了一个 31 位字符集的体系, 不过, 目前只使用了前面

65534

个编码位置 (0x0000-0xfffd,

它们被称为基本多语言块 (Basic Multilingual

Plane,BMP)), 分配给了字符 , 而且我们估计只有那些很古怪的字符 ( 比如．
Hieroglyphics)为了专门的科学目的, 才会在将来的某个时候,

需要 16

位的 BMP 之外

的部分.

Unicode 编码头 256 个字符和 ISO8559-1 一样。前面补上空字节。
UniHAN 主要分布在 U＋3400 到 U＋9FFF 之间，此外，U＋F900 到 U＋FAFF 之间也
有一些。事实上，GB2312 和 BIG5 的字符都分布在 U＋4E00 和 U＋9FFF 之间。
Unicode 中中文：4e00-9fa5