1、它并没有确定所有的字形,只是规定了编码范围,留待以后扩充。
2、编码是变长的,其二字节部分与 GBK 兼容;四字节部分是扩充的字形、字位,其编
码范围是首字节 0x81-0xfe、二字节 0x30-0x39、三字节 0x81-0xfe、四字节 0x30-
0x39。
3、它的推广是分阶段的,首先要求实现的是能够完全映射到 Unicode 3.0 标准的所有
字形。
4、它是国家标准,是强制性的。
5、现在还没有任何一个操作系统或软件实现了 GBK2K 的支持,这是现阶段和将来汉化
的工作内容
1.1.3 unicode
这是最统一的编码,可以用来表示所有语言的字符,而且是定长双字节(也有四字节
的)编码,包括英文字母在内。所以可以说它是不兼容 iso8859-1 编码的,也不兼容任何
编码。不过,相对于 iso8859-1 编码来说,uniocode 编码只是在前面增加了一个 0 字节,比
如字母 a 为"00 61"。
需要说明的是,定长编码便于计算机处理(注意 GB2312/GBK 不是定长编码),而
unicode 又可以用来表示所有字符,所以在很多软件内部是使用 unicode 编码来处理的,
比如 java
。
ISO 10646, 即通用字符集(Universal Character Set, UCS),四个字节编码
UCS
标准 (ISO 10646)
描述了一个 31 位字符集的体系, 不过, 目前只使用了前面
65534
个 编 码 位 置 (0x0000-0xfffd,
它 们 被 称 为 基 本 多 语 言 块 (Basic Multilingual
Plane,BMP)), 分 配 给 了 字 符 , 而 且 我 们 估 计 只 有 那 些 很 古 怪 的 字 符 ( 比 如 .
Hieroglyphics)为了专门的科学目的, 才会在将来的某个时候,
需要 16
位的 BMP 之外
的部分.
Unicode 编码头 256 个字符和 ISO8559-1 一样。前面补上空字节。
UniHAN 主要分布在 U+3400 到 U+9FFF 之间,此外,U+F900 到 U+FAFF 之间也
有一些。事实上,GB2312 和 BIG5 的字符都分布在 U+4E00 和 U+9FFF 之间。
Unicode 中中文:4e00-9fa5