background image

1、它并没有确定所有的字形,只是规定了编码范围,留待以后扩充。 
2、编码是变长的,其二字节部分与 GBK 兼容;四字节部分是扩充的字形、字位,其编

码范围是首字节 0x81-0xfe、二字节 0x30-0x39、三字节 0x81-0xfe、四字节 0x30-
0x39。

3、它的推广是分阶段的,首先要求实现的是能够完全映射到 Unicode 3.0 标准的所有

字形。 

4、它是国家标准,是强制性的。 
5、现在还没有任何一个操作系统或软件实现了 GBK2K 的支持,这是现阶段和将来汉化

的工作内容

1.1.3 unicode 

这是最统一的编码,可以用来表示所有语言的字符,而且是定长双字节(也有四字节
的)编码,包括英文字母在内。所以可以说它是不兼容 iso8859-1 编码的,也不兼容任何
编码。不过,相对于 iso8859-1 编码来说,uniocode 编码只是在前面增加了一个 0 字节,比
如字母 a 为"00 61"。
需要说明的是,定长编码便于计算机处理(注意 GB2312/GBK 不是定长编码),而
unicode 又可以用来表示所有字符,所以在很多软件内部是使用 unicode 编码来处理的,
比如 java  

ISO 10646, 即通用字符集(Universal Character Set, UCS),四个字节编码
UCS 

 

标准 (ISO 10646) 

 

描述了一个 31 位字符集的体系, 不过, 目前只使用了前面 

65534

 

个 编 码 位 置 (0x0000-0xfffd,  

 

 

它 们 被 称 为 基 本 多 语 言 块 (Basic  Multilingual 

Plane,BMP)),   分 配 给 了 字 符 ,   而 且 我 们 估 计 只 有 那 些 很 古 怪 的 字 符 ( 比 如 .
Hieroglyphics)为了专门的科学目的, 才会在将来的某个时候, 

 

需要 16 

 

位的 BMP 之外

的部分. 

Unicode 编码头 256 个字符和 ISO8559-1 一样。前面补上空字节。
UniHAN 主要分布在 U+3400 到 U+9FFF 之间,此外,U+F900 到 U+FAFF 之间也
有一些。事实上,GB2312 和 BIG5 的字符都分布在 U+4E00 和 U+9FFF 之间。
Unicode 中中文:4e00-9fa5