background image

1.1.4 UTF 

考虑到 unicode 编码不兼容 iso8859-1 编码,而且容易占用更多的空间:因为对于英文字
母,unicode 也需要两个字节来表示。所以 unicode 不便于传输和存储。因此而产生了 utf 编
码,utf 编码兼容 iso8859-1 编码,同时也可以用来表示所有语言的字符,不过,utf 编码
是不定长编码,每一个字符的长度从 1-6 个字节不等。另外,utf 编码自带简单的校验功能。

 

一般来讲,英文字母都是用一个字节表示,而汉字使用三个字节。

注意,虽然说 utf 是为了使用更少的空间而使用的,但那只是相对于 unicode 编码来说,
如果已经知道是汉字,则使用 GB2312/GBK 无疑是最节省的。不过另一方面,值得说明的
是,虽然 utf 编码对汉字使用 3 个字节,但即使对于汉字网页,utf 编码也会比 unicode 编
码节省,因为网页中包含了很多的英文字符。

上图是 UTF-8 中所有三种内码格式,绿格中的值是固定的,兰格中是用来存放真正的内
码。

1.2 应用系统开发

Web 系统是遇到字符集问题最多的地方,也非常具有代表性,我们可以发现但凡遇

到要进行跨进程间数据交换的时候,都可能会存在字符集的转换问题,这就导致了我们
需要对他进行分析。一个标准的 web 系统模型如下: