中文,日文,朝鲜语和中国少数民族文字。满足中国大陆,香港,台湾,日
本和韩国等东南亚地区信息交换多文种,大字量,多用途,统一编码格式的
要求。
编码方式:
GB8030 标准采用单字节,双字节和四字节三种方式对字符编码。 单字节部
分使用 0x00-0x7F 码(对应于 ASCII 码的相应码);
双字节部分,
首字节码从 0x81-0xFE,尾字节码分别是 0x40-0x7E 和 0x80-0xFE。
四字节部分采用 0x30-0x39 作为双字节编码扩充的后缀,这样扩充的四字节
编码,其范围是 0x81308130-0x0xFE39FE39,其中第一,三个字节编码位均为
0x81-0xFE,第二,四个为 0x30-0x39。
6.
ISO8859-1:拉丁码表。欧洲码表
用一个字节的 8 位表示。
7. Unicode 字符集:
定义:
(国际标准码,融合了多种文字。所有文字都用两个字节来表示,Java 语言
使用的就是 unicode) University multiple-object coded character set(通用多
八位编码字符集)
,支持世界上超过 650 种语言的国际字符。Unicode 允许在
同一服务器上混合使用不同语言,它为每种语言的每个字符设定了统一并且
唯一的二进制编码,以满足跨平台,跨语言进行文本转换,处理的要求。
编码方式:
Unicode 标准始终使用十六进制数字,固定使用 2 个字节来表示一个字符,
共可以表示 65536 个字符。而且书写时在前面加上前缀“U+”,例如 A 的编
码是 004116,则书写成“U+0041”。
Unicode 字符集包含的编码方案:
UTF-8: (最多用三个字节来表示一个字符。)
UTF8 是 unicode 其 中 的 一 个 使 用 方 式 。 UTF 的 意 思 是 :
unicode translation format,即把 unicode 转作某种格式的意思。 UTF-8
使用可变长度字节来存储 unicode 字符,如 ASCII 字母还是采用一个
字符来存储,希腊字母等采用 2 个字符来存储,而常用的汉字要使
用 3 字节,辅助平面字符则使用 4 字节。
UTF-16:
使用一个或两个未分配的 16 位代码单元的序列对 unicode 代码
点进行编码,即 2 个字节表示一个字符。
UTF-32:
将每一个 unicode 代码点表示为相同值的 32 位整数。
关于 unicode 编码的一个问题:
使 用 记 事 本 另 存 为 时 , 可 以 在 ANSI , GBK,Unicode ,
unicode big endian 和 UTF-8 这几种编码之间相互转换。同样是 txt 文
件,windows 是怎么识别编码的呢?
答:平时注意的话可以发现 Unicode,unicode big endian 和 UTF-8
编码的 txt 文件的开头会多出几个字节,分别是(FF,FE),(FE,FF),
(EF,BB,BF)。那么这些标记都是基于什么标准呢?