background image

 

 
 
 

 

 

                         

中文,日文,朝鲜语和中国少数民族文字。满足中国大陆,香港,台湾,日
本和韩国等东南亚地区信息交换多文种,大字量,多用途,统一编码格式的
要求。    
  编码方式:  
GB8030 标准采用单字节,双字节和四字节三种方式对字符编码。 单字节部
分使用 0x00-0x7F 码(对应于 ASCII 码的相应码);  
双字节部分,

首字节码从 0x81-0xFE,尾字节码分别是 0x40-0x7E 和 0x80-0xFE。  

四字节部分采用 0x30-0x39 作为双字节编码扩充的后缀,这样扩充的四字节
编码,其范围是 0x81308130-0x0xFE39FE39,其中第一,三个字节编码位均为
0x81-0xFE,第二,四个为 0x30-0x39。  

6.

   

ISO8859-1:拉丁码表。欧洲码表 

  用一个字节的 8 位表示。 

7. Unicode 字符集:  

  定义:  
(国际标准码,融合了多种文字。所有文字都用两个字节来表示,Java 语言
使用的就是 unicode  University multiple-object coded character set(通用多
八位编码字符集)

,支持世界上超过 650 种语言的国际字符。Unicode 允许在

同一服务器上混合使用不同语言,它为每种语言的每个字符设定了统一并且
唯一的二进制编码,以满足跨平台,跨语言进行文本转换,处理的要求。    
  编码方式:  
Unicode 标准始终使用十六进制数字,固定使用 2 个字节来表示一个字符,
共可以表示 65536 个字符。而且书写时在前面加上前缀“U+”,例如 A 的编
码是 004116,则书写成“U+0041”。    
  Unicode 字符集包含的编码方案:  

  UTF-8 (最多用三个字节来表示一个字符。) 

UTF8 是 unicode 其 中 的 一 个 使 用 方 式 。 UTF 的 意 思 是 :

unicode translation format,即把 unicode 转作某种格式的意思。 UTF-8
使用可变长度字节来存储 unicode 字符,如 ASCII 字母还是采用一个
字符来存储,希腊字母等采用 2 个字符来存储,而常用的汉字要使
用 3 字节,辅助平面字符则使用 4 字节。   
  UTF-16  

使用一个或两个未分配的 16 位代码单元的序列对 unicode 代码

点进行编码,即 2 个字节表示一个字符。    
  UTF-32  

将每一个 unicode 代码点表示为相同值的 32 位整数。    

  关于 unicode 编码的一个问题:  

使 用 记 事 本 另 存 为 时 , 可 以 在 ANSI , GBK,Unicode ,

unicode big endian 和 UTF-8 这几种编码之间相互转换。同样是 txt 文
件,windows 是怎么识别编码的呢?  

答:平时注意的话可以发现 Unicode,unicode big endian 和 UTF-8

编码的 txt 文件的开头会多出几个字节,分别是(FF,FE),(FE,FF),
(EF,BB,BF)。那么这些标记都是基于什么标准呢?