background image

  
  

2.交集型歧义

  

  假设

ABC”是一个由 A、B、C

三个汉字构成的字串,如果

AB” “

BC”都是

词,那么计算机在切分时可以把

ABC”

切分为

AB/C”

,也可以切分为

A/BC”。

这种切分歧义称为交集型歧义。
  
  

3.组合型歧义

  

  如果

AB”

是词、

ABC”也是词,那么产生的切分歧义称为组合型歧义。

  
  首先我们先说说字典分词法。字典一般采用前缀树和后缀树的数据存储结构
什么是前缀树呢?其实就是我们把一个句子从左向右扫描一遍,遇到字典里有
的词就标识出来,遇到复合词就找最长的词匹配,遇到不认识的字串就分割成
单字词,于是简单的分词就完成了。后缀树就是从右向左扫描一遍。