2.交集型歧义
“
假设
ABC”是一个由 A、B、C
“
三个汉字构成的字串,如果
AB” “
、
BC”都是
“
词,那么计算机在切分时可以把
ABC”
“
切分为
AB/C”
“
,也可以切分为
A/BC”。
这种切分歧义称为交集型歧义。
3.组合型歧义
“
如果
AB”
“
是词、
ABC”也是词,那么产生的切分歧义称为组合型歧义。
首先我们先说说字典分词法。字典一般采用前缀树和后缀树的数据存储结构
什么是前缀树呢?其实就是我们把一个句子从左向右扫描一遍,遇到字典里有
的词就标识出来,遇到复合词就找最长的词匹配,遇到不认识的字串就分割成
单字词,于是简单的分词就完成了。后缀树就是从右向左扫描一遍。