background image

简要介绍下百度分词法

 

百度的搜索引擎中涉及到一种技术叫 百度分词法 ,有时候用户了解百度

分词法,可以更准确更快的找到所要的信息。而对于

SEO 的人来说,做网站优

化百度分词法是必不可少的,只有掌握了百度分词法,才算懂搜索引擎,也才
能更好的知道用户的搜索习惯。我们来看看百度分词有哪些技巧:
  
  一

.字符串匹配的分词方法

  
  

1.正向最大匹配法

  

  把一个词从左至右来分词。例如 不知道你在说什么 ,这句话采用正向最大
匹配法是如何分的呢

?“

不知道,你,在,说什么 与正向最大匹配法相对应的是

反向最大匹配发。这是第二种分词方法。
  
  

2.

反向最大匹配法。反向最大匹配法来分上面这段是如何分的。不,知道,

你在,说,什么 ,这个就分的比较多了,反向最大匹配法就是从右至左。
  
  

3.就是最短路径分词法。

  

  从 我不知道你在说什么 来分析,最短路径分词法就是指,我把上面哪句
话分成的词要是最少的。不知道,你在,说什么,这就是最短路径分词法,分出
来就只有

3

 

个词了 。好了,当然还有上面三种可以相互结合组成一些分词方法。

比如正向最大匹配法和反向最大匹配法组合起来就可以叫做双向最大匹配法。
  
  二

.词义分词法。

  
  进行句法、语义分析,利用句法信息和语义信息来处理歧义现象来分词,这
种分词方法,现在还不成熟。
  
  三

.统计的分词方法。

  
  根据词组的统计,就会发现两个相邻的字出现的频率最多,那么这个词就

很重要。就可以作为用户提供字符串中的分隔符。这样来分词。比如, 我的

,你的,

许多的,这里,这一,那里 。
  
  好了分词法已经说完了,我们现在来说说分词之后语义分歧问题,分词出
来的结果可以产生很多种。
  
  

1.混和型歧义

  
  混和型歧义是包含交集型歧义和组合型歧义的切分歧义。