第七章千里之行,始于足下 2 ._我通用人工智能之父

上说到，我在图数库中，导入了新华字典所有内。接下来，就要能够理解一话，或者一个故事的内。

对于ai来说，导入了字只是能解释个字，但中文语法中，往往有很多词语是两个字的词，四个字的成语，甚至很多个字的歇后语等。比如秦王摸电门——嬴麻了。这些ai只能一个字一个字的解读出来，往往意就变得奇怪。

举个子，秦王，就会拆成“秦”：中国代诸侯国，在陕和甘肃一带。和“王”：古代一国君主的称号，现代有些国家仍用这种称号。而正的解释应该是“秦王”：秦王一是战国时秦国的君主。比如秦惠文王、秦武王，秦昭襄王、秦孝文王、秦庄襄王、秦王政等。

那么问题就很晰了：应该学会分词——把词语一个个分出来。其实，只是中文有这个问题，因为英文都是个词和个词用格隔开的，他们可以扫描格就断开个词。但是中文不行，中文个词和个词中间是连在一起的，是靠我们的大脑进行断词的。所以，中文的语义理解往往为困难，因为首就要分词。

那么，有没有现成的分词轮子或工呢？答案是肯定的。这种工其实很多，但由于术理论的迟滞，往往有时候效果不是很好，但是勉能用。比如大的

pkeg分词项目，hanlp分词等，都是可以免费使用的，开源的项目。于是我选择了hanlp分词项目，因为这个项目的功能比大那个多一些，比如词性标注，实体识等等的功能。

第七章 千里之行,始于足下 2 .（1 / 2）