上说到,我在图数库中,导入了新华字典所有内。接下来,就要能够理解一话,或者一个故事的内。
对于ai来说,导入了字只是能解释个字,但中文语法中,往往有很多词语是两个字的词,四个字的成语,甚至很多个字的歇后语等。比如秦王摸电门——嬴麻了。这些ai只能一个字一个字的解读出来,往往意就变得奇怪。
举个子,秦王,就会拆成“秦”:中国代诸侯国,在陕和甘肃一带。和“王”:古代一国君主的称号,现代有些国家仍用这种称号。而正的解释应该是“秦王”:秦王一是战国时秦国的君主。比如秦惠文王、秦武王,秦昭襄王、秦孝文王、秦庄襄王、秦王政等。
那么问题就很晰了:应该学会分词——把词语一个个分出来。其实,只是中文有这个问题,因为英文都是个词和个词用格隔开的,他们可以扫描格就断开个词。但是中文不行,中文个词和个词中间是连在一起的,是靠我们的大脑进行断词的。所以,中文的语义理解往往为困难,因为首就要分词。
那么,有没有现成的分词轮子或工呢?答案是肯定的。这种工其实很多,但由于术理论的迟滞,往往有时候效果不是很好,但是勉能用。比如大的
pkeg分词项目,hanlp分词等,都是可以免费使用的,开源的项目。于是我选择了hanlp分词项目,因为这个项目的功能比大那个多一些,比如词性标注,实体识等等的功能。