第126章伊芙·卡莉的邮件_穿越：2014

世界上很多国家都在对文本的探索。

人类社会记录方式的进步，某种程度上就集中表现在文本的不同凝练形式上。

文本的探索，对于一些大型企业来说，也是一项极为重要的工作。

涉及到文本摘要的发展，决定着一项又一项的产品的问世。

对于文本的探索，不仅仅对文学的深入研究有着很高的促进性，同样对于科技的推进有着巨大的促进作用。

总而言之，对文本摘要倾注些心血不过分。

毕竟这是林灰在技术领域方面迈出的第一步。

说到伊芙·卡莉遇到的困惑。

林灰没想到伊芙·卡莉的困惑主要集中在lh文本摘要准确度衡量模型的构建上。

林灰记得当时他关于这个模型构建已经阐述的够清楚的了。

构建模型的话首先要运用语言模型来评估算法生成语言的流畅度，然后使用相似度模型评估文本和摘要之间的语义相关性，最后为了有效评估实体、专有词的复现程度，引入原文信息量模型来评估。

虽然为了避免教会徒弟饿死师傅，林灰在这几个步骤之间故意遗漏了一些琐屑的步骤。

不过这种东西对于科研工作者来说，就像堑壕之于坦克。

虽然会有一些影响，但问题应该不大。

真的把所有的技术细节全部公布出来。

那也不能叫做公布技术路线了，那叫编教科书。

对于林灰提到的“运用语言模型来评估算法生成语言的流畅度”

伊芙·卡莉比较困惑林灰是怎么搞定语言模型训练的语料库的？

这个问题往后几年的话还真不是问题。

因为现成的语料库就一大堆。

仅仅是简体中文方面的语料库就有国家语委现代汉语语料库、京大语料库、语料库语言学在线等若干资源。

不过换到现在这个时空节点林灰显然不能跟别人研究人员说他用的是现成的预料库。

毕竟一些现成的语料库基本都是16年左右才问世的。

尽管如此，如何解释语料库来源的问题难不倒林灰。

事实上即便没有现成的语料库，想要构建一个可堪一用的能调教出早期生成式摘要算法的语料库也不是太复杂。

最简单的方式——借助互联网可以自动构建文本语料库。

当利用这种方法构建语料库的时候，用户只需要提供所需的文本类别体系。

而后从互联网中采集大量网站，提取并分析网站的内容层次结构和每个主题词对应的网页内容信息。

从每个网站中筛选出用户所需要的文本作为候选语料。

这个过程其实不复杂，有点类似于爬虫抓取网页的过程。

比较困难的是这种方法形成的语料库如何去噪。

但这对于林灰也不是问题。

只需要将从多个网站中匹配上的同一文本类别的候选语料合并成每个类别的候选语料库。

而后再对候选语料库中每个类别下的文本进行去噪处理就可以提高语料库的质量。

在完成去噪之后就可以输出语料库。

虽然这个过程实现起来仍旧不容易。

但学术领域上除了个别被孤立的杠精喜欢钻牛角尖之外。

大多数情况下只要逻辑自洽就没人死磕。

除了好奇林灰是如何构建语料库之外。

涉及到“使用相似度模型评估文本和摘要之间的语义相关性”

伊芙·卡莉比较好奇林灰究竟是使用何种相似度模型来评估文本摘要和摘要之间的语义相关的。

额，这个问题就比较涉及到林灰搞定的文本摘要准确度模型最核心的东西了。

关于这个问题的答案就不是三言两语能说得清的了。

第126章 伊芙·卡莉的邮件（2 / 2）