语言 Chinese, Simplified

SEO Title

Smarter enterprise search: why knowledge graphs and NLP can provide all the right answers

在获取信息和洞察力方面，我们正处于一个彻底转变的边缘，我们需要更聪明、更有效地工作。在这篇博客中，我将展示人工智能技术如何增强互联网搜索，现在如何应用于组织内部，从而彻底改变企业搜索所能实现的目标。

信息指数增长

我们所能得到的信息量是惊人的。而且它一直在呈指数级增长:数据量已经达到了44千兆字节，预计在未来五年内将达到175千兆字节(IDC)。80%的数据是非结构化的(电子邮件、文本文档、音频、视频、社交帖子等等)，只有20%是某种结构化的系统。

为了从这些海量资源中找到答案，并准确定位我们要寻找的东西，我们需要一种方法从文件中提取事实，并将这些事实存储在便于获取的地方。今天，搜索引擎巨头谷歌和必应正是这样做的，他们将这些事实存储在一个“知识图”中，这个图与他们已经使用多年的搜索引擎紧密相连。

他们的方法是否有效?它如此成功地提供了答案——并且以惊人的规模提供了答案——以至于我们认为这一切都是理所当然的。

搜索变得越来越智能

在过去的几年里，你会注意到我们在日常生活中使用搜索引擎寻找答案的方式发生了微妙而深刻的变化。

当搜索引擎首次被引入时，人们很快就发现，问题越长越复杂，得到正确答案的可能性就越小。因为像“乐购最畅销的汤里有多少卡路里?”虽然不太可能产生结果，但我们成了关键词搜索方面的专家。通过将我们的查询转换成带有“Tesco soup nutrition”这样的关键词的短语，我们发现搜索引擎提供了更多相关的文件，甚至提供了直接的答案，挖掘出了一些重要的信息，这些信息可以让我们改进工作任务，加深我们的知识，或者解决争论。

然而，如今，我们对搜索的期望更多地与我们使用数字助手的方式一致，如Siri、谷歌Home和Alexa，所有这些都是由幕后的搜索引擎驱动的。当我们向他们提问时，我们得到了事实作为回报。因此，我们看到搜索引擎的查询在本质上变得越来越“发现事实”。

大的变化?现在，搜索引擎可以找到，优先排序，并显示我们需要的事实。它们不再像以前那样简单地返回页面(url)列表。相反，它们在可能的时间和地点为问题提供答案，同时提供详细的知识卡片和其他相关的搜索查询，所有这些都旨在帮助我们缩短访问关键事实所需的时间。同样令人印象深刻的是，搜索引擎和数字助手返回的结果比以往任何时候都更准确、更直观。

这对企业搜索意味着什么?

像谷歌和必应这样的搜索引擎在很大程度上归功于两项重大创新。首先，在2012年，谷歌在其搜索引擎中添加了一个知识图。后来，在2015年，该公司推出了RankBrain。两者都是具有里程碑意义的进展。

同样的方法现在也可以应用于企业搜索。将这一技术层添加到企业搜索引擎中，有可能使它们比以往任何时候都更智能。这里的游戏规则改变者是智能企业搜索(也被称为认知搜索或洞察力引擎)。通过将搜索与大量人工智能技术(如自然语言处理、语义理解、机器学习和知识图)相结合，智能企业搜索可以为用户提供一个显著改进的搜索体验——具有更多的洞察力。

知识图谱——为知识建模的一种非常强大的方法

第一个图的知识。在将其搜索引擎转变为“知识引擎”的过程中，谷歌一直在使用知识图来提供有关人物、地点、公司和主题等实体的结构化和详细信息。回想一下你最近一次搜索名人的年龄或者当地药剂师的营业时间，而不是浏览搜索结果列表而直接得到答案的情形。这些信息可能来自知识图，而不是搜索引擎。

因此，它们在问答系统中被证明是非常强大的。知识图越含水，搜索就变得越有洞察力。从结构化数据填充知识图相对简单(假设您信任数据源)，从非结构化数据填充知识图需要使用复杂的自然语言处理(NLP)技术和文档权限模型。

为了说明可以实现什么，考虑下面的一段文字。里面有很多信息:

Gillian Russell出生在Invercargill。她是Gingerbeard有限公司的首席执行官，也是Gingerbeard咨询集团的公司秘书。Gillian和她的丈夫Phil Lewis住在英国的沃金厄姆。”

我们可以使用NLP来提取和分类文本示例中提到的事实作为语义三元组。这是三种信息:主体-谓词-对象，它们几乎可以建模实体之间的任何关系。这种编码信息的方法使知识能够以机器可读的方式呈现。

从这些语义三元组中可以生成表示相关实体的知识图。这个知识图是问答系统的强大基础，然后可以遍历它以提供答案，甚至是复杂的问题。

然而，在我们把知识图表放在所有文档上之前，有许多事情需要考虑:

我们是否信任此位置的数据源/文档中的信息?
吉尔/吉莉安和上面提到的吉莉安·拉塞尔是同一个人吗?
是“姜胡子”公司吗?还是海盗类型的人?
我们想要提取和记住这些实体之间的什么关系?
当他们询问时，谁被允许“接受”这些事实?

假设我们可以为一个给定的用例解决这些类型的问题，下面说明了建模知识和从这个文本示例创建知识图的一般过程。

knowledge graph model

图1所示。建模知识

这个知识模型可以开始回答如下问题:

Gillian Russell是哪家公司的顶级员工?
谁是姜须有限公司的老板?
吉尔认识菲尔·刘易斯吗?
沃金厄姆有谁出生在Invercargill?

正如你所看到的，这是一种强大的资源。

单词向量——机器理解意思的方式

这个领域的第二个创新是“单词向量”，它利用机器学习技术来模拟单词含义的多样性和深度。巧妙的是，通过将单词表示为向量，基于人工智能的系统建立了一种我们如何使用单词以及它们之间关联的感觉。

例如，在一个基于人工智能的系统的简化的“心理空间”中，单词“阿姨”(一个亲戚)与“Beeb阿姨”(英国新闻频道BBC的昵称)占据了不同的“心理空间”。“山姆大叔”(联邦政府)和“叔叔”的意思不一样。而在人工智能的“心理空间”中，“阿姨”和“叔叔”的意思是紧密相连的，而“Beeb阿姨”和“山姆大叔”则不是。

word vectors in knowledge graphs