知识图谱：AI新风口，现状与挑战详解

140 浏览量更新于2024-08-31 收藏 359KB PDF 举报

知识图谱作为人工智能领域的重要分支，近年来已经成为AI发展的一个关键趋势。它起源于谷歌提出的搜索引擎优化工具，随着技术的进步，其应用场景逐渐扩展到语音助手、聊天机器人、智能问答等多个热门AI应用。知识图谱被划分为通用知识图谱和领域知识图谱两大类。通用知识图谱主要服务于互联网搜索、推荐和问答等场景，侧重于广泛的信息覆盖，数据来源多样且难以形成全面的统一管理体系。然而，对于特定领域的知识需求，领域知识图谱显得更为关键。它通过结构化数据或处理非结构化数据，构建行业内的专业网络，如在安防领域，需要考虑实体的时空属性和轨迹数据，这就涉及到实体识别与链接、关系事件抽取、隐性关系发现等技术挑战。领域知识图谱的构建是整个应用的基础，质量直接影响应用效果。为了适应特定领域的特性，需要增强知识表示能力，比如在时间序列和空间维度上的建模。例如在安防领域，除了传统的实体和关系，还会引入事件对象，这些对象包含了主体、客体、时间、地点、事件内容等丰富的信息，用于描述现实世界的动态过程。构建领域知识图谱的过程中，不仅需要整合多源异构数据，还需要解决技术难题，如如何准确地识别和链接实体，如何从海量数据中抽取出有意义的关系，以及如何发现隐藏在数据背后的隐性关联。这些都是当前研究的焦点。总结来说，知识图谱在AI领域的进步不仅体现在技术层面的深化，更体现在其在实际场景中的广泛应用和定制化解决方案的开发。随着技术的发展，未来知识图谱将在更多的行业和应用中发挥核心作用，推动认知智能的进一步提升。

知识图谱已成知识图谱已成AI下一风口，但你知道它进展到哪了吗？下一风口，但你知道它进展到哪了吗？

知识图谱最初是由谷歌提出用来优化搜索引擎的技术，在不断发展中外延也一度扩大。盘点目前知识图谱的发展，其已经助力

了很多热门的人工智能场景的应用，例如语音助手、聊天机器人、智能问答等。当前的人工智能其实可以简单划分为感知智能

（主要集中在对于图片、视频以及语音的能力的探究）和认知智能（涉及知识推理、因果分析等），知识图谱就是认知智能领

域中主要的技术之一。

从使用的范围来讲，知识图谱分为通用知识图谱和领域知识图谱。通用知识图谱主要应用于面向互联网的搜索、推荐、问答等

业务场景。通用知识图谱强调的是广度，数据也多来自于互联网，很难形成完整的全局性的针对本体层的统一管理。而在越来

越多的垂直领域中，知识图谱也被广泛应用，已经成为了基础数据服务，为上层智能应用提供基础设施支撑。本文将重点探讨

领域知识图谱的发展与挑战。

1. 构建领域大脑

知识图谱的构建是整个应用链条的第一步，也是至关重要的一步，图谱构建的质量直接决定了上层应用的效果。知识图谱可以

将多源异构的数据汇聚到一起。

在一些行业中，领域知识图谱的构建比起通用知识图谱，会更加依赖于结构化数据去迅速构建出行业的显性网络。而在另外一

些行业中，需要处理的数据几乎都是非结构化数据，构建高质量的知识图谱就面临着更大的技术挑战。

在知识图谱构建技术挑战中，领域内知识表示建模、实体识别与实体链接、关系事件抽取、隐性关系发现等技术都当前研究的

热点。

针对领域特点增强知识表示能力

领域知识图谱往往汇聚多种领域内特有的数据，通用知识表示在特定的领域存在限制和不足。

举个例子，在很多领域时间和空间都是重要的计算维度，对实体时序和空间属性的建模缺失会限制上层应用的发挥。比如在安

防领域，除了实体和关系两种对象的数据外，还有一大类轨迹数据，具有更强的时空特征和时效性，数据总量也更大。这类数

据，虽然对实体的构建和关系构建都提供了信息，但其本身强时空特征，无法直接体现在实体 - 关系的拓扑结构或属性中。

另外，时间和空间作为最重要的维度，往往涉及大量的区间计算与聚合操作。因此，在安防知识图谱中，会设计第三类对象：

事件（event），将实体对象的行为数据，即：具备“主体”-“客体”-“时间”-“地点”-“时间段”-“事件内容”等多方面信息的数据，构

造成为事件对象。事件对象往往描述了一个现实世界中一个实体在一个时间点（段）或空间点（范围）发生的一个行为，其一

个重要的特点就是数据的属性值不会发生改变，这个特点可以使得系统在针对事件数据的存储和计算都可以进行优化。

批量结构化数据处理

行业知识图谱的核心实体、属性、关系和事件多来源于行业的内部的结构化数据。由于各种历史原因，这些系统中的数据通常

存在数据质量差、数据标准不统一、元数据描述缺乏、数据字典不全、数据一致性不完备等问题。批量结构化数据知识图谱构

建的挑战主要来自于如何做到工程化。越来越多的系统需要一整套完整的工程化的方案解决批式和流式的知识构建过程，通过

数据探查、数据理解、数据清洗、数据标准化、数据映射、数据关联、数据融合等几个阶段的工作，完成从质量不一的原始结

构化数据到最终知识图谱的过程。

实体识别与关系抽取

实体识别是利用非结构化数据构建知识图谱的关键步骤。实体识别后需要进行实体链接。实体链接是识别出实体与已有知识库

中对应实体进行链接，以补充知识图谱的内容。

传统的基于规则统计和成熟算法的手段已经可以很好的处理部分实体的抽取问题，很多领域实体识别都采用多种方法混合的实

体识别流水线。例如，在某个领域使用 CWS 负责识别人名、地名、组织机构名；用基于规则的开源组件负责对时间、温度、

频次等通用实体，以及难度较大的领域实体进行识别以及标准化；使用 biLSTM/CRF 负责酒店、网吧等机构名进行语料学习

训练，提升识别精度等。

除了传统的实体识别方法，目前也有越来越多的深度学习算法被用于解决实体识别问题。例如利用 CNN/LSTM 来学习词位置

处的向量表示，用滑动窗口分类的思想，使用神经网络学习句子中的每个 ngram 的表示，预测目标实体。深度学习方法训练

是一个端到端的过程，无需人工定义相关的特征。如何先验知识融入深度学习方法提高识别准确率是当前的研究的热点之一。

在目前阶段使用深度学习出比较好的效果需要相对大量的训练数据，所以在处理实际问题的时候要根据实际数据情况进行判

断。

实体识别与链接是知识图谱构建与知识应用的核心技术。在抽取实体的同时，我们往往也会在非结构化数据中抽取关系。关系

抽取是一项更有挑战的任务。领域知识图谱往往会先解决预定义关系抽取，因为在不同的领域中会存在领域特有的关系，而预

定义关系抽取的技术难度也会低于开放式关系抽取。

在实际工作中，我们往往针对不同类型的关系采用不同的方法进行抽取。比较常用的手段包括基于模式和专家规则方法、半监

督和有监督的机器学习方法。

基于规则的方法召回率低，实施成本高。基于机器学习的关系抽取方法占据了主导地位。但半监督的关系抽取得到的知识缺

乏语义信息，而有监督关系抽取中需要大量人工标注的高质量数据作为训练数据，人工成不很高当前前，绝大部分的关系抽取

研究还集中在预定义的关系抽取上。

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38714653

粉丝: 3
资源: 929

知识图谱：AI新风口，现状与挑战详解

AI人工智能技术分享 知识图谱技术及应用介绍-测试和评估知识图谱的质量 共121页.pdf

AI人工智能技术分享 知识图谱技术及应用介绍-知识图谱导论 共208页.pdf

百度知识图谱介绍 AI 人工智能 大规模通用知识图谱构造

知识图谱研究进展

知识图谱：AI新风口的发展现状与挑战

2019年人工智能知识图谱研究进展

知识图谱是人工智能的背后驱动力，谈谈知识图谱如何让“人工智能”更智能？

知识图谱综述研究进展

AI人工智能技术分享 知识图谱技术及应用介绍 人工智能之知识图谱 共87页.pdf

AI人工智能技术分享 知识图谱技术及应用介绍-问答系统中的知识图谱-知识图谱自动问答 共26页.pdf

最新资源

AI人工智能技术分享知识图谱技术及应用介绍-测试和评估知识图谱的质量共121页.pdf

AI人工智能技术分享知识图谱技术及应用介绍-知识图谱导论共208页.pdf

百度知识图谱介绍 AI 人工智能大规模通用知识图谱构造

AI人工智能技术分享知识图谱技术及应用介绍人工智能之知识图谱共87页.pdf

AI人工智能技术分享知识图谱技术及应用介绍-问答系统中的知识图谱-知识图谱自动问答共26页.pdf