知识图谱的Top_k摘要模式挖掘算法研究

需积分: 0 139 浏览量更新于2024-08-05 收藏 1.12MB PDF 举报

"知识图谱的Top_k摘要模式挖掘方法_罗之皓1" 本文主要探讨的是如何在知识图谱中挖掘有效的摘要模式，以提高知识检索和挖掘的效率与质量。作者罗之皓等人提出了一个新的方法，针对知识图谱数据的大规模、多样化和无固定模式的特性，设计了一种Top_k摘要模式挖掘策略。摘要模式的定义是关键，它是从知识图谱中提取出的一组代表性的结构模式，能够概括图中大量信息。定义中提到的P1是一个具体的摘要模式，它由一系列的边（F,f2,F,f3）构成，这些边连接了图G中的节点c1和c2。摘要模式的判定准则和质量度量标准是该方法的基础，它们决定了哪些模式能被选入摘要集。作者将Top_Gk摘要模式挖掘问题转化为次模函数优化问题，这是一个在图论和组合优化中常见的问题，它的目标是找到图中最具代表性的k个模式。次模函数的特点是增加一个元素不会导致总价值的减少，这在寻找最优摘要模式时非常有用。为了解决这个问题，文章提出了一种基于Pregel编程模型的并行化算法。Pregel是一种分布式图处理框架，可以高效处理大规模图数据。在摘要模式的判定过程中，利用Pregel的并行计算能力可以显著加速模式的质量度量和覆盖度判断。接着，他们设计了一个贪心算法来寻找Top_k摘要模式。贪心算法是一种局部最优策略，每次选择当前状态下最优的解决方案，逐步构造全局最优解。在知识图谱的场景下，这意味着每次选择能最大化覆盖度的模式加入到摘要集中，直到达到k个模式。实验部分，研究人员在实际的知识图谱数据上验证了该方法的有效性。结果表明，该方法不仅在摘要模式的覆盖度上表现优秀，而且在算法执行效率上也优于现有的其他方法。这表明，他们的方法能够在保持高质量摘要的同时，处理大规模的知识图谱数据。关键词涵盖了知识图谱、摘要模式挖掘、次模函数和图匹配等核心概念，强调了研究的理论背景和技术手段。通过这些关键词，我们可以看出该研究是知识图谱领域中模式识别和信息抽取的重要进展，对于知识管理、数据分析和知识服务等领域有重要的实践指导意义。

ISSN１０００Ｇ００５４

CN１１Ｇ２２２３

清华大学学报

(

自然科学版

)

　JTsin

hua Univ

(

Sci& Technol

)

知识图谱的

Ｇ

摘要模式挖掘方法

罗之皓

１

李

劲

１

岳

昆

２

毛钰源

１

刘

琰

１

(

１．

云南大学软件学院

昆明

６５０５００

;

２．

云南大学信息学院

昆明

６５０５００

)

收稿日期

２０１８Ｇ０７Ｇ１９

基金项目

国家自然科学基金资助项目

(

６１５６２０９１

６１４７２３４５

);

第二批

“

云岭学者

”

培养项目

(

C６１５３００１

);

云南省应用基础研究计划面上项目

(

２０１６FB１１０

);

云南大学中青年骨干教师培养计划项目

;

云南大学青年英才培育计划项目

(

WX１７３６０２

);

云南大学数据驱动的软件工程科技创新团队项目

(

２０１７HC０１２

)

作者简介

罗之皓

(

１９９３

—),

男

硕士研究生

通信作者

李劲

男

副教授

EＧmail

in＠

nu．edu．cn

摘

要

知识图谱数据具有体量大

、

内容丰富

、

类型多样

、

缺乏统一模式描述特点

提取知识图谱模式信息并形成摘

要模式

对于提升知识检索

、

挖掘质量具有重要研究意义

该文首先给出了摘要模式的判定准则以及摘要模式质量的

度量标准

提出了面向知识图谱的

Ｇ

摘要模式挖掘问

题

并将该问题建模为一个次模函数优化问题

;

其次

为高

效判定摘要模式及度量模式的覆盖质量

提出了基于

Pre

编程模型的并行化摘要模式判定和质量度量算法

;

然后

给出了高效求解

Ｇ

摘要模式挖掘问题的贪心算

法

;

最后

在真实知识图谱数据上对本文方法进行了验证

实验结果表明

该方法在摘要模式的覆盖度和算法执行效

率方面优于已有方法

关键词

知识图谱

;

摘要模式挖掘

;

次模函数

;

图匹配

中图分类号

TP３１１．５

文献标志码

DOI

１０．１６５１１

．cnki．

hdxxb．２０１８．２６．０４４

Minin

Ｇ

summarization

atterns

forknowled

LUOZhihao

１

LIJin

１

YUEKun

２

MAOYu

uan

１

LIUYan

１

(

１．SchoolofSoftware

YunnanUniversit

Kunmin

６５０５００

China

;

２．SchoolofInformation

YunnanUniversit

Kunmin

６５０５００

China

)

Abstract

Knowled

hdatahaslar

evolumes

richcontent

diverset

and lacks a unified model descri

tion． Pattern

informationneedstobeextractedfromknowled

hstoim

rove

the

ualit

ofknowled

hretrievaland minin

．This

resents a knowled

h summarization

attern and

ualit

metrics．This methodisusedinan al

orithm for minin

Ｇ

summarization

atterns

(

Ｇ

SPM

)

formulatedasasubmodular

function o

timization

roblem． Then

a Pre

el based

arallel

orithmisusedtovalidatetheal

orithmandmeasurethe

ualities

ofsummarization

atterns．Twoefficient

reed

orithmsarealso

resentedtosolvetheTo

Ｇ

SPM．Theefficienc

andeffectiveness

ofthemethodisthenverifiedonrealknowled

hdatasets．The

testsshow thatthe methodout

erformstheexistin

methodsin

termsofcovera

eandal

orithmexecutiontime．

words

knowled

;

summarization

attern minin

;

submodularfunction

;

hmatchin

近年来

在网络信息技术的支撑下

以维基

百科

、

Freebase

等为代表的包含大量非结

构化

、

异构数据的知识图谱得到了快速发展

并

在社交网络

知识检索

生物信息学等领域都有

广泛的应用

[

１３

]

同时

知识图谱数据具有体量

庞大

、

内容丰富

、

类型多样

、

动态

、

无序性强

、

缺乏统一模式描述等特点

[

４

]

这些特点给用户准

确

、

有效地获取图谱知识带来了巨大的挑战

与

传统关系数据相比

知识图谱缺乏统一规范的模

式描述

对于用户而言

很难了解

、

掌握图谱数

据包含的模式信息

因此

高效提取知识图谱模

式信息

并形成摘要模式

(

summarization

atterns

以此来展示图谱数据信息

、

并分析不

同类型实体之间的相关关系

对于提升知识图谱

的知识检索

、

挖掘质量具有重要研究意义

[

５８

]

广义上讲

知识图谱是一种图数据

因此可基

于已有的频繁子图模式挖掘算法获得知识图谱的模

式信息

然而

直接基于已有的频繁子图模式挖掘

算法得到的图谱模式存在以下问题

１

)

用户很难

控制算法的频繁度值

往往产生大量的频繁子图模

式

;

２

)

模式的复杂程度不易控制

;

３

)

不同模式之

间往往相互交叠冗余

针对这些问题

Son

等

[

９

]

给

出了一种新的知识图谱摘要模式挖掘方法

该方法

基于已有的图模式挖掘算法得到候选模式集

并将

知识图谱模式摘要挖掘建模为一个双目标优化问

网络首发时间：2018-09-21 14:03:32

网络首发地址：http://kns.cnki.net/kcms/detail/11.2223.N.20180920.1619.001.html

下载后可阅读完整内容，剩余8页未读，立即下载

yxldr

粉丝: 23
资源: 326

知识图谱的Top_k摘要模式挖掘算法研究

多模态知识图谱构建_20240325235045.pdf

第一讲 知识图谱概览_技术_知识_课件_知识图谱概览_知识图谱_

JAVA高级工程师知识图谱_JAVA工程师知识图谱_java图谱_知识图谱_

中医药知识图谱构建_贾李蓉1

知识图谱课件_baiduyun.txt

knowledgegraph_人工智能_Knowledge_知识图谱_图谱_

知识图谱.zip_NLP 自然语言处理 深度学习 知识图谱_skini2k_知识图谱

面向网络空间安全情报的知识图谱综述_董聪1

中国科学院_大学_知识图谱课程_课件全集.rar

知识图谱_中文知识图谱_ CIPS（中国中文信息学会）_CCKS2018

最新资源

第一讲知识图谱概览_技术_知识_课件_知识图谱概览_知识图谱_

知识图谱.zip_NLP 自然语言处理深度学习知识图谱_skini2k_知识图谱