视点
64
可用 W3C
3
提出的资源描述框架或属性图 (https://
github.com/tinkerpop/blueprints/wiki/Property-Graph-
Model) 来表示。
为了更好地理解知识图谱,我们先来了解它在
搜索中的展现形式——知识卡片。知识卡片是指为
用户查询中所包含的实体或返回的答案提供的详细
的结构化摘要,是特定查询的知识图谱。例如,当
在搜索引擎中输入“姚明”作为关键词时,我们发
现搜索结果页面的右侧原先用于置放广告的地方被
知识卡片取代。广告被移至左上角,而广告下面则
显示的是传统的搜索结果,即匹配关键词的文档列
表。这个布局上的微调也预示着各大搜索引擎在提
高用户体验和直接返回答案方面的决心。图 1 从左
到右依次是谷歌、百度和搜狗在搜索结果首页中所
展现的与姚明相关的知识卡片。
虽说三大搜索引擎在知识卡片的排版和内容展
现上略有不同,但是它们都列出了姚明的身高、体
重、民族等属性信息。此外,它们均包含“用户还
搜索了”或“其他人还搜”的功能来展现相关的人物。
该功能允许用户去浏览其他与姚明相关的人物的详
细信息。细心的读者会发现谷歌的知识卡片是以图
文并茂的方式展示了姚明的方方面面。百度则结合
了百度风云榜的信息,列出了姚明的类别(体坛人
物)及其百度指数(今日排名和今日搜索热度等信
大规模知识图谱技术
关键词 :知识图谱
王昊奋
华东理工大学
近年来,随着链接开放数据 (linking open data,
LOD)
1
等项目的全面展开,语义万维网数据源的数
量激增,大量的资源描述框架 (resource description
framework, RDF)
2
数据开始被发布。互联网正从仅
包含网页和网页之间超链接的“文档万维网”演进
为包含大量描述各种实体和实体之间丰富关系的
“数据万维网”。为了改进搜索质量,国内外互联网
搜索引擎公司纷纷以此为基础构建知识图谱,如谷
歌知识图谱 (Google Knowledge Graph)、百度“知心”
和搜狗的“知立方”,从而拉开了语义搜索的序幕。
知识图谱的表示和在搜索中的
展现形式
正如谷歌的辛格博士在介绍知识图谱时提到
的:“世界不是由字符串组成,而是由实体组成(The
world is not made of strings , but is made of things)。”
知识图谱旨在描述真实世界中存在的各种实体或概
念。其中,每个实体或概念可以用一个全局唯一确
定的标识符来标识 ;每个属性 - 值对(attribute-value
pair, AVP)用来刻画实体的内在特性 ;关系则用来
连接两个实体,刻画它们之间的关联。知识图谱亦
可被看作是一张巨大的图,图中的节点表示实体或
概念,图中的边由属性或关系构成。这个图模型
1
http://linkeddata.org/。
2
http://www.w3.org/TR/rdf-concepts/。
3
The World Wide Web Consortium,万维网联盟。