第 42 卷 第 6 期 自 动 化 学 报 Vol. 42, No. 6
2016 年 6 月 ACTA AUTOMATICA SINICA June, 2016
基于词向量语义分类的微博实体链接方法
冯 冲
1
石 戈
1
郭宇航
1
龚 静
1
黄河燕
1, 2
摘 要 微博实体链接是把微博中给定的指称链接到知识库的过程, 广泛应用于信息抽取、自动问答等自然语言处理任务
(Natural language processing, NLP). 由于微博内容简短, 传统长文本实体链接的算法并不能很好地用于微博实体链接任务.
以往研究大都基于实体指称及其上下文构建模型进行消歧, 难以识别具有相似词汇和句法特征的候选实体. 本文充分利用指
称和候选实体本身所含有的语义信息, 提出在词向量层面对任务进行抽象建模, 并设计一种基于词向量语义分类的微博实体
链接方法. 首先通过神经网络训练词向量模板, 然后通过实体聚类获得类别标签作为特征, 再通过多分类模型预测目标实体的
主题类别来完成实体消歧. 在 NLPCC2014 公开评测数据集上的实验结果表明, 本文方法的准确率和召回率均高于此前已报
道的最佳结果, 特别是实体链接准确率有显著提升.
关键词 词向量, 实体链接, 社会媒体处理, 神经网络, 多分类
引用格式 冯冲, 石戈, 郭宇航, 龚静, 黄河燕. 基于词向量语义分类的微博实体链接方法. 自动化学报, 2016, 42(6): 915−922
DOI 10.16383/j.aas.2016.c150715
An Entity Linking Method for Microblog Based on Semantic
Categorization by Word Embeddings
FENG Chong
1
SHI Ge
1
GUO Yu-Hang
1
GONG Jing
1
HUANG He-Yan
1, 2
Abstract As a widely applied task in natural language pro cessing (NLP), named entity linking (NEL) is to link a given
mention to an unambiguous entity in knowledge base. NEL plays an important role in information extraction and question
answering. Since contents of microblog are short, traditional algorithms for long texts linking do not fit the microblog
linking task well. Precious studies mostly constructed models based on mentions and its context to disambiguate entities,
which are difficult to identify candidates with similar lexical and syntactic features. In this pap er, we propose a novel NEL
metho d based on semantic categorization through abstracting in terms of word embeddings, which can make full use of
semantic involved in mentions and candidates. Initially, we get the word embeddings through neural network and cluster
the entities as features. Then, the candidates are disambiguated through predicting the categories of entities by multiple
classifiers. Lastly, we test the method on dataset of NLPCC2014, and draw the conclusion that the prop osed method gets
a better result than the best known work, especially on accurancy.
Key words Word embedding, entity linking, social media processing, neural network, multiple classifiers
Citation Feng Chong, Shi Ge, Guo Yu-Hang, Gong Jing, Huang He-Yan. An entity linking method for microblog based
on semantic categorization by word embeddings. Acta Automatica Sinica, 2016, 42(6): 915− 922
微博是一种通过关注机制分享简短实时信息的
广播式的社交网络平台, 已成为目前最流行的社交
收稿日期 2015-10-29 录用日期 2016-05-03
Manuscript received October 29, 2015; accepted May 3, 2016
国家重点基础研究发展计划 (973 计划) (2013CB329303), 国家高技
术研究发展计划 (863 计划) (2015AA015404), 国家自然科学基金 (61
502035), 高等学校博士学科点专项科研基金 (20121101120026) 资助
Supported by National Basic Research Program of China (973
Program) (2013CB329303), National High Technology Research
and Development Program of China (863 Program) (2015AA015
404), National Natural Science Foundation of China (61502035),
and Specialized Research Fund for the Doctoral Program of
Higher Education (20121101120026)
本文责任编委 柯登峰
Recommended by Associate Editor KE Deng-Feng
1. 北京理工大学计算机学院 北京 100081 2. 北京市海量语言信息
处理与云计算应用工程技术研究中心 北京 100081
1. College of Computer Science and Technology, Beijing In-
stitute of Technology, Beijing 100081 2. Beijing Engineering
Research Center of High Volume Language Information Process-
ing and Cloud Computing Applications, Beijing 100081
平台之一. 截至 2014 年 9 月 30 日, 微博的月活跃
用户已经达到 1.67 亿, 用户每天产生的微博数目达
到 2 亿
[1]
. 如何从海量微博中自动地及时分析、获得
信息已成为研究和应用热点问题, 微博实体链接是
其中关键任务之一.
微博实体链接是指将微博中已经识别出的实
体指称链接到知识库中的一个具体真实实体的过
程
[2−3]
. 例如, 微博 “在我眼中, 科比还是比乔丹棒
的” 中, “乔丹” 作为实体指称, 在知识库中有 6 个
实体义项. 实体链接的目标就是要确定, 这里的 “乔
丹”, 指代的是知识库中哪个实体义项.
以往实体链接研究主要集中在新闻等长文, 对
于微博等短文本的研究工作刚起步. 微博具有两个
特点
[4]
: 1) 内容非常简短, 通常每篇至多包含 140
个字符; 2) 格式不规范, 经常出现口语和缩写等灵活