~ 3 ~
本文第二节将阐述传统以 “ 信息 ” 为中心的微博分析计算所面临的特有挑战
,
随后重点介绍以主体为中心的微博计算方法 , 给出微博计算的研究框架 , 最后介
绍了我们在微博计算的研究进展。
2. 以 “ 信息 ” 为中心的微博分析面临挑战
对于传统常规文本的分析 , 用以信息为中心的分析方法能够解决信息挖掘的
目的 , 但对微博类短文本的分析任务更为艰巨 。 到目前为止 , 能收集到为数不多
的有关微博信息分析的论文多是研究英文
T witter
的,研究的内容也多是情感分
析的 。 文献
[2]
首次提出将 T witter 作为情感分析与观点挖掘的语料库 , 认为 T witte r
相对于传统网络应用形式,更适合于情感分析,并通过在收集到的
Twitter
语料
库基础上进行了语言分析。文献
[3]
在针对 T witter 的消息文本进行情感分析后,
能较为准确地预测出投票结果 , 并提出可作为社会投票调查的一种有效的替代方
法 。 有研究者针对 2008 年到 2009 年间的消费者信心与政治观点 , 发现与同时期
的
T witter
消息中出现的情感词词频正相关(在不同数据集的实验表明相关度高
达 80% ) , 因此能够通过大规模的消息情感分析 , 把握各类话题的总体发展趋势
。
在与传统常规文本情感分析的对比上,文献
[4]
在对英文
T witter
的研究中发现,
短文本在情感分析方面反而更加精准 , 其发现有一定的语言学依据 , 但其结论是
否适用于中文微博,还有待进一步验证。
在对国内外学者的研究成果分析的基础上 , 本文认为新型社会网络的信息计
算遇到了前所未有的挑战,主要包括:
1 ) 微博社会网络包含的 信息内容短小但规模巨大 , 如微博每条最多 140 字
,
每天 原创的微博数千万条 , 导致单条内容的分析极其困难 , 而总体计算的代价极
大 ;
2 ) 微博社会网络 内容不规范,语言口语化严重,且有上下文背景 ,单条内
容很难被完整正确的分析 ;
3 ) 传统静态网页可追溯可脱机计算,而微博社会网络的 信息快捷,稍纵即
逝 ;对社会网络信息的计算需要足够高效 ;
以 “ NLP ” (自然语言处理)为例,可以通过微博搜索到如下结果,不同微
博对 “ NLP ” 存在多种歧义理解,从内容上很难区分和理解。我们在人工综合微
博博主的各种背景资料之后 , 会发现 “ NLP 学院 ” 是专门从事心理学培训相关的
,
因此,一条微博中的 NLP 居然表示的是 “ neuro linguistic programming ” (即
身心语言程序学 , NLP 是关于人类行为和沟通程序的一套详细可行的模式 , 是很
热门的心理学和成功学的培训课程 ) ; 同样 , 只有在了解博主刘知远 THU 是清华
大学计算机博士之后,我们才能真正理解另一条微博中的 NLP 含义为 “ natural