微博计算新范式：主体驱动的分析与挖掘 - CSDN文库

需积分: 0 76 浏览量更新于2024-08-05 收藏 1.18MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

资源详情

资源推荐

~ 3 ~

本文第二节将阐述传统以 “ 信息 ” 为中心的微博分析计算所面临的特有挑战

，

随后重点介绍以主体为中心的微博计算方法，给出微博计算的研究框架，最后介

绍了我们在微博计算的研究进展。

2. 以 “ 信息 ” 为中心的微博分析面临挑战

对于传统常规文本的分析，用以信息为中心的分析方法能够解决信息挖掘的

目的，但对微博类短文本的分析任务更为艰巨。到目前为止，能收集到为数不多

的有关微博信息分析的论文多是研究英文

T witter

的，研究的内容也多是情感分

析的。文献

[2]

首次提出将 T witter 作为情感分析与观点挖掘的语料库，认为 T witte r

相对于传统网络应用形式，更适合于情感分析，并通过在收集到的

Twitter

语料

库基础上进行了语言分析。文献

[3]

在针对 T witter 的消息文本进行情感分析后，

能较为准确地预测出投票结果，并提出可作为社会投票调查的一种有效的替代方

法。有研究者针对 2008 年到 2009 年间的消费者信心与政治观点，发现与同时期

的

T witter

消息中出现的情感词词频正相关（在不同数据集的实验表明相关度高

达 80% ），因此能够通过大规模的消息情感分析，把握各类话题的总体发展趋势

。

在与传统常规文本情感分析的对比上，文献

[4]

在对英文

T witter

的研究中发现，

短文本在情感分析方面反而更加精准，其发现有一定的语言学依据，但其结论是

否适用于中文微博，还有待进一步验证。

在对国内外学者的研究成果分析的基础上，本文认为新型社会网络的信息计

算遇到了前所未有的挑战，主要包括：

1 ）微博社会网络包含的信息内容短小但规模巨大，如微博每条最多 140 字

，

每天原创的微博数千万条，导致单条内容的分析极其困难，而总体计算的代价极

大；

2 ）微博社会网络内容不规范，语言口语化严重，且有上下文背景，单条内

容很难被完整正确的分析；

3 ）传统静态网页可追溯可脱机计算，而微博社会网络的信息快捷，稍纵即

逝；对社会网络信息的计算需要足够高效；

以 “ NLP ” （自然语言处理）为例，可以通过微博搜索到如下结果，不同微

博对 “ NLP ” 存在多种歧义理解，从内容上很难区分和理解。我们在人工综合微

博博主的各种背景资料之后，会发现 “ NLP 学院 ” 是专门从事心理学培训相关的

，

因此，一条微博中的 NLP 居然表示的是 “ neuro linguistic programming ” （即

身心语言程序学， NLP 是关于人类行为和沟通程序的一套详细可行的模式，是很

热门的心理学和成功学的培训课程）；同样，只有在了解博主刘知远 THU 是清华

大学计算机博士之后，我们才能真正理解另一条微博中的 NLP 含义为 “ natural

剩余10页未读，继续阅读

thebestuzi

粉丝: 34
资源: 311

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈