基于SINA城市新闻的事件驱动情感原因提取数据集与方法

需积分: 10 1 下载量 65 浏览量 更新于2024-08-12 收藏 435KB PDF 举报
本文主要探讨了"基于语料库构建的事件驱动情感原因提取"这一研究主题,发表于2016年的第十三届会议,自然语言处理实验方法(Natural Language Processing, NLP)上,地点位于美国德克萨斯州奥斯汀,时间是11月1日至5日。该研究由来自哈尔滨工业大学深圳研究生院、广东省级数据科学工程技术研究中心和香港理工大学计算机科学系的研究团队共同完成,作者包括Lin Gui、Dongyin Wu、Ruifeng Xu(共同第一作者)、Qin Lu和Yu Zhou。 由于在情感原因提取领域缺乏公开可用的数据集,这限制了研究的发展。为解决这个问题,作者首先开发了一个新的数据集,该数据集来源于SINAcity新闻。他们使用的标注依据是W3C情绪标记语言(W3C Emotion Markup Language, EML)的框架,这是一种标准,用于描述和标记文本中的情绪表达和其可能的原因。 研究的核心贡献在于提出了一种7元组定义,用于细致地描述情感引发事件。这个7元组模型可能包含了事件的主体、动作、时间、地点、情境、情感状态以及导致情感的原因等关键要素,有助于系统化和结构化地理解情感事件背后的原因。通过这种方式,研究者能够构建一个适用于机器学习和自然语言处理算法的情感原因提取模型,以自动从大量文本中识别和解析出情感触发的情境和因素。 此外,论文还可能探讨了语料库建设的方法,如何选择和预处理数据,以及如何确保标注的准确性和一致性。可能还涉及了模型的训练策略、特征工程、以及评估指标的选择,如精确度、召回率或F1分数等,以衡量模型在情感原因提取任务上的性能。 这篇研究论文不仅解决了情感原因提取领域的数据稀缺问题,还提出了一个创新的事件描述框架,并通过实际应用展示了在大规模文本数据中进行情感因果关系挖掘的可能性。这对于理解和分析公众情感动态、社交媒体舆情分析等领域具有重要的实践价值。