大数据时代中文事件相关性语料库构建与识别方法提升

需积分: 0 62 浏览量更新于2024-08-05 收藏 317KB PDF 举报

本文主要探讨了在大数据时代背景下，中文事件相关性语料库的构建及其识别方法的重要性和应用价值。事件作为文本中的关键组成部分，它们围绕特定主题展开并相互关联，这对于自然语言处理任务如信息抽取、文本摘要和文本生成具有显著帮助。作者黄一龙、李培峰和朱巧明来自苏州大学计算机科学与技术学院以及江苏省计算机信息处理技术重点实验室，他们针对这一问题进行了深入研究。首先，论文提出了一种新的相关事件标注方法，这种方法旨在确保在大量文本中能够准确识别那些与特定主题密切相关的事件。这涉及到对文本进行细致的分析，通过捕捉词语、短语和句子级别的上下文关系来确定事件之间的关联性。通过这种方法，他们构建了一个中文事件相关性语料库，这是一个关键资源，为后续的研究提供了丰富的数据基础。接着，他们设计了一个基于多种特征的相关性事件识别模型。这个模型可能涵盖了诸如词向量表示、语法结构、共现模式、情感分析等多种特征，以提高识别的准确性。通过实验，他们在标注语料库上的测试结果显示出其方法相对于基准系统的性能有所提升，具体表现为F1值提高了4.08%，这意味着他们的模型在识别相关事件方面具有较高的精度和效率。论文的关键词包括“相关事件语料库”、“标注”、“相关性”和“事件关系”，这些关键词突出了研究的核心内容和关注点。这篇文章为中文事件相关性的研究提供了重要的理论支持和技术手段，对于提高自然语言处理任务的智能化水平具有重要意义，同时也为未来的语料库建设和事件关系挖掘工作奠定了坚实的基础。在未来的工作中，可以预见这方面的研究将进一步推动文本理解和信息提取等领域的发展。

中文事件相关性语料库构建及识别方法

黄一龙

1,2

，李培峰

1,2

，朱巧明

1,2

（1.苏州大学计算机科学与技术学院，江苏苏州，215006；

2.江苏省计算机信息处理技术重点实验室，江苏苏州，215006）

摘要：

事件往往围绕主题展开，相互间存在相关性。在大数据时代，从海量信息中筛选出和某个主题相关

的事件，有助于信息抽取、文本摘要、文本生成等自然语言处理任务。本文首先提出一种相关事件的标注

方法，并标注了一个中文事件相关性语料库。然后，初步提出了一个基于多种特征的相关性事件识别方法。

在标注语料上的实验表明，性能在基准系统上

F1 值提高了 4.08%。

关键词：

相关事件语料库；标注；相关性；事件关系

中图分类号：

TP391

文献标识码：

The Construction of Chinese Relevant Event Corpus and Its Recognition

Approach

HUANG Yilong

1,2

,LI Peifeng

1,2

,ZHU Qiaoming

1,2

(1.School of Computer Science and Technology , Soochow University ,Suzhou ,Jiangsu

215006 ,China ;

2.Province Key Lab of Computer Information Processing Technology of Jiangsu ,Suzhou ,Jiangsu

215006 ,China

)

Abstract: There are many events surrounding a topic in a document and they are relevant events.

In the era of Big Data, extracting those events which are relevant to a specific topic is helpful

for many natural language processing applications, such as Information Extraction, Text

Summarization, and Text Generation. Firstly, this paper proposes a method to annotate relevant

events and constructs a Chinese relevant event corpus. Secondly, it puts forward a relevant event

recognition approach based on various kinds distance and semantics features. The experimental

results on the annotated corpus show that our approach outperforms the baseline 4.08% in

F1-measure.

Key words: relevant event corpus; annotation; relevance; event relation

1 引言

如今，互联网已成为人们交流信息和获取资料的主要平台。在其为人们生活提供便利的

同时，每天还会产生海量数据。这些数据中有大部分以文本形式存储，记录了大量事件，而

其中有许多事件相互关联。当人们使用搜索引擎查找某个特定事件时，不但希望获取所关心

的事件，还希望能够获得与之相关的事件。

事件是描述特定目标在某个时间、地点的某种状态。ACE

对事件作如下定义：事件是

包含参与者的具体发生的事情，常被用来描述状态的改变。在事件之间的多种关系中，时序

关系、因果关系等方面的研究相对较多，而在相关关系方面的研究较少。舍恩伯格在《大数

据时代》中认为，建立在相关关系分析法上面的预测是大数据的核心，只有在完成了对相关

基金项目：

国家自然科学基金（61472265）；国家自然科学基金重点项目（61331011）；江苏省前瞻性联

合研究项目（BY2014059-08）；软件新技术与产业化协同创新中心部分资助

ACE Guidelines 5.5.1, http://www.ldc.upenn.edu/Projects/ACE/

下载后可阅读完整内容，剩余7页未读，立即下载

扈涧盛

粉丝: 32
资源: 319

大数据时代中文事件相关性语料库构建与识别方法提升

ChatGPT技术的语料库构建与清洗方法.docx

搜狗互联网语料库2.0

Chinese-Korean Bilingual Corpus:中韩双语语料库的构建及检索技术-开源

基于单音节汉语语料库的语音质量测量与F0参数的相关性研究

具有参数一致性和事件相关性的中文事件提取中的联合参数推断

Python-通过构建辅助句子利用BERT进行情感分析的论文代码和语料库

基于网页的语料库自动生成.pdf

学习者语料库在我国英语教学的应用

跨语料库语音情感识别的转移稀疏判别子空间学习

2016新闻语料库：深度挖掘中文文本的新闻标题与关键词

最新资源