金融领域事件句抽取方法:公司名识别与特征权值表达式

需积分: 21 6 下载量 45 浏览量 更新于2024-09-07 1 收藏 966KB PDF 举报
“论文研究-金融领域的事件句抽取.pdf”探讨了金融领域中事件句抽取的关键技术和挑战,特别是公司名识别。研究者提出了一种方法,首先利用互联网搜索和上市公司名数据库进行公司名识别,通过检查搜索结果中是否包含特定关键词如“公司”或“集团”,并比较与已知公司名的匹配度。接着,他们构建了一个权值表达式,综合考虑句子的位置、公司名信息、领域动词的存在以及句子与标题的相似度,以确定金融事件句。实验结果显示,该方法在公司名识别上的准确率为82.28%,召回率为68.93%,事件句抽取的准确率为66.83%。 金融领域的事件句抽取是事件抽取任务中的核心部分,它涉及到从大量文本中自动提取具有特定意义的句子,这些句子通常涉及金融事件,如并购、财报发布、股价变动等。在金融文本中,公司名的正确识别至关重要,因为它们通常是事件的主要参与者。因此,研究者通过互联网搜索和已有的上市公司名数据库来提升公司名识别的准确性,这种方法能够有效扩大识别范围,捕捉到可能的公司简称和变体。 为了进一步筛选出金融事件句,研究者引入了多种特征,包括句子在文本中的位置信息,这通常会影响句子的重要性;句子是否包含公司名,这是事件句的一个显著特征;句子中是否存在特定的金融领域动词,如“收购”、“投资”等,这些动词常常与金融事件紧密关联;以及句子与文档标题的相似度,标题往往概括了文档的主要内容。通过建立基于这些特征的权值表达式,他们能更精确地识别出金融事件句。 此研究由多个项目资助,包括2014年度国家社会科学基金委托课题、北京成像技术高精尖创新中心项目和国家自然科学基金项目。作者团队由来自北京信息科技大学和首都师范大学的研究人员组成,他们在自然语言处理、中文与多媒体信息处理、语言学及应用语言学等领域有着深入研究。 关键词:公司名识别、事件句、简称、事件抽取。这些关键词反映了研究的核心内容和方法,强调了公司在金融事件抽取中的角色,以及识别简写对公司名识别的重要性,以及事件抽取的整体过程。