2018机器阅读理解竞赛：双向网络+em算法夺冠策略

需积分: 0 115 浏览量更新于2024-08-05 收藏 1.16MB PDF 举报

机器阅读理解竞赛模型介绍1 在这个介绍中，主要讨论的是机器阅读理解（Machine Reading Comprehension, MC）的概念以及在2018年中国中文信息学会、中国计算机学会和百度公司联合举办的机器阅读理解技术竞赛中的应用。MC的核心任务是让计算机理解给定的问题和上下文，从大量文本中找到最合适的答案。这需要构建一种能够处理复杂交互的模型，能够在问题和文章内容之间建立深层次的联系。参赛团队使用了一种基于双向注意力流神经网络（BiDAF+PassageSelf-Matching）的模型，这种网络结构允许模型同时关注问题和文章的上下文信息，从而生成问题-文章的张量表示。这个表示包含了对两者之间关系的理解，有助于定位可能的答案区域。接着，通过融合、自匹配和Pointernet解码等步骤，模型从文章中筛选出潜在的候选答案。由于一个问题可能对应多篇文章，因此候选答案集的生成是关键。模型将从每篇文章中找到的答案视为候选，将其视为一个分类问题。为了更好地评估候选答案之间的相似性和确定最佳答案，研究者采用了Expectation-Maximization (EM) 算法，这是一种迭代方法，用于估计模型参数并优化答案置信度。通过EM算法，模型能够交互候选答案之间的信息，从而提高选择正确答案的概率。最终，模型将神经网络的伴生向量和EM算法计算的候选答案置信度结合起来，作为输入到XGBoost算法中，XGBoost是一个强大的集成学习框架，用于进一步优化并确定最优答案。这种多层次的处理策略使得模型在众多参赛队伍中取得了不错的成绩，尤其是在BLEU-4和ROUGE-L评分上分别达到第6名和第14名。整个系统设计巧妙地解决了多答案场景下的问题，通过分步提取和优化策略，既保持了模型的可解释性，又提高了性能。这场比赛的成功展示了机器阅读理解在实际应用中的潜力，以及深度学习和优化算法如何共同推动了这一领域的进展。

机器阅读理解大赛总结

摘要

机器理解(MC)，即给定问题和上下文，找出能解决问题的上下文段内容，需要在上下文和查询之间建

立复杂的交互。借由 2018 年阅读理解技术竞赛这一机会，我们构建了阅读理解系统，并在 1000 多支报名

参赛团队中取得 BLEU-4 评分排名第 6，ROUGE-L 评分排名第 14 的成绩。在本文中，我们介绍了使用双向注

意力流神经网络(BiDAF+Passage Self-Matching)和 em 算法构建的机器阅读理解系统。该系统先使用双向

注意力流机制获得‘问题-文章’感知的张量表示。通过将该张量进行融合、自匹配、pointer net 解码等

过程，我们从文章中截取出候选答案。由于问题下往往有多篇文章，每篇文章找出一个答案便构成了候选

答案集。我们将从候选答案集中得到最佳答案这一任务，看作是分类问题。针对该分类任务，我们通过 em

算法进行候选答案间的信息交互，以获取候选答案作为正确答案的置信概率。最后，将神经网络的伴生向

量和 em 的候选答案置信概率都输入到 xgboost，以标注出最优答案。

一、比赛介绍

机器阅读理解(Machine Reading Comprehension)是指让机器阅读文本，然后回答和阅读内容相关的问

题。阅读理解是自然语言处理和人工智能领域的重要前沿课题，对于提升机器智能水平、使机器具有持续

知识获取能力具有重要价值，近年来受到学术界和工业界的广泛关注。

“2018 机器阅读理解技术竞赛”由中国中文信息学会、中国计算机学会和百度公司联手举办，是目前

国内该领域较为顶尖的赛事。竞赛提供了面向真实应用场景的大规模中文阅读理解数据集。

竞赛任务与数据说明

对于给定问题 q 及其对应的文本形式的候选文档集合 D=d1, d2, ..., dn，要求参评阅读理解系统自

动对问题及候选文档进行分析，输出能够满足问题的文本答案 a。目标是 a 能够正确、完整、简洁地回答

问题 q。

本次竞赛数据集来自搜索引擎真实应用场景，其中的问题为百度搜索用户的真实问题，每个问题对应

5 个候选文档文本及人工整理的优质答案。

二、系统架构

我们的模型采用先从每篇文章中独立抽取候选答案，再从候选答案集中抽取最佳答案的结构，以解决

多答案致使神经网络难以学习的问题。架构的具体实现中，我们通过 BiDAF+ Passage Self-Matching 从单

篇文章中抽取答案，再使用 em 和 xgboost 决策树从候选答案集中抽取最佳答案。

下载后可阅读完整内容，剩余8页未读，立即下载

山林公子

粉丝: 32

2018机器阅读理解竞赛：双向网络+em算法夺冠策略

我的百度机器阅读理解竞赛模型代码，获得final第三名.zip

百度机器阅读理解竞赛模型源码+项目说明（第三名）.zip

我的百度机器阅读理解竞赛模型代码 ，获得 final 第三名.zip

rc_tf:我的百度机器阅读理解竞赛模型代码 ，获得 final 第三名

2018百度机器阅读理解竞赛.zip

百度机器阅读理解竞赛模型代码分享与分析

百度机器阅读理解竞赛获奖模型代码解析

机器阅读理解基准模型分析及竞赛优势

百度机器阅读理解竞赛荣获前三名的参赛模型分享

百度机器阅读理解竞赛 rc_tf 模型解读：第三名佳绩背后的代码

最新资源

我的百度机器阅读理解竞赛模型代码，获得 final 第三名.zip

rc_tf:我的百度机器阅读理解竞赛模型代码，获得 final 第三名