2018机器阅读理解竞赛:双向网络+em算法夺冠策略

需积分: 0 0 下载量 115 浏览量 更新于2024-08-05 收藏 1.16MB PDF 举报
机器阅读理解竞赛模型介绍1 在这个介绍中,主要讨论的是机器阅读理解(Machine Reading Comprehension, MC)的概念以及在2018年中国中文信息学会、中国计算机学会和百度公司联合举办的机器阅读理解技术竞赛中的应用。MC的核心任务是让计算机理解给定的问题和上下文,从大量文本中找到最合适的答案。这需要构建一种能够处理复杂交互的模型,能够在问题和文章内容之间建立深层次的联系。 参赛团队使用了一种基于双向注意力流神经网络(BiDAF+PassageSelf-Matching)的模型,这种网络结构允许模型同时关注问题和文章的上下文信息,从而生成问题-文章的张量表示。这个表示包含了对两者之间关系的理解,有助于定位可能的答案区域。接着,通过融合、自匹配和Pointernet解码等步骤,模型从文章中筛选出潜在的候选答案。 由于一个问题可能对应多篇文章,因此候选答案集的生成是关键。模型将从每篇文章中找到的答案视为候选,将其视为一个分类问题。为了更好地评估候选答案之间的相似性和确定最佳答案,研究者采用了Expectation-Maximization (EM) 算法,这是一种迭代方法,用于估计模型参数并优化答案置信度。通过EM算法,模型能够交互候选答案之间的信息,从而提高选择正确答案的概率。 最终,模型将神经网络的伴生向量和EM算法计算的候选答案置信度结合起来,作为输入到XGBoost算法中,XGBoost是一个强大的集成学习框架,用于进一步优化并确定最优答案。这种多层次的处理策略使得模型在众多参赛队伍中取得了不错的成绩,尤其是在BLEU-4和ROUGE-L评分上分别达到第6名和第14名。 整个系统设计巧妙地解决了多答案场景下的问题,通过分步提取和优化策略,既保持了模型的可解释性,又提高了性能。这场比赛的成功展示了机器阅读理解在实际应用中的潜力,以及深度学习和优化算法如何共同推动了这一领域的进展。