多示例学习提升题库重复检测效率:91.3%准确率与92.3%查全率

需积分: 15 0 下载量 136 浏览量 更新于2024-08-11 收藏 3.38MB PDF 举报
本文探讨了一种基于多示例学习的题库重复性检测方法,发表于2005年的论文中,由汤世平和樊孝忠两位作者来自北京理工大学信息科学技术学院计算机科学工程系。该研究旨在改进传统的题库重复性检测算法,针对那些包含多个子问题的试题,将其转化为一个多示例学习的问题,从而更有效地处理复杂题目的相似性判断。 核心思想在于,传统方法可能依赖于同义词典来识别重复试题,而这往往限制了检测的准确性和效率。作者提出了一种创新的方法,即利用前缀树构建的高频词抽取算法来提取试题的内容特征,这种方法消除了对同义词典的过度依赖,提高了特征提取的灵活性和精确性。这有助于捕捉试题之间的实质相似性,而不仅仅是表面词汇的匹配。 论文进一步结合了试题的元数据特征,如题目类型、难度、发布时间等,这些辅助信息可以提供更全面的比较依据。通过计算基于这些特征的试题相似度,作者提出了一种新的度量标准,可能是最小Hausdorff距离,这是一种用于衡量两个集合之间最远点对之间距离的统计概念,这里可能被用来衡量试题间的差异程度。 实验结果表明,这种方法在实际题库中的应用非常有效,具有较高的正确率(91.3%)和查全率(92.3%),这意味着检测出的重复试题准确无误,并且能够覆盖大部分潜在的重复情况。这一成果对于推动题库系统的整合具有重要意义,因为它能够帮助教育机构更有效地管理和更新题库,确保资源的唯一性和有效性。 这篇文章展示了多示例学习在题库重复性检测领域的潜力,以及如何通过结合内容特征和元数据,设计出一个既准确又能处理复杂问题的高效检测模型。这种技术的进步为教育技术领域提供了有价值的参考,也为未来的教育评估和资源管理提供了新的思路。