TRIP:交互检索-推断数据补全法:提升效率与召回率

0 下载量 161 浏览量 更新于2024-08-26 收藏 2.25MB PDF 举报
TRIP: 交互式检索-推断数据插补方法是一项针对数据插补问题的创新解决方案,它旨在解决数据库中字符串属性值缺失值填充的问题。当前,大多数数据插补技术依赖于推断方法,这类方法往往由于仅限于数据集内部的信息,导致在处理缺失值时召回率不高。为了提升精度,研究人员提出了检索方法,通过从外部资源如万维网获取信息,这种方法虽然能提高召回率,但代价是大量的搜索查询,带来了高昂的开销。 本文的核心贡献在于研究了推断方法和检索方法之间的互补关系。作者发现,尽管检索大量缺失值能显著提升推断方法的性能,但并非所有值都需检索。因此,TRIP方法的目标是通过交互式的方式,即在检索和推断之间进行选择,找到最少的缺失值进行检索,以最大化利用推断能力。这种方法的关键在于设计一个优化策略,能够在保证召回率的同时,最大限度地减少外部资源的使用。 TRIP算法的设计着重于确定性数据插补中的检索推理调度,理论上证明了其优化方案的最优性。然而,当面临τ约束的随机数据插补(τ-SDI)这样的特定场景时,最优方案可能无法实现,但TRIP仍能找到接近最优的解决方案,确保了期望的性能。 实验证据来自对四个数据集的大量实验,结果显示,TRIP平均只需检索大约20%的缺失值,却能达到与基于检索方法相当的高召回率。这表明,TRIP不仅有效地减少了外部资源的消耗,还能保持良好的插补效果,对于实际应用中的数据完整性维护具有重要意义。TRIP为数据插补领域提供了一个有效且资源节约的解决方案,对于提升数据质量、降低维护成本具有积极的影响。