排序两两比较模型:Why-not问题的高效解释与数据清洗策略
135 浏览量
更新于2024-06-28
收藏 2.7MB PDF 举报
本文主要探讨了在数据库查询过程中遇到的"两两比较模型的Why-not问题",这个问题指的是用户在查询结果中未能找到预期答案时产生的疑问,即"为什么预期的元组没有出现在结果中"。传统的处理方式是通过列举所有可能的元组值来解释这种缺失,但这种方法存在的问题是解释数量庞大,超出用户的理解和探索能力。
为了改进这一问题,研究人员提出了一个新颖的方法。首先,他们重新定义Why-not问题的解释形式,尽量避免使用变量,以提高用户可理解性。这是因为当属性简化后仅表示为变量时,用户可能难以理解其实际含义。这一步骤有助于增强解释的直观性。
接着,文章关注到了数据的稀疏性问题。为了解决直接在原始数据上学习导致的解释质量不高和不确定性,作者提出了一种基于{0,1}表示的元组对的统计模型。这种方法利用元组间的相等和不相等关系,构建了一个统计框架,能够有效地处理数据稀疏性。在这个框架下,多种统计模型,如统计分布、分类和回归模型,可以用来推断元组之间关系的概率。
最后,通过对这些推断概率的评估,文章实现了对Why-not问题解释的排序。这样做的目的是提供给用户更加合理、易于理解的解释,优先呈现那些可能性较高的原因,从而提高用户体验和解释的有效性。
实验结果显示,利用统计、分类和回归方法来计算元组间关系的概率分布,对于解释Why-not问题具有显著的优势,能够为用户提供质量更高的解释结果。因此,这种方法对于提升数据清洗过程中的数据质量问题,以及帮助用户理解和接受查询结果的不足,具有重要的实践价值。
关键词涉及到了数据质量、数据清洗、条件函数依赖、缺失结果解释以及解释排序等领域,显示了研究的针对性和实用性。该论文发表在《软件学报》上,为数据管理领域的理论研究和实际应用提供了新的视角和解决方案。
426 浏览量
2021-06-30 上传
133 浏览量
196 浏览量
6759 浏览量
152 浏览量
2024-06-27 上传
罗伯特之技术屋
- 粉丝: 4511
- 资源: 1万+
最新资源
- O2IXLB_oopJavaGyak:Java任务解决方案
- 拉格朗日插值:是-matlab开发
- MariaDB,mysql 数据库驱动下载
- 木质展示柜3d模型
- KainoAfricaApp:演示我们应用开发的移动应用
- 电信设备-一种具有无线通信功能的LED地埋灯.zip
- 主管会计岗位任务绩效考核指标
- Complete-ML-Coursework
- ema-john-server:heroku部署
- tibia-tools:一组用于胫骨的工具
- 现代家装3D设计
- Husky-开源
- 幅移键控:数字调制 ASK-matlab开发
- Unity 手机震动插件Vibration
- 职位说明书-项目助理DOC
- dotfiles:我的dotfiles