数据清洗新策略：基于条件函数依赖的规则挖掘与修复

189 浏览量更新于2024-06-18 收藏 2.13MB PDF 举报

在"基于条件函数依赖的数据清洗规则修复"这篇文章中，作者拉希德·萨利姆和阿斯玛·阿卜杜探讨了在数据质量日益受到重视的背景下，如何通过有效的数据清洗策略来解决数据库中的数据不一致性问题。他们提出的解决方案结合了数据挖掘技术，特别是条件函数依赖(CFD)的挖掘。首先，文章介绍了数据不一致是许多现代数据库中的常见问题，它会降低数据分析的准确性并阻碍决策制定。数据质量被认为是衡量数据价值的关键因素，因为它直接影响数据的可用性和有效性。由于数据本身没有物理属性来直观评价质量，因此定义数据质量需要考虑诸如适用性、一致性以及重复数据的去除等多方面特性。文章的核心技术是两个步骤的过程：首先，通过对大量数据挖掘出最大闭频繁模式，这些模式揭示了潜在的规律和依赖关系。接着，通过提升测度（如置信度和支持度）来确定哪些条件函数依赖规则是可靠且有用的，可以用于指导数据清洗过程。这些规则有助于识别和纠正数据中的不一致元组。为了验证所提出的修复技术的有效性，作者进行了广泛的实际和模拟实验，使用了现实生活中以及合成的医疗数据集。实验结果表明，与现有的数据修复方法相比，基于条件函数依赖的规则能够更有效地提高数据一致性，从而增强数据的质量，提升分析的精度和决策的可靠性。总结来说，这篇文章提供了一种创新的数据清洗策略，它结合了数据挖掘技术和数据质量评估，旨在提升数据库的整体性能，减少因数据不一致带来的负面影响。这对于任何依赖数据驱动决策的组织，尤其是那些处理大量动态数据的机构来说，具有实际的应用价值。同时，这项研究强调了数据质量管理和维护在现代信息技术中的核心地位。

R. Salem

，

A.Abdo/Future Computing and Informatics Journal 1

（

2016

）

10e 26

模式CC¼ 32，而不是整个关系。CFD4

确保对于任何元

组，如果客户的国家代码为1/40且区域代码为1/4872，则

客户的城市为UN，对于4

和4

类似。CFD4

、4

表示这些规则不能用FD表示

封闭频繁模式，如果模式不包含在具有相同支持的适

当超集中，则模式是频繁封闭的频繁闭合模式X的生成元

Y是具有与X相同的支持的模式约束，并且它不

具有相同支持度的任何子集。封闭频繁模式集是无损的，

它唯一地包含了关于其对应的频繁模式的完整信息[6]。

从封闭的频繁模式集中，可以直接得到所有频繁模式的身

份和支持度，而无需再次挖掘数据库。同时，封闭频繁模

式本身可能比所有频繁模式小几个数量级，特别是在密集

数据库中。

例如，从表1（[CC，AC，CT，ZIP] ，（40 ，827，

UN，08422））是具有等于3的支持的封闭模式集合。该

闭合模式具有两个生成器模式，（[CC，AC]，

(40，827））和（[ZIP]，（08422）），两者也具有等于3

的支持度。

最大频繁模式，被称为最大的，因为他们没有频繁的

超集。换句话说，模式是最大频繁的，如果它的直接超集

都不是

频繁。挖掘最大频繁模式有助于发现密集数据库中的长模

式。最大频繁模式集不仅唯一地定义了模式，而且最大频

繁模式的数目可以显著小于闭频繁模式的数目，因此最大

频繁模式的提取成为一个重要的问题.因此，最大频繁模

式集是频繁闭合模式集的子集，频繁闭合模式集是所有频

繁模式的子集。该模式提取采用有效的搜索机制，减小了

搜索空间域的大小.此外，这些模式的集合是最小集合，

即，所有频繁模式的最小集合[28]。

常数

CFD

问题是寻找包含非冗余CFD的最小频繁常数

CFD集的问题。这也意味着只发现具有常量模式的条件函

数依赖[19，30]。

修剪搜索空间：搜索空间仍然是数据挖掘研究中从数

据集中提取模式的一个主要问题。因此，从机器学习技术

中引入剪枝技术来减小搜索空间域的大小是必要的。修剪

的目的是去除

使用预定义的支持阈值从搜索空间中移除不频繁节点。修

剪的搜索空间明显小于未修剪的搜索空间。修剪用于从数

据集中的所有模式中提取恒定的条件函数依赖关系[19]。

医疗保健中的数据清洗：动机

医疗领域是信息系统中涉及脏和不一致

数据医疗数据管理系统应确保患者记录的高质量数据，特

别是关键决策基于此类记录。以电子方式记录的有关患者

的不正确数据可能导致错误的治疗和处方，这可能导致包

括死亡在内的几个问题[22，29]。图2显示了电子病历

（EMR）数据质量差的后果。电子病历（EMR）是当前

医院的主要自动化问题之一[3]。需要确保电子病历的质

量，以获得用户满意度，从而影响整个系统的有效性。用

户对其电子医疗数据的满意度被视为

确保电子病历质量的措施之一。在图3中，示出了电子病历

中的数据清洗过程的示意图。

此外，医疗保健利益相关者和服务提供者需要获得高

质量的医疗数据，以提供医疗服务以及处理临床决策，从

而提高医疗保健质量。他们需要这种具有准确质量的数

据，以充分利用决策过程。特别是，获取有关疾病治疗的

准确和可靠的信息是基于存储的关于患者的精确和一致的

数据[11，33]。因此，医疗卫生服务研究的目的是准确，

完整和一致的统计信息，以实践医疗卫生服务在一个社

会。

示例1：考虑表2所示的甲状腺数据集的数据样本。这

些数据涉及来自医学背景的若干信息。所提出的技术

旨在发现一些可靠的数据质量规则，用于检测和修复此类

不一致。

建议采用的各种技术

在传统技术中存在若干缺点，例如，传统的FD主要是

为模式设计而开发的。其他一些技术产生冗余的不可靠规

则，并且在具有大量属性的大型数据集中不可伸缩。此

外，其他技术需要用户参与清洁过程，这是昂贵的，

图二、电子医疗保健中的数据质量差

剩余16页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

数据清洗新策略：基于条件函数依赖的规则挖掘与修复

一种基于规则的数据清洗方案

基于规则引擎的数据清洗

python数据清洗函数

平凡函数依赖和非平凡函数依赖

6. 名词解释： 函数依赖、部分函数依赖、平凡函数依赖、传递函数依赖、候选码、外码

各个mysql的依赖_数据库中的函数依赖的完全函数依赖和部分函数依赖还有传递函数依赖怎么理解？...

简述什么是平凡函数依赖，什么是非凡函数依赖，什么是完全函数依赖，什么是部分函数依赖，什么是传递函数依赖，什么是主键，什么是主属性。

举例说明什么是函数依赖、部分函数依赖、完全函数依赖、传递依赖

最小函数覆盖和最小函数依赖是不是一样的

完全函数依赖和部分函数依赖有什么区别？

最新资源

6. 名词解释：函数依赖、部分函数依赖、平凡函数依赖、传递函数依赖、候选码、外码