后修剪与精度评估：机器学习与数据挖掘实例解析

需积分: 9 153 浏览量更新于2024-07-17 收藏 3.48MB PDF 举报

Encyclopedia of Machine Learning and Data Mining(2nd) 的第六部分主要探讨了机器学习中的关键概念和技术。其中，"Post-pruning" (后修剪) 是一种策略，它在学习过程中可能遇到过拟合问题后，通过额外的简化步骤来改进模型。后修剪涉及先训练一个潜在过拟合的模型，然后在单独阶段进行模型优化，以提高泛化能力。过拟合和预修剪（pre-pruning）是与此相关的话题，它们都是防止模型过度适应训练数据的手段。精度（Precision）是评价分类模型性能的重要指标，它是模型预测为正类的样本中实际为正类的比例，即 TP / (TP + FP)，它衡量了模型正确识别正例的能力。精确度与召回率（Recall）一起构成了评估模型效果的两个维度。召回率是实际为正类的样本中被模型正确识别为正例的比例，即 TP / (TP + FN)，它强调了模型发现所有正例的能力。 "Precision and Recall" 在许多领域都有应用，如信息检索，其中精确度衡量系统返回的相关文档与检索总数的比例，而召回率则是相关文档被检索出来的数量占数据库中总相关文档的比例。这两个指标在评估搜索系统的性能时至关重要，尤其是在平衡查全率和查准率的挑战中。在逻辑学中，如First-Order Logic（一阶逻辑）和Predicate Logic（谓词逻辑），这些概念也有所体现。一阶逻辑处理的是关于个体和它们之间关系的陈述，而谓词逻辑则进一步扩展了这种逻辑框架，包括量化和函数符号。在机器学习中，这些逻辑结构对于构建和理解复杂的规则系统以及推理过程是不可或缺的。此外，文中提到的 "confusion matrix"（混淆矩阵）是一种常用的工具，用于可视化分类模型的性能，它将预测结果与实际类别进行对比，展示了真正例（TP）、假阴性（FN）、假阳性（FP）和真阴性（TN）的数量，从而帮助我们理解模型在不同类别的识别准确性和漏报率。这部分内容深入剖析了机器学习中的后修剪、精确度、召回率以及相关逻辑概念在信息检索和模型评估中的运用，为理解和优化模型提供了实用的理论基础。

Pre-pruning

1005

€

Multi-armed bandit

€

Online Learning

€

Rank Correlation

€

回归

推荐阅读

Boutilier C，Brafman R，Domshlak C，Hoos H，P

oole D（2004）CP-nets：用于表示和推理有条

件的其他条件不一致的工具。 J AI Res 21：135

-191

Busa-Fekete R

，

Hu¨llermeierE

（

2014

）基于偏好的

在线学习与强盗算法的调查。

在：

ALT

会议记

录，第

届算法学习理论国际会议，布莱德。

施普林格，第

18-39

页

Cao Z，Qin T，Liu TY，Tsai MF，Li H（2007）

学习排名：从成对方法到列表方法。见：ICM

L会议记录，第24届机器学习国际会议，第129-

136页

Cheng W

，

Hu¨hnJ

，

Hu¨llermeierE

（

2009

）用于标

签排名的决策树和基于实例的学习。

参见：

ML-2009

会议记录，第

届机器学习国际会议，

蒙特利尔，第

161-168

页

Cheng W

，

Dembczynski K

，

Hu¨llermeierE

（

2010

）

基于

Plackett-Luce

模型的

La bel

排名。

参见：

ML-2010

会议录，国际机器学习会议，海法，第

215-222

页

Cheng W

，

Hu¨llermeierE

，

Waegeman W

，

Welker

（

2012

）基于阈值概率模型的部分弃权标签排

名。

在：亲

Herbrich R, Graepel T, Bollmann-Sdorra P, Ober- ma

yer K (1998) Supervised learning of preference rel

ations. In: Proceedings des Fachgruppentreffens M

aschinelles Lernen (FGML-98), pp 43–47

Hu¨llermeierE

，

Fu¨rnkranzJ

（

2010

）关于成对标签

排名中的预测准确性和风险最小化。

J Comput S

yst Sci 76

（

）：

49-62

Hu¨llermeier E, Fu¨rnkranz J, Cheng W, Brinker K (2

008) Label ranking by learning pairwise prefer- enc

es. Artif Intell 172:1897–1917

Joachims T（2002）使用点击数据优化搜索引擎。

在：KDD-02会议记录，第8届ACM SIGKDD知

识发现和数据挖掘国际会议。 ACM出版社，第

133-142页

Kamishima T，Kazawa H，Akaho S（2010）对象

排名方法的调查和实证比较。在：Fu¨rnkranzJ，

Hu¨llermeierE（编辑）优先学习。斯普林格，

海德堡/纽约，第181-202页

刘TY（2011）学习对信息进行排名。施普林格，

柏林/海德堡/纽约

Scha¨ferD

，

Hu¨llermeierE

（

2015

）

Dyad

使用双线性

Plackett-Luce

模型排名。

在：

ECML / PKDD-201

会议，欧洲数据库机器学习和知识发现会议，

波尔图

Tesauro G（1989）通过比较训练联系主义学习专

家偏好。 In：神经信息处理系统1的进展（NIP

S-88）。 Morgan Kaufmann，第99-106页

Tsochantaridis I，Joachims T，Hofmann T，Altun

Y（2005）用于结构化和相互依赖的输出变量

的大边际方法。 J Mach Learn Res 6：1453-1484

NIPS-2012年第26届年会

Vembu S

，

Ga¨rtnerT

（

2010

）标签排名：一项调查。

关于神经信息处理系统，太浩湖

Cohen WW, Schapire RE, Singer Y (1999) Learning t

o order things. J Artif Intell Res 10(1):243–270

Domshlak C, Hu¨llermeier E, Kaci S, Prade H (2011)

Preferences in AI: an overview. Artif Intell 175(7–

8):1037–1052

Fishburn PC（1969）决策的效用理论。威利，纽

约

Fu¨rnkranzJ

，

Hu¨llermeierE

（

eds

）（

2010

）偏好学

习。

施普林格，海德堡

纽约

Fu¨rnkranzJ

，

Hu¨llermeierE

（

2010

）偏好学习：介

绍。

在：偏好学习。

斯普林格，海德堡

纽约，

第

1-18

页

Fu¨rnkranzJ

，

Hu¨llermeierE

，

Vanderlooy S

（

2009

）

Bipartary decomposition methods for multipartite r

anking

。

在：

ECML / PKDD-2009

会议录，欧洲

数据库机器学习和知识发现会议，布莱德

Har-Peled S，Roth D，Zimak D（2002）约束分类：

多类分类的新方法。在：第13届国际会议上关

于算法学习理论的论文，Lu¨beck。施普林格，

第365-379页

在：

Fu¨rnkranzJ

，

Hu¨llermeierE

（编辑）偏好学

习。

施普林格，海德堡

纽约

Zhou Y, Lui Y, Yang J, He X, Liu L (2014) A taxono

my of label ranking algorithms. J Comput 9(3):557

预修剪

同义词停止

标准

定义

预修剪是一个

€

修剪机制是星期一到itors学习

过程，并防止进一步的改进，如果当前假设

变得过于复杂。

Privacy-Related Aspects and Techniques

1007

和架构的开发是为了保护机器学习（ML）算

法使用数据的人的隐私。该领域也称为隐私

保护数据挖掘（PPDM），解决了ML和数据

挖掘中的数据隐私问题。大多数现有的方法

和方法旨在隐藏学习算法中的原始数据，同

时新兴的方法确保学习的模型不会泄露私人

信息。另一个研究方向考虑了多方将数据引

入模型构建过程而不相互揭示自己的数据的

方法。

动机和背景

任何讨论数据挖掘隐私方面的关键概念是隐

私的定义。在艾伦威斯汀之后，我们将隐私

理解为“个人:::自己确定何时，如何以及在何

种程度上将他们的信息传达给他人的能力”

（Westin 1967）。关于现代计算的一个主要

社会问题是，存储，保存和处理大量数据可

能会危及个人隐私

执行，例如，数据扰动，随机化，泛化和隐

藏; （2）对数据起作用的ML算法以及如何修

改以满足对其施加的隐私要求; 和

（3）数据是集中还是分布在多方之间，而在

后一种情况下，是基于分布的基础。但即使

在更基础的层面上，仅从两个基本维度来看

待与隐私相关的技术也是有用的。

第一个维度将受保护的内容定义为私有 -

它是数据本身还是模型（数据挖掘的结果）？

如下所示，后者的知识也可以导致识别和揭

示有关个人的信息。第二个维度定义了数据

使用的协议：数据是由单个所有者集中和拥

有的，还是在多方之间分配的数据？在前一

种情况下，当数据被其他人用于构建模型时，

所有者需要保护数据不泄露有关数据中表示

的个人的信息。在后一种情况下，我们假设

各方对彼此的信任有限：他们对所有各方数

据联合进行的数据挖掘结果感兴趣，

数据代表谁。特别是ML和向

披露有关个人的信息

它能够从现有数据中找到模式和推断新事实，

这使得人们很难控制自己的信息。此外，通

常组合起来进行大规模模型构建（例如，大

型数据存储库和数据仓库）的基础设施有助

于滥用数据。个人数据集中在大型馆藏中，

可以通过数据库轻松访问，并且通常可以在

线提供给整个世界 - 正如Moor用恰当的比喻

（Moor 2004）所表达的那样- “润滑。 ”人们

很难控制使用这些数据。

Theory/Solutions

隐私技术的基本维度隐私相关技术的特点可

以是：（1）源数据修改的类型

其他党派。

此外，PPDM的工作必须采用比标准ML方

法更广泛的框架。当隐私是一个重要目标时，

性能评估中最重要的不仅是标准的ML性能测

量，还包括对所实现的隐私的一些衡量，以

及对攻击方法的稳健性的一些分析。

在本文中，我们根据上面提出的分类法对

PPDM目前的工作进行了讨论。这导致了以

下鸟瞰场地。

保护集中数据

该子领域于2000年出现，其中包括Agrawal和

Srikant（2000）的开创性论文。他们表示问

题如下：给定标准

€

属性 - 值表示中的数据，

如何进行

1008

Privacy-Related Aspects and Techniques

建立精确的

€

决策树，使得决策树归纳算法

不是使用原始属性值x

，而是取输入值x

r，

其中r属于某个分布（高斯或均匀）。这是

一种数据扰动技术：原始值被更改为无法识

别，而整个数据集的分布属性即决策树

€

感

应使用保持不变，至少在精确度方面降低

（实际上，小于5％）。与从原始数据获得

的模型相比，这种方法保证的隐私与模型的

质量之间存在明显的权衡。 Evfimievski等人

继续进行这一研究。（2002）其中方法扩展

到关联规则挖掘。作为对这些结果的谨慎提

示，Kar-gupta等。（2003年）在2003年，已

经证明了随机化方法对攻击的敏感程度。他

们演示了随机扰动数据的噪声如何被视为随

机矩阵，并且可以使用利用随机矩阵的某些

理论属性的光谱滤波器从扰动数据中准确地

估计原始数据。

最简单和最广泛使用的隐私保护技术是数

据的匿名化（也称为去识别）。在去识别的

上下文中，区分三种类型的属性是有用的。

显式标识符允许将实例直接链接到人（例

如，蜂窝电话号码或驾驶员的许可证号码给

其持有者）。

准标识符可能与其他属性结合，可能导致

其他数据源能够进行唯一标识。例如，Swee

ney（2001）表明，准标识符三联体<出生日

期，5位数邮政编码，性别>与选民名单（在

美国公开发布）相结合，唯一识别出该国87％

的人口。作为这一观察的令人信服的应用，

使用准标识符，Sweeney能够从已发布的所

有州雇员的健康记录数据集中获取马萨诸塞

州州长的健康记录，其中仅删除了明确的标

识符。

最后，非标识属性是没有已知推断链接到

显式标识符的属性。通常作为数据准备的一

部分执行，匿名化从数据中删除所有显式标

识符。

虽然匿名化是迄今为止在实践中使用的最

常见的隐私保护技术，但它也是最易犯错的

技术。 2006年8月，为了网络挖掘研究社区

的利益，AOL从其658,000名成员中发布了20

00万条搜索记录（成员访问过的查询和UR

L）。 AOL已经执行了它认为的匿名化，因

为它删除了成员的名字。但是，基于查询 -

通常包含可识别一小组成员或独特人员的信

息 - 在许多情况下，使用二级公共知识源手

动重新识别AOL成员很容易。好奇的“纽约

时报”记者发现了一名成员，并采访了她。

L. Sweeney被认为会使隐私社区对匿名化

的谬误敏感：“令人震惊的是，仍存在一种常

见的错误信念，即如果数据看起来是匿名的，

则是匿名的”（Sweeney 2001）。即使今天消

除了信息，未来的数据源也可能使重新识别

成为可能。由于匿名化在从医学数据建立模

型之前非常常用，有趣的是这种类型的数据

易于进行特定类型的重新识别，因此医学数

据的匿名化应该以特定的技能和对数据的理

解来完成。马林（2005年）展示了基因组数

据匿名化中使用的四种主要去识别技术如何

易于发现可以重新识别数据的已知发布攻击。

此外，他指出，对于准标识符的去识别将永

远不会有确定性，因为可以导致与明确识别

属性的链接的新属性和数据源不断被设计为

遗传学研究的一部分。

Other perturbation approaches targeting

二进制数据涉及以给定概率改变（翻转）所

选属性的值（Du和Zhan 2003; Zhan和Matwin

2004），或者

Privacy-Related Aspects and Techniques

1009

^ ^

)

用一些预先商定的分类法中更为通用的值替

换原始属性（Iyengar 2002）。泛化方法通常

使用k-匿名的概念：数据库中的任何实例都

与其他k-1无法区分

a1 a2 a3 a4支持sup = 80，置信度conf = 98.7％。

这个规则是80匿名的，但考虑到这一点

sup.fa ;a ;a g/ D

sup.fa

; a

实例（对于数据库中的每一行都有

k - 1个相同的行）。寻找最不通用的

1 2 3

conf

81:05

k-匿名的数据库泛化（即，

在给定的分类中向上移动最少数量的边缘是

一个优化任务，已知是NP完全的。为此提出

了启发式解决方案; 例如，Iyengar（2002）

使用

€

遗传算法来完成这项任务。弗里德曼

等人。（2006）展示了如何在决策树归纳中

建立k-匿名性。最近，PPDM研究人员指出

了k-匿名方法的一些弱点。特别地，已经描

述了对具有一些属性（例如，敏感属性的值

的偏斜分布或特定背景知识）的数据的攻击，

并且已经提出了防止这种攻击的技术。 Mach

anavajjhala等人提出的p-灵敏度或l-多样性的

概念。（2007年通过修改k-匿名技术来解决

k-匿名的这些弱点，使得上述攻击不适用。

此外，叔-closeness（凝晖等人。 2007年）显

示了这些某些缺点

0:0987

并且假设模式

a1 ^ a2 ^ a3 ^ a4

适用于

个

人，并且模式

a1 ^ a2 ^ a3

适用于

个人，

显然模式

a1 ^ a2 ^ a3 ^ a4

仅适用于一个人。

因此，该规则意外地揭示了关于特定人的

私人信息。

Atzori

等。

（

2005

）建议将

匿名应用于模式而不是数据，如上一节所

述。

作者将推理通道定义为

€

itemsets

，从

中可以推断出非

k-anonymous

的其他项集，

如上例所示。

然后，它们显示了一种表示

和计算推理通道的有效方法，一旦知道，

它们就可以从关联规则查找器的输出中被

阻止。

Oliveira

等人还讨论了推理信道问题。

（

2004

年），其中项目集

“

清理

”

删除了导

致的项目集

敏感（非k匿名）规则。

这种方法是一个有趣的延续

技术和由此产生的潜在攻击，

斯威尼的经典着作（Sweeney 2001），

并提出了一种数据扰动技术，该技术确保由

匿名化导致的任何组中敏感属性的值的分布

接近于其在原始表中的分布。一些作者，例

如Domingo-Ferrer等。（2008），提出将解

决k-匿名缺点的几种技术整合到单一扰动技

术中。这些解决方案的缺点是它们比标准的

k-匿名方法更多地降低了数据的效用。

保护模型（集中数据）

如果数据是私有的，那么就不会侵犯隐私吗？

答案是不。在某些情况下，模型可能会显示

有关个人的私人信息。 Atzori等。（2005）

给出了关联规则的这种情况的一个例子：假

设

€

关联规则

它解决了基于数据扰动或数据加密保护的大

多数其他方法忽略的对隐私的重要威胁。

分布式数据

上面提到的大部分工作都涉及集中数据的情

况。然而，经常遇到分布式情况，并且具有

重要的应用。例如，考虑参与多站点医学试

验的几个医院，这些医院希望挖掘描述其患

者联合的数据。这增加了受数据分析影响的

人口规模，从而增加了试验的范围和重要性。

在另一个示例中，对表现出给定问题的车辆

组执行数据分析的汽车制造商想要表示关于

车辆的不同组件的数据。

剩余201页未读，继续阅读

changqingt27

粉丝: 0
资源: 21

后修剪与精度评估：机器学习与数据挖掘实例解析

机器学习与数据挖掘百科全书第二版

机器学习与数据挖掘百科全书(2nd) 中文版 part3

LVDS接口终端匹配技术及其抗噪声措施研究

Encyclopedia of Machine Learning and Data Mining 2nd.Edition.pdf

Encyclopedia of Machine Learning and Data Mining(2nd) 中文 part7

Encyclopedia of Machine Learning and Data Mining(2nd) 中文 part2

Encyclopedia of Machine Learning and Data Mining(2nd) 中文 part5

Encyclopedia of Machine Learning and Data Mining(2nd) 中文 part4

Encyclopedia of Machine Learning and Data Mining(2nd) 中文 part3

Encyclopedia of Machine Learning and Data Mining(2nd) 无水印pdf

最新资源