图模型与机器学习：概率表示与条件独立性

需积分: 10 98 浏览量更新于2024-07-17 收藏 3.82MB PDF 举报

《机器学习与数据挖掘百科全书(第二版)》中文版part4深入探讨了图示模型这一关键概念，这些模型在信息建模、概率推理以及数据分析中起着至关重要的作用。图1展示了图形定义中的三个关键元素：产品规则（定义1），即任何概率分布都可以表示为一个图形模型，其中各变量之间的依赖关系通过边相连；条件独立性（定义3），当两个变量XA和XB在给定XC的条件下相互独立时，表示为XA?XB|XC，意味着它们的联合概率可以分解为各自与XC的条件概率的乘积。图示模型可以是有向的（如图2左图所示），在这种情况下，箭头指示了因果关系的方向，例如A影响B但反之不成立。无向模型（图2右图）则表示的是更平等的关联，没有方向性。这些模型用于捕捉变量之间的复杂关系，并且在处理高维数据时尤其有用，因为它们允许我们对数据的结构进行抽象，从而高效地计算如特定结果的概率或最可能结果等重要统计特性。例如，对于一个多变量概率分布，我们可以用向量表示每个随机变量及其取值，如XD = {X1, X2, ..., XN}。通过图的节点和边，我们可以直观地表示出变量间的依赖程度，这对于推断隐含的条件概率以及执行变量的边际化（定义2）至关重要。边际化是指计算单个变量的概率分布，而无需考虑其他变量的值，这对于预测和决策分析非常实用。在实际应用中，图示模型在诸如计算机视觉中的图像分类、模式识别中的特征选择、经济学中的市场行为分析以及社会科学中的社会网络分析等领域都发挥着核心作用。通过利用分布的结构，我们可以设计高效的算法，如利用分配律将复杂的概率表达式分解为低维度的因子，以便于计算和优化。《机器学习与数据挖掘百科全书》的这部分内容提供了一个全面的框架，帮助读者理解如何构建和使用图示模型来处理现代大数据背景下的各种问题，并利用这些模型来增强预测性能和解释性。通过掌握这一理论和实践工具，数据分析师和机器学习工程师能够更有效地探索和利用数据中的潜在规律。

600

Greedy Search Approach of Graph Mining

— j

j C C

图挖掘的贪婪搜索方法，图3图挖掘的贪婪搜索方法

的迭代应用产生了分层的概念聚类 -

在右侧给出一个输入图表，表示左侧描绘的DNA结构

部分

反面例子。

如果

IG /

表示图

的描述长度

（以位为单位），则

IG S /

表示由子图

压缩的图

的描述长度，

然后可以寻找最小化

I.GC S /

IS / IG- /

IG-S /

的

，其

中最后两个项表示负的部分图表被子图

正确压缩。

这种方法将引导搜索更大的

子图，这些子图描述了正例，但不是负

面例子。

最后，这个过程可以用集合覆盖的方法迭

代，以学习析取假设。如果使用错误度量，

那么包含学习子图的任何正例将从后续迭代

中删除。如果使用信息理论度量，则正例和

负例中的学习子图的实例（甚至每个例子的

多个实例）被压缩为单个顶点。请注意，压

缩是有损的，也就是说，压缩图中没有足够

的信息来了解实例如何连接到图的其余部分。

这种方法与学习一般模式的目标一致，而不

仅仅是压缩。

图形语法推理

在上述算法中，模式仅限于非递归结构。为

了学习

子图图案，或可用作生成任意大图的构建块

的图案，需要学习图形图的能力。图形语法

推断的关键是重叠结构的识别。通过检查模

式的实例是否重叠，可以检测递归图形语法

生成的可能性。如果一组实例由单个顶点重

叠，则可以提出递归节点替换图语法生成。

图4 显示了从简单的重复输入图（左）学习

的节点替换图语法（右）的示例。输入图如

图4 所示由三个重叠的子结构组成。根据实

例重叠的方式，还可以推断描述模式如何连

接到自身的连接指令。例如，图4中的连接

指令表明图形可以通过将一个模式实例的顶

点1连接到另一个模式实例的顶点3或顶点4来

增长。

如果一组模式实例重叠

边缘，然后可以提出递归边缘替换图形语法

生成。图5 显示了从输入图（左）学习的边

缘替换图语法（右）的示例。连接说明描述

了图案如何通过标记为“a”的边缘或标记为“b”

的边缘连接。

除了包含递归模式之外，图挖掘的贪婪搜

索方法是

Greedy Search Approach of Graph Mining

601

S3a

S3b

图挖掘的贪婪搜索方法，

图4 从输入图（左）推断

出的节点替换图语法

（右）。连接说明

(S)

表明模式如何连接到自

身

连接说明1-

1–4

图挖掘的贪婪搜索方法，

图

边缘替换图语法

（右）

从输入

推断出来

图（左）。连接指令指

示模式如何连接到自身

S3a

S3b S3

不变。递归和非递归模式都是根据它们使用

MDL启发式压缩输入图的能力来评估的。在

该方法的几次迭代之后，结果是由递归和非

递归产生组成的图形语法，其既描述输入图

形又提供用于生成具有类似属性的图形的机

制。

程序和数据

大多数上述功能已在SUBDUE基于图形的模

式学习系统中实现。 SUBDUE源代码和大量

示例图数据文件可从http://www.subdue.org获

得。

应用

从化学分子到社交网络的许多关系域自然地

表示为图形，图形挖掘方法是从这些数据中

提取知识的自然选择。下面描述了三种这样

的应用。

通过长期研究产生的大量生物数据鼓励人

们将重点放在系统层面 -

生物系统的立足点。包含各种生物分子及其

相互关系的生物网络是描述生物系统的基本

方式。多关系数据挖掘在实体属性和数据中

的关系中找到关系模式。由这些顶点之间的

数据和边组成的图是表示生物网络的自然数

据结构。图挖掘的贪婪搜索方法已应用到发

现代谢途径的模式（You等。 2006年）。基

于图形的超级学习在特定类型的通路中找到

独特的子结构，这有助于更好地理解通路的

不同之处。无监督学习显示了层次聚类，描

述了特定类型路径中的常见子结构，这使得

人们可以更好地理解路径中的共同特征。

社交网络分析是人，组织，计算机或其他

信息处理实体之间关系和流量的映射和测量。

这种分析自然地使用域的图形表示来完成。

图表挖掘的贪婪方法已被用于根据其交流方

式区分犯罪集团和合法集团（Holder等人，2

005年）。例如，恐怖主义团体倾向于展示

1 a

3 a

4 a

10 a

(S)

602

Greedy Search Approach of Graph Mining

通讯链; 然而，合法群体（例如家庭）倾向于

展示更多的中心辐射通信。

€

异常检测是检测欺诈或非法入侵的重要

问题。然而，异常通常是罕见的，因此对大

多数依赖于规律性和频率来检测模式的挖掘

算法提出了挑战。利用图挖掘方法迭代地压

缩图中的规则性的能力，剩下的可以被解释

为异常的。为了将这种残余结构与噪声区分

开，可以将其规律性与这种结构随机出现的

概率进行比较。稀有结构的存在不太可能偶

然发现，这表明存在异常现象。此外，大多

数欺诈活动试图通过模仿合法活动来掩饰自

己。因此，在图中找到这种异常的另一种方

法是首先使用图挖掘的贪婪搜索方法找到规

范模式，然后找到与该规范模式的意外偏差。

这种方法已被用于检测货物数据中的异常

（Eberle和Holder2006）。

未来发展方向

图挖掘方法的主要挑战之一是可伸缩性。由

于大多数相关的图形操作（例如，图形和子

图形等同性）在计算上是昂贵的，因此它们

可以仅应用于适合主存储器的适度大小的图

形。显然，总会有大于主存储器中的图形，

因此需要在这些图形中挖掘的有效技术。一

种方法是将图形保留在数据库中，并将图形

挖掘操作转换为数据库查询。另一种方法是

创建大型图的抽象层次结构，以便挖掘可以

在更高级别的更小图形上进行，以便在下降

到更具体的图形之前识别图形的有趣区域。

传统的高性能计算技术将问题划分为子问题，

解决子问题，

图挖掘问题，因为划分问题意味着打破链接，

这可能后来变得很重要。需要新的技术和架

构来提高图挖掘操作的可伸缩性。

图挖掘技术的另一个挑战是动态图。大多

数图表表示可能随时间变化的数据。例如，

社交网络可以随着人们进入和离开网络而改

变，建立新链接并丢弃旧链接。首先，人们

希望能够在存在变化的数据的情况下挖掘静

态模式，这将需要增量的图挖掘方法。其次，

人们希望挖掘描述图形随时间演变的模式，

这需要挖掘时间切片图或图形事务事件流。

第三，动力学可以存在于实体的属性中（例

如，改变代谢途径中的酶的浓度），实体之

间的关系结构（例如，社交网络中的新关系）

或两者。

Cross-References

€

语法推论

推荐阅读

Cook D，Holder L（2000）基于图形的数据挖掘。

IEEE Intell Syst 15（2）：32-41

Cook D，Holder L（编辑）（2007）挖掘图数据。

威利，新泽西州

Cook D, Holder L, Su S, Maglothin R, Jonyer I (2001)

Structural mining of molecular biology data. IEEE

Eng Med Biol Spec Issue Genomics Bioinform 20

(4):67–74

Eberle W，Holder L（2006）使用图表属性检测货

物运输中的异常。 In：2006年5月在圣地亚哥举

行的IEEE情报与安全信息学会议的会议录

Gonzalez J，Holder L，Cook D（2002）基于图的

关系概念学习。见：2002年7月在悉尼召开的

第19届机器学习国际会议论文集

Holder L，Cook D（2003）基于图的关系学习：

当前和未来的方向。 ACM SIGKDD Explor 5

（1）：90-93

Group Detection

603

Holder L, Cook D, Coble J, Mukherjee M (2005) Gra

ph-based relational learning with application to sec

urity. Fundamenta Informaticae, Spec Issue Min G

raphs Trees Seq 66(1–2):83–101

Jonyer I，Cook D，Holder L（2001）基于图的层

次概念聚类。 J Mach Learn Res 2：19-43

Kukluk J, Holder L, Cook D (2007) Inference of nod

e replacement graph grammars. Intell Data Anal 11

(4):377–400

Kuramochi M，Karypis G（2001）Frequent subgrap

h discovery。 In：IEEE国际数据挖掘会议论文

集（ICDM），圣何塞，第313-320页

Matsuda T，Motoda H，Yoshida T，Washio T（20

02）通过梁挖掘结构化数据的模式 -

定义

组检测可以定义为将图中的节点聚类到组或

社区中。这可以是节点的硬分区，或者可以

允许重叠的组成员资格。社区可以被定义为

一组节点，这些节点彼此之间共享密集连接，

而与网络中不同社区中的节点的连接不那么

紧密。社区的重要性在于它们通常与系统中

具有共同功能的模块化单元密切相关，例如，

明智的基于图的归纳法。在：会议记录彼此互动的个人群体

第五届发现科学国际会议，吕贝克，第323-338

页

Nijssen S，Kok JN（2004）频繁结构挖掘的快速

启动可以带来改变。在：西雅图第十届ACM S

IGKDD知识发现与数据挖掘国际会议（KDD）

的会议（第647-652页）

Rissanen J（1989）统计查询中的随机复杂性。世

界科学，新泽西州

Washio T，Motoda H（2003）基于图形的数据挖掘

技术。 ACM SIGKDD Explor 5（1）：59-68

Yan X，Han J（2002）gSpan：基于图的子结构模

式挖掘。在：前瞻性IEEE数据挖掘国际会议

（ICDM），前桥市，第721-724页

Yoshida K，Motoda H，Indurkhya N（1994）基于

图形的归纳作为一个统一的学习框架。 J Appl I

ntell 4：297-328

You C，Holder L，Cook D（2006）将基于图形的数

据挖掘应用于代谢途径。在：生物信息学数据挖

掘研讨会，IEEE国际数据挖掘会议，香港，2006

年12月

组检测

Hossam Sharara and Lise Getoor

马里兰大学，学院公园，MD，美国

同义词

社区检测; 图聚类; 模块化检测

在一个社会（格文和纽曼2002年），（片状

等有关类似主题的WWW网页2002），或蛋

白质具有细胞（陈元以内的相同的生物学功

能2006年）。

动机和背景

早在20世纪20年代，当斯图尔特赖斯手工收

集数据来调查政治障碍时，小组检测工作就

完成了（赖斯1927年）。另一个早期的例子

是George Homans（1950）的工作，他说明了

数据矩阵的行和列的简单重排有助于揭示它

们的底层结构。从那时起，群体检测吸引了

来自社会学，数学，物理学，市场营销，统

计学和计算机科学等不同领域的研究人员。

组检测技术，从简单的基于相似性的变化

€

聚类算法fol-低经典假设的数据点是独立同

分布的，就考虑到consid-关合作除了它们的

属性节点之间的现有关系更先进的技术，并

尝试描述数据中存在的不同分布。

理论解决方案

网络定义为图

GD.V; E /

由一组节点

v 2 V

和

一组边

e 2 E

组成。

在加权网络的情况下，

604

Group Detection

，

表示边连接节点

和

的权重

。

社区或群组

是原始图

的子图

CV 0; E0 /;

E /

其节点和边是原始图的节点和边的子集

;

即，

V 0 V

和

E0 E.

根据社区的定义，我们可以预期任何社区

中的所有顶点都必须通过同一社区内的路径

连接。此属性在升级中称为连通性，这意味

着在断开连接的图形的情况下，我们可以分

别分析每个连接的组件，因为社区不能跨越

不同的组件。

从社区定义得出的另一个重要特性是社区

内的顶点组应该在彼此之间共享更密集的连

接，并且与网络中其他顶点的连接更少。为

了量化这个度量，组ı.C/的链路密度定义为该

组内部边缘数与可能内部边缘的最大数量之

间的比率：

在定义社区结构时还应考虑其他方面，例

如是否使用链接权重和/或方向性，以及该定

义是否允许分层社区结构，这意味着社区可

能是较大社区结构的一部分。但是，社区检

测中考虑的最重要方面之一是定义是否依赖

于全局或本地网络属性。两种方法的主要区

别在于社区是否在整个网络结构的范围内定

义，例如基于中心度量的方法（Girvan和Ne

wman 2002），全局优化方法（Newman和Gi

rvan 2004），谱方法（Arenas）等人，2006

年），或信息理论方法（Rosvall和Bergstrom

2008）。另一方面，局部方法基于纯粹的局

部网络结构来定义社区，例如检测不同大小

的团队，clique渗透方法（Palla等人，2005）

和子图适应性方法（Lancichinetti等人，200

9）。

ı.

j˙

j —

(1)

本地技术

社区检测的局部方法基本上

因此，对于任何社区C，我们要求ı.C/>ı.G/;

其中ı.G/是整个网络的平均链路密度。类似

地，不同社区之间的平均链路密度，使用从

一组发出的边缘数和在另一组中终止的边缘

数之间的比率计算，以及这些边缘可能的最

大数量，通常应该是低的。

途径

除了上面的直观讨论之外，构成社区的精确

定义涉及多个方面。一个重要的方面是社区

是否构成图的硬分区，或者节点是否属于多

个社区。重叠社区通常发生在自然环境中，

特别是在社交网络中。目前，只有少数方法

能够处理重叠社区（Palla等，2005）。

依赖于定义社区中应存在的一组属性，然后

查找这些属性集所包含的最大子图。这个公

式对应于在网络中找到最大集团，其中集团

是一个子图，其中所有顶点都是直接连接的。

但是，从先前的表述中提出了一些问题。

首先，在图中查找派系是NP完全问题，因此

大多数解决方案将基于启发式方法进行近似。

另一个更为语义的问题是对社区的解释，特

别是在社交网络的背景下，不同的个体在其

相应的群体中具有不同的中心性，与群体中

节点的程度对称性相矛盾。为了克服这些缺

点，集团的概念被放宽到n-clique，这是一个

最大子图，其中每对顶点彼此相距最多n步。

剩余203页未读，继续阅读

changqingt27

粉丝: 0
资源: 21

图模型与机器学习：概率表示与条件独立性

Encyclopedia of Machine Learning and Data Mining(2nd) 原英文，完整书签

Data Mining and Analysis: Fundamental Concepts and Algorithms 中文 part4

Encyclopedia of Machine Learning and Data Mining 2nd.Edition.pdf

Encyclopedia of Machine Learning and Data Mining(2nd) 中文 part7

Encyclopedia of Machine Learning and Data Mining(2nd) 中文 part6

Encyclopedia of Machine Learning and Data Mining(2nd) 中文 part3

Encyclopedia of Machine Learning and Data Mining(2nd) 中文 part2

Encyclopedia of Machine Learning and Data Mining(2nd) 中文 part5

Encyclopedia of Machine Learning and Data Mining(2nd) 无水印pdf

Encyclopedia of Machine Learning

最新资源