公共子树查找算法综述：数据挖掘与效率比较

需积分: 46 28 浏览量更新于2024-09-14 收藏 479KB PDF 举报

本文主要探讨的是"最大公共子树"（Largest Common SubTree, MCST）查找算法在有根、带标记和有序树中的应用。作者首先回顾了该问题在计算机科学领域的广泛应用，包括计算机设计、符号计算、程序设计理论、生物信息学、网络以及半结构化数据挖掘等方面。尽管最大公共子树问题具有一定的复杂性，且子树类型多样，但研究集中在有限的几种针对特定情况设计的算法上。文章将公共子树查找问题大致划分为两类主要算法，每类都有其代表性方法。作者特别提到了一种新的思路，即利用数据挖掘中的枚举树相关技术来设计公共子树查找算法。这种技术的引入为解决该问题提供了新的视角和可能的解决方案。文章深入剖析了每类算法的工作原理和具体实现，分析了它们的效率对比，并对算法的复杂度进行了讨论。对于历史背景，作者提及了早期的一些研究，指出尽管在处理两棵树的MCST问题时可以达到多项式时间复杂度，但对于更一般的情况，算法的设计仍有待优化。此外，文章不仅关注了当前的研究进展，还对未来可能的研究方向进行了展望。这包括探索更高效的算法、扩展到多棵树的公共子树查找，以及如何更好地应对不同类型和规模的树结构。这篇文章提供了一个全面的视角来理解最大公共子树查找问题，从历史到当前技术，再到潜在的未来发展，为该领域的研究者和实践者提供了有价值的参考。

2009年 6月　　　　　　　　　　　陕西理工学院学报

(

自然科学版

)

　 June. 2009

第 25卷第 2期　　　　　Journal of Shaanxi University of Technology

(

Natural Science Edition

)

Vol. 25　No. 2

[文章编号 ]1673 - 2944

(

2009

)

02 - 0033 - 07

两棵树的公共子树查找算法综述

晁晓菲

, 　杨晓龙

, 　李书琴

, 　唐晶磊

(

1. 　西北农林科技大学信息工程学院 , 　陕西省杨凌区　712100;

2. 　西安航空技术高等专科学校机械工程系 , 　　陕西省西安　710077

)

[摘　要 ]　本文通过对基于两棵树中的公共子树查找问题在有根、带标记、有序树中的主要

算法及相关历史的回顾 ,结合算法思想将公共子树查找问题分为主要 3类。本文深入探讨了

每类算法中的代表算法 ,其中根据数据挖掘中枚举树相关技术提出了一种可能的公共子树查

找算法的思想。最后比较了文中主要算法的效率 ,同时较为深入地分析和讨论了公共子树的

相关研究及未来可能的研究发展方向。

[关　键　词 ]　最大公共子树 ; 　后缀树 ; 　平衡串 ; 　枚举树 ; 　最大公共子图

[中图分类号 ]　TP301. 6　　　　　　　　　[文献标识码 ]　A

收稿日期 : 2009202218　　基金项目 :西北农林科技大学数据结构双语教学教改项目

(

200633

)

。

作者简介 :晁晓菲

(

1981—

)

,女 ,陕西临潼人 ,西北农林科技大学助教 ,荷兰莱顿大学在读硕士研究生 ,主要研究方向为遗

传算法、多目标优化与决策支持 ; 李书琴

(

1965—

)

,女 ,西北农林科技大学教授 ,硕士 ,主要研究方向为计算机农业应用。

1　公共子树查找问题简介

最大公共子树查找

(

Maximal Common Subtree, MCST

)

问题因其在计算机设计、符号计算、程序设计

理论、生物信息学、网络及半结构化数据挖掘等方面的应用而被广为研究。但最大公共子树问题的复杂

性以及子树类型的多样性使得当前的研究还只是停留在有限的针对特殊子树查找问题而设计的几类算

法上。公共子树查找是指在输入的若干棵树中查找在每棵树中都出现的公共子树 ,而 MCST问题即找

出所有公共子树中的最大树。当输入为两棵树时 ,最大公共子树问题可以在多项式时间内解决

[ 1 ]

。本

文将现有算法按照工作原理分为 2类 ,其中探讨了数据挖掘领域中可借鉴的相关技术 ,并简单介绍了相

关算法的历史。同时给出了算法的复杂度分析。

2　基本定义及符号

有根、带标记有序树

(

rooted, labeled and ordered tree

)

中有一个结点被称为根结点 ,所有结点都带有

一个标记且任意一个结点的所有子结点是有序的

[ 2 ]

。文中如无提及 ,所有树皆为有根、带标记有序树。

假设 T为一棵有根、带标记有序树 , T的结点和边的集合分别用 V

(

)

和 E

(

)

表示 , l

(

)

是结点 v

上的标记 , root

(

)

表示树根 , | T |表示树中结点的个数

(

即树的大小

)

。depth

(

)

、leaves

(

)

和 deg

(

)

分

别代表树 T的最大度数、叶子的个数和深度。此处假设读者已经熟悉先辈、子孙、父节点、子节点、表兄

弟结点及兄弟结点的概念。

嵌入子树的定义

[3 ]

:若从结点 x到结点 y之间存在一条路径 ,那么 x被称为 y的先辈 , y为 x的后

辈 ,且用 x≥py 表示 , 其中 p为 x 到 y 之间路径的长度。当存在一个映射

: V

(

)

ϖ V

(

)

, 并满足

) (

x, y

)

∈E

(

)

当

φ(

)

≤p

φ(

)

且 2

)

(

)

= l

(φ(

) )

,那么称子树 S 为树 T =

(

)

, E

(

) )

的嵌入

子树。嵌入子树保留了父辈 —后辈间的关系。

3　公共子树查找算法

当前的公共子树算法主要有 3类 ,后缀树方法、公共子序列方法及枚举树方法 ,以下 3部分分别讨

下载后可阅读完整内容，剩余6页未读，立即下载

crazyscrew

粉丝: 0
资源: 3

公共子树查找算法综述：数据挖掘与效率比较

Algorithms (Jeff Erickson)

两棵树的公共子树查找算法综述.pdf

编写递归算法，求二叉树中以元素值为x的结点为根的子树的深度。

用c语言写在一棵二叉树中，求以值为X的结点为根结点的子树的深度的程序，并且文字说明其储存结构和算法流程图

动态规划算法设计，python最优二叉查找树

subtree-check是什么

删除二叉树的子树代码c++

The largest element of the binary search tree must be in the right subtree of the root.

git subtree

Uncaught (in promise) TypeError: Cannot read properties of null (reading 'subTree') 代码报错怎么办

最新资源