深度Web数据源的HDP自适应聚类方法：特征提取与自动分群

156 浏览量更新于2024-09-01 收藏 560KB PDF 举报

"基于Dirichlet过程的Deep Web数据源聚类方法是一种创新性的技术，它针对万维网中难以被传统搜索引擎索引的深层网络（DeepWeb）数据源进行高效管理和组织。该方法的核心在于利用层次Dirichlet过程（HDP），它能够处理查询接口中高维且稀疏的文本数据，将其转换为主题特征，这个过程具有自动特征选择的优势，无需人为设定特征数量。在特征提取阶段，文本被建模为多项式模型，利用Dirichlet过程混合模型进行聚类。这一模型的独特之处在于它能够适应Deep Web数据源的特性，即数据量庞大且变化迅速。它消除了对预设聚类数量的需求，而是依赖于Dirichlet过程的动态性，根据数据本身自动调整聚类数目，提高了算法的灵活性和适应性。为了验证这种方法的有效性，研究者在通用数据集TEL-8上进行了实验，通过比较F-measure和熵值这两个关键指标，展示了该方法在性能上的优越性。与已有的监督和部分无监督聚类方法相比，如MDhac、基于K-Means和图模型的聚类，基于Dirichlet过程的方法不仅减少了对人工标签的依赖，还能在数据源分类任务上取得更佳的结果。然而，当前DeepWeb数据源的特征提取和聚类数目自动化确定方面仍是一个未充分探索的领域。现有的方法往往需要预先设定聚类个数，而这个方法则填补了这一空白，推动了DeepWeb数据管理技术向着更智能、自适应的方向发展。未来的研究可以进一步优化算法性能，提高对复杂数据的处理能力，为深度网络数据的深入挖掘和利用提供更强有力的工具。"

基于基于Dirichlet过程的过程的Deep Web数据源聚类方法数据源聚类方法

提出了一种基于Dirichlet过程的Deep Web数据源聚类方法，该方法采用层次Dirichlet过程（HDP）进行特征提

取。首先将查询接口中原本高维稀疏的文本表示为主题特征，该过程能自动确定特征数。然后将文本看成多项

式模型，采用Dirichlet过程混合模型聚类。该模型无需人工事先指定聚类个数，由Dirichlet过程根据数据自动计

算得到，特别适用于Deep Web数据源数量大、变化快的特点。在通用数据集TEL-8上进行验证实验，并与其他

聚类方法在F-measure和熵值两个指标上进行对比，均取得较好的结果。

　　摘　摘要要：提出了一种基于

　　关键词　关键词： Deep Web；

0 引言引言

　　万维网中不能被传统搜索引擎通过静态链接索引到的内容称为Deep Web。要获取这部分内容只能通过表单提交查询的方

式获得[1-2]。Deep Web数据源的分类是指把所有发现的数据源按照领域进行划分，是Deep Web数据源集成的关键步骤之一

[3]。目前Deep Web数据源分类，多数研究采用的是有监督的分类方法。而一个标注好的数据集，需要大量的人工知识，并且

随着万维网的快速发展，训练集要考虑更新与扩展。这些对于自动化的数据集成都是很大的阻碍。在最新的Deep Web研究进

展与综述中[4]，也明确指出结合机器学习，数据挖掘等领域的无监督的研究方法是今后的研究重点。

　　目前也有一部分研究人员关注聚类方法的研究。B.He[5]提出了MDhac方法，将表单属性看做分类数据（categorical

data），采用基于模型的聚类，用卡方检验来作为距离函数，进行聚类。L.Barbosa[6]等人提出了基于表单内容和表单页面上

下文的K-Means聚类方法。Zhao Pengpeng[7]等人提出基于图模型的聚类方法，算出数据源两两间的权值并连接成有权图，

然后进行划分聚类。Xu Guangyue[8]等人提出了先聚类后分类的方法。先用LDA模型进行主题划分，用主题数代表聚类数

目，将达到聚类精度的数据作为训练集，训练出分类模型，对前一步中聚类效果不好的数据进行后分类。

　　通过对国内外相关文献的阅读与研究，在了解目前的主要方法后发现，目前在Deep Web数据源特征提取和聚类数目的自

动化确定方面还未有研究工作。正如前面提到的这些方法，都需要事先设定聚类个数或者特征个数。而在实际应用中聚类数目

往往并不能事先知道，并会随着数据的增多而不断变化。

　　Dirichlet过程[9]（Dirichlet Process）则是一种具有代表性的非参数贝叶斯模型，基于Dirichlet过程的方法可以自动地学习

特征数目和聚类个数。结合Deep Web数据源分类问题自身的需求与Dirichlet过程的特点，提出了基于Dirichlet过程的Deep

Web数据源聚类方法。

1 聚类策略及相关步骤聚类策略及相关步骤

　　Deep Web数据源聚类分为表单特征抽取、特征提取、聚类和结果评估四个主要步骤，如图1所示。

　　　　1.1 表单特征抽取表单特征抽取

　　从形式上来说，Deep Web查询接口均以表单的形式出现在页面中，因此利用表单的特征作为Deep Web分类的判断依据

是一种合理的解决方式。这也是目前多数研究人员采用的Pre-query[10]方式。观察互联网上的各种表单，一个查询接口中包

含了丰富的语义信息，其主要的表现形式为文本信息[11]。以下为一个图书查询接口表单信息。

　　<from>

　　</domain>

　　</attr>

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38598703

粉丝: 2
资源: 905

深度Web数据源的HDP自适应聚类方法：特征提取与自动分群

DP-means k - means聚类算法的比较

DP聚类算法

DPMM、HDP、VDP、GMM等maltab程序

基于Dirichlet过程混合的高斯过程模型混合采样推理

论文研究-基于层次Dirichlet过程的人群行为分析 .pdf

Dirichlet 过程与中国餐馆过程

并行Dirichlet过程切片采样器：用于Dirichlet过程切片采样器的Matlab包装器-matlab开发

Dirichlet过程高斯混合模型的变分期望-期望：Dirichlet过程高斯混合变分推理的实现-matlab开发

建模时间数据中非线性演化轨迹的分层演化Dirichlet过程

基于Dirichlet分布的电子商务信誉评估模型 (2011年)

最新资源