基于距离的决策树学习算法用于Web分类任务的研究

理论计算机科学

结构化数据

175 浏览量更新于2025-01-16 收藏 580KB PDF 举报

理论计算机科学电子笔记157（2006）35-40

www.elsevier.com/locate/entcs

使用基于距离的决策树进行Web分类

诉

是

真的。

rri

Her

ana-Orallo

M.J. Ram 'ırez-Quintana

，

versi

dad

Pol

ecni

ade

enci

，

Camino

de Vera s/n

，

Apdo.22012

，

46071 Valencia

，

Spain.

摘要

在

Web

分类中，网页主要根据其内容被分配到预定义的类别（内容挖掘）。但是，网站的结构可能会

提供有关其类别的额外信息（结构挖掘）。传统上，这两种方法都是单独应用的，或者使用不生成模

型的技术（如贝叶斯技术）进行处理。不幸的是，在某些分类背景下，一个可理解的模型变得至关重

要。因此，将基于规则的技术（规则学习，决策树学习）应用于

Web

分类任务将是有趣的。在本文

中，我们概述了我们的通用学习算法，即所谓的基于距离的决策树学习算法（

DBDT

），可用于

Web

分

类的场景。该算法与传统算法的不同之处在于，通过度量条件（“比”更接近）来定义。这一变化允

许决策树处理结构化属性（列表、图形、集合等）。以及公知的名义和数字属性。一般来说，这些结

构化的属性将被用来表示网站的内容和结构

保留字：

Web

挖掘，分类，结构化数据，决策树，基于距离的方法。

1引言

Etzioni [4]

将

Web

挖掘定义为使用数据挖掘技术从

Web

文档和服务中提取

信息。由于

Web

上有大量可用的文档，因此在

Web

上执行的最常见的任

务之一是将文档分类为一个或多个类别。为

这项工作得到了欧盟-印度跨文化传播项目信息和通信技术ALA/95/23/2003/077-054和巴

伦西亚省政府GV 04 B/477赠款以及CICYT赠款TIN 2004-7943-C 04 -02的部分支助

电子邮件：{vestruch，cferri，jorallo，mramirez}@ dsic.upv.es

doi：10.1016/j.entcs.2005.12.043

下载后可阅读完整内容，剩余5页未读，立即下载

身份认证购VIP最低享 7 折!

30元优惠券

cpongm

粉丝: 5

基于距离的决策树学习算法用于Web分类任务的研究

Jupyter中实现主流机器学习算法及技术研究

Django学习平台：集成KNN到BP神经网络算法

Django框架下的学习平台与多算法实现流程管理

数据挖掘分类算法的研究与应用.pdf

论文研究-基于主题的信息采集及文本分类技术的研究 .pdf

使用机器学习算法处理MNIST手写数据集

使用KNN算法进行糖尿病预测研究

Jupiter Notebook实现多种机器学习算法及可视化分析

Django框架下机器学习在线平台实现多算法流程管理

机器学习与人工智能中的决策树可视化：探索应用

最新资源