Web挖掘：从海量数据中发现知识

版权申诉

187 浏览量更新于2024-07-02 收藏 1.26MB PDF 举报

"该文档是关于人工智能领域中数据挖掘，特别是基于WEB的数据挖掘的研究。它探讨了WEB技术的快速发展导致的海量数据问题，以及如何利用这些非结构化的WEB数据来发现有价值的知识。文档指出，虽然搜索引擎能帮助查找信息，但它们无法深度挖掘数据背后的知识，而数据挖掘技术在处理结构化数据方面已取得进展，但对于WEB数据的挖掘还在发展中。WEB挖掘结合了机器学习、WEB技术、自然语言处理等多个学科，旨在发现用户行为模式和相关网页，具有广泛的应用前景。文档还简述了数据挖掘的历史和发展状况，强调了KD（Knowledge Discovery）研究从理论向实际应用的转变，并提到了相关国际研讨会的演变。" 在详细说明部分：数据挖掘是一个从大量数据中提取隐藏的、有用的、可理解的信息或知识的过程。它在20世纪80年代末开始受到关注，随着数据库技术的发展，特别是"从数据库中发现知识"概念的提出，数据挖掘成为了人工智能和数据库领域的一个重要研究方向。早期的研究主要集中在理论和方法上，随着时间的推移，研究焦点逐渐转移到实际应用和跨学科的融合。基于WEB的数据挖掘是数据挖掘的一个分支，它专门针对WEB环境中的数据，这些数据通常是非结构化的，包括WEB日志、网页内容和用户注册信息等。由于WEB数据的特性，如海量、分散、动态、异质和半结构化，传统的数据库管理和查询方法不再适用。因此，数据挖掘技术需要适应这些特点，发展出新的算法和方法来处理和分析WEB数据，以便发现用户的浏览模式、兴趣偏好和其他有价值的信息。 WEB挖掘分为几种主要类型：WEB结构挖掘、WEB内容挖掘和WEB使用挖掘。WEB结构挖掘关注网站的拓扑结构和链接模式；WEB内容挖掘涉及文本、图像和多媒体内容的分析，通常需要自然语言处理和信息检索的技术；WEB使用挖掘则分析用户的行为和交互数据，以了解用户习惯。在商业应用中，WEB挖掘可以用于优化网站设计、个性化推荐、市场营销策略制定、用户行为预测等多种用途。同时，它也为搜索引擎提供了智能化的可能性，使搜索结果更加精确和相关。然而，WEB挖掘也面临着挑战，如隐私保护、数据质量控制和算法效率等问题，这些都是当前研究的重要方向。随着互联网的持续发展和大数据时代的到来，基于WEB的数据挖掘研究将持续深入，其在提升信息处理能力、推动智能服务创新等方面的作用将愈发显著。

第二章ｗＥＢ挖掘系统概述

§２．１

Ｗ印挖掘的定义

ｗｅｂ挖掘是一项涉及ｗｅｂ技术、数据库、机器学习、数据挖掘、

统计学、计算机语言学等多学科的综合技术，不同的研究者从不同

的角度出发，对１＾，ｅｂ挖掘有着不同的理解。研究搜索引擎的人着重

于ｗｅｂ页面上文本数据的分析；而设计ｗｅｂ站点结构的人，则着重

于用户对ｗｅｂ站点访问模式的研究。

ｗｅｂ挖掘可以广义地定义为从ｗｗｗ中发现和分析有用的信

息。这个定义有两方面的意义：一方面它描述了自动地从大量的

ｗｅｂ站点和在线数据库中搜索、获取信息与资料；另一方面，它可发

现和分析用户访问一个或多个站点＿；｝口在线服务的模型。

我们从更为一般的角度出发，对ｗｅｂ挖掘作如下定义：ｗｅｂ挖掘

是指从大量的ｗｅｂ文档的集合ｃ中发现隐舍模式ｐ的过程。如果将

ｃ看作输入，将Ｄ看作输出，那么Ⅳｅｂ挖掘的过程就是从输入到输

出的一个映射《：Ｃ—ｐ“１。

§２．２

Ｗ印挖掘的特点

Ｉｎｔｅｒｎｅｔ上包含了大量的ｗｅｂ站点，并且这些站点的数目呈指数级

增长。每一个ｗｅｂ站点就是一个数据源，这些数据源可以看做广泛意义

上的数据库，相比传统意义上的数据库更大、更复杂。通过超级连接，

这些内容和组织各异的ｗｅｂ站点就构成了一个巨大的异构数据库环境。

ｗｅｂ挖掘的数据通常有以下三类：

·用户的背景信息：此类信息主要来自于用户的注册信息。但许

多用户不愿意透露自己的真实的个人信息，因此将不会如实地

填写注册表，这将造成数据挖掘的原始数据质量低下。在这种

情况下，就不得不从浏览者的浏览信息中来推测用户的背景信

息，进而再加以利用。

●浏览信息：浏览信息主要来自于浏览者的点击流

（ｃ１

ｉｃｋ—ｓｔｒｅａｊｎ），这部分数据主要用于考察用户的行为表现。

ｗｅｂ上有海量的数据信息，人们在浏览网站时，包含了大量的

１０

潜在信息，如个人姓名和住址，点击了哪一个链接，在哪里浏

览时间最多等。通常来说，这些信息可以分为两类：浏览者自

身信息和浏览内容信息。

·Ｉｎｔｅｒｎｅｔ自身信息，这类信息来自ｗｅｂ自身，如网页内容，ｗｅｂ

结构等。

ｗｅｂ上的数据与传统的数据库中的数据不同，传统的数据库都有

一定的数据模型，可以根据模型来具体描述特定的数据。ｗｅｂ数据具有

一定的结构性，但通常具有自述性和动态可变性，因此是半结构化数据，

所谓半结构化是相对于结构和非结构化而言的，半结构化数据介于这两

者之间。半结构化是ｗｅｂ数据的最大特点。

此外，ｗｅｂ是一个动态性极强的信息源。ｗｅｂ不仅以极快的速度增

长，而且其信息还在不断地发生着更新。ｗｅｂ面对的是一个广泛的形彤

色色的用户群体，各个用户可以有不同的背景，兴趣和使用目的。对于

任何单个用户苯说，ｗｅｂ上的信息只有很小的一部分是相关的或有用的．，

ｗｅｂ所包含的其余信息对用户来说是不感兴趣的，而且会淹没所希望得

到的搜索结果。这些都使得ｗｅｂ数据挖掘有别于一般的数据挖掘应用领

域，而有自身的特点和挑战。

§２．３

ＷＥＢ挖掘的难点

ｗ曲上有海量的数据信息，怎样对这些数据进行复杂的应用成了现

今数据库技术的研究热点。数据挖掘就是从大量的数据中发现隐含的规

律性的内容，解决数据的应用质量问题。充分引用有用的数据，废弃虚

伪无用的数据，是数据挖掘技术的最重要的应用。前面说过；相对于非

ｗｅｂ的数据而言，ｗ曲上的数据最大特点就是半结构化。所谓半结构化

是相对于完全结构化的传统数据库的数据而言。显然，面向Ｗｅｂ的数

据挖掘比面向单个数据仓库的数据挖掘要复杂的多。

ｆ１）异构数据库环境

从数据库研究的角度出发，ｗ曲网站上的信息也可以看作一个数据

库，一个更大、曼复杂的数据库。ｗｃｂ上的每一个站点就是一个数据源，

每个数据源都是异构的，因而每一站点之间的信息和组织都不一样，这

就构成了一个巨大的异构数据库环境。如果想要利用这些数据进行数据

挖掘，首先，必须要研究站点之间异构数据的集成问题，只有将这些站

点的数据都集成起来，提供给用户一个统一的视图，才有可能从巨大的

数据资源中获取所需的东西。其次，还要解决ｗ曲上的数据查询问题。

剩余54页未读，继续阅读

programyp

粉丝: 90
资源: 9323

Web挖掘：从海量数据中发现知识

人工智能-数据挖掘-基于语义的web数据挖掘在在线阅读网站应用的研究.pdf

人工智能-数据挖掘-基于WEB日志的数据挖掘.pdf

人工智能-数据挖掘-Web数据挖掘算法研究.pdf

人工智能-数据挖掘-基于数据挖掘算法的金融数据采集与分析研究.pdf

人工智能-数据挖掘-基于数据挖掘的汽车客户关系分析决策系统的研发.pdf

人工智能-数据挖掘-面向移动商务的数据挖掘方法及应用研究.pdf

基于Web数据挖掘技术的研究.pdf

基于Web的数据挖掘研究综述.pdf

基于WEB的多媒体数据挖掘的研究.pdf

基于Agent技术的Web个性化数据挖掘研究.pdf

最新资源