第
25
卷第
2
期
2005
年
3
月
何地大学学报(台然科学且)
Journal
of
Hebei University (Natural Science Edition)
Web
日志挖掘中的数据预处理技术
侯亚丽,袁方
(河北大学数学与计算机学院,河北保定
071002)
VoL25
No.2
岛
1ar.2005
摘
要:用户访问网站,
Web
日志中会记录下大量的用户访问信息,通过挖掘这些日志数据可以获得相
关页面、相似用户群体和用户访问模式等信息,
Web
日志挖掘对于优化网站结构、提供个性化服务和构建智
能化网站具有重要作用-数据预处理是保证
Web
日志挖掘质量的重要基础,预处理主要包括数据清洗、用户
识别、会话识别、路径补充和结果评价等工作概述了数据预处理技术,重点介绍了目前常用的会话划分算法
和评价标准,并实现了一个数据预处理系统-
关键词
:Web
日志控掘;数据预处理;会话划分;会话评价
中固分类号
:TP
393
立献标识码
:A
立章编号
:1000
-1565(2005)02
一
0202
- 05
自从
WWW(World
Wide
Web
)1
991
年问世以来,已经发展成为拥有数亿用户、数十亿页面的巨大分布
式信息空间,而且其信息容量仍在飞速增长-但
Internet
是一个具有开放性、动态性和异构性的全球分布式
网络,信息资源分布很分散,且没有统一的管理机构,这就导致了信息获取的困难-绝大部分用户并不了解信
息网络结构,不清楚搜索的高昂代价,极容易在"黑暗"的网络中迷失方向,也极容易在"跳跃式"访问中烦乱
不已和在等待信息中失去耐心[1]
解决这些问题的一个有效途径就是将数据挖掘技术和
Web
结合起来,进行
Web
挖掘山
.Web
挖掘可以
定义为从与
WWW
相关的资源和行为中抽取感兴趣的有用的模式和隐含信息.
Web
挖掘可以分为
3
类:
Web
内容挖掘
(Web
content
mining)
、
Web
结构挖掘
(Web
structure
mining)
和
Web
访问模式挖掘
(Web
usage
mining)[lJ.
其中,
Web
访问模式挖掘就是通过挖掘
Web
日志记录来发现用户访问
Web
页面的模式
[3
-剖,通
过挖掘
Web
日志中记录的用户访问行为,可以实现用户聚类、页面聚类和发现频繁访问路径,进而可以改善
站点设计和为用户提供个性化服务-
目前,
Web
日志挖掘技术发展迅速
[6-8J
,
Web
日志挖掘的一项重要的基础性工作就是数据预处理.数据
预处理的主要目的就是将
Web
服务器中的日志数据转换成事务数据库,供挖掘阶段使用,主要包括数据清
洗、用户识别、会话识别、路径补充和结果评价
[9
-IOJ
1
数据预处理过程
Web
日志记录是以文本文件的形式存储的,而且其中存放了很多元用的信息,所以日志文件中的数据
很难直接使用-由于服务器或参数设置不同,得到的
Web
日志文件中记录的信息也会有所不同,但都包含访
问用户的基本信息.每条访问记录包括日期(
date)
、时间(
time)
、客户
IP
地址
(c-ip)
、客户名(
cs-
username
)、
方法(
cs-method)
、
URL
资源(
cs-uri-stem)
、发送字节数(
sc-bytes)
、接收宇节数
(cs-bytes)
、花费时间(
time-tak-
en)
、用户代理(
User-Agent)
、
cookie(
C
∞
kie)
、参考页面
(Referer)
等许多信息.
收稿日期
:2004
- 10 - 28
作者简介:侯亚丽
(1979
- )
,女,河北石家庄人,河北大学在读硕士研究生-