收稿日期
基金项目 华东交通大学校立科研基金资助课题编号 ZKXX
作者简介 李明翠 女 瑶族 湖南人 华东交通大学助教 在读硕士研究生 主要研究方向 数据挖掘 web service
文章编号
面 向 网 络 营 销 的 IIS 日 志 分 析 系 统
李明翠
华东交通大学 信息工程学院 江西 南昌
摘要 web 日志分析对电子商务的网站推广和客户服务方面起到了非常重要的作用 文章主要阐述了一个面向网络营销的 IIS
日志分析系统的实现原理 提出了将文本文件形式的日志数据自动导入和批量导入数据库的方法 描述了日志分析系统采用
的统计 聚类等分析方法的模型和实现
关 键 词 网络营销 导入 统计 聚类
中图分类号 N 文献标识码 A
0 引言
随着 Web 网站的规模和范围的扩大 管理 Web 网站的
工作也就变得更加复杂 它要求不只是控制通信量 而且还
要观察对这些 Web 网站的外来访问 了解网站各页面的访
问情况 根据各页面的点击频率来改善网页的内容和质量
提高内容的可读性 跟踪包含有商业交易的步骤以及管理
Web 网站幕后的数据等 为了更好地提供 WWW 服务 监
控 WEB 服务器的运行情况 了解网站内容的详细访问状况
就越来越显得重要和迫切了 而这些要求都可以通过对 web
服务器的日志文件的统计和分析来做到
1 web 日志及日志分析
Web 日志是在服务器上有关 Web 访问的日志文件 这
些文件里包含了大量的用户访问信息 如用户的 IP 地址 所
访问的 URL 访问日期和时间 访问方法 GET 或 POST 访
问结果成功 失败 错误 访问的信息大小等 Web 服务器
日志的格式取决于服务器系统的配置 比较常见有 NCSA 公
用日志文件格式 WC 扩展性日志文件格式以及 Microsoft IIS
日志文件格式等 下面是一个日志记录的结构表
表 日志文件常用字段列表
属性域 描述 属性域 描述
date 用户请求页面的日期 cs uri query 请求参数
time 用户请求页面的详细时间 sc status 协议状态
c ip 客户端 ip 地址 sc bytes 发送的字节数
cs username 客户端用户名 cs bytes 接收的字节数
s computername 服务器的名称 time taken 浏览耗费的时间
s ip 服务器的 ip 地址 cs version 客户端协议版本
cs method 用户请求的方法 csuser agent 客户端浏览器
cs uri stem 用户请求的页面 csreferer 用户从哪一页跳转过来
第 卷第 期
年 月
华 东 交 通 大 学 学 报
Journal of East China Jiaotong University
Vol No
Oct