改进的Web日志挖掘：会话识别方法

187 浏览量更新于2024-09-04 收藏 196KB PDF 举报

"通信与网络中的Web日志挖掘中的会话识别方法" 在通信与网络领域，Web日志挖掘是一项重要的技术，它涉及到对用户在Web上的活动数据进行深入分析，以提取有价值的信息。Web日志通常包含用户访问网页的详细记录，如请求的URL、时间戳、HTTP状态码等。会话识别是Web日志挖掘的一个关键环节，它有助于理解用户的浏览行为，例如用户的兴趣、偏好以及在网站上的活动路径。传统的会话识别方法可能基于固定的时间间隔或特定的用户动作来划分会话，但这种方法可能会导致会话划分的不准确。文章提出的改进会话识别方法利用了访问站点首页和导航页的行为作为新的会话开始的标志。这是因为用户通常会在访问新主题或者结束一个浏览活动时返回首页或导航页，这样的行为可以被视为会话的自然分界点。该方法首先选取真实的Web日志数据，然后使用PL/SQL编程语言来实现这一识别策略。通过实际的实验对比，改进的会话识别方法被证明在识别会话效率上优于现有的方法，能更准确地捕获用户的浏览习惯和会话切换点。 Web挖掘是数据挖掘在Web环境中的应用，它涵盖了Web内容、结构以及用户行为等多个方面。Web数据源的多样性和复杂性使得Web挖掘具有独特的挑战，如半结构化或非结构化的数据格式、海量的数据量以及数据的异质性。Web挖掘通常包括内容挖掘（分析网页内容）、结构挖掘（分析网页间的链接关系）和使用记录挖掘（如Web日志分析）。在Web日志挖掘中，数据预处理是首要步骤，涉及将原始日志数据转化为可分析的形式；模式发现阶段则是运用聚类、关联规则、序列模式等数据挖掘技术寻找潜在的模式；最后的模式分析阶段是对发现的模式进行评估和解释，筛选出对业务有价值的规则。本文关注的是数据预处理阶段的会话识别，这是理解用户行为的基础。通过对现有方法的改进，提出的算法能更好地捕捉到用户的真实会话行为，这对于网站优化、个性化推荐、用户行为分析等多个领域都有重要意义。通过这种深入的数据分析，企业和服务提供商可以提升用户体验，提高用户满意度，同时也有助于他们制定更有效的营销策略。

通信与网络中的通信与网络中的Web日志挖掘中的会话识别方法日志挖掘中的会话识别方法

摘要：提出了一种改进的会话识别方法。该方法基于访问站点的首页和导航页，以首页或导航页作为新会话开

始的标识。选取真实的Web日志，用PL/SQL编程实现改进的会话识别方法，并与现有方法进行比较。实验结果

证明，改进的会话识别方法比现有方法识别会话更有效。　　Web挖掘是针对包括Web页面内容，页面之间的

结构，用户访问信息等在内的各种Web数据源。在一定基础上应用数据挖掘的方法以发现有用的隐含的知识的

过程。Web挖掘与传统的数据挖掘相比有其自身的特点。Web本身是半结构化或无结构的数据，缺乏机器可理

解的语义，Web挖掘的对象是大量，异质，分布的Web文档，对Web服务器上的日志、用户信息等

　　摘要：提出了一种改进的会话识别方法。该方法基于访问站点的首页和导航页，以首页或导航页作为新会话开始的标

识。选取真实的Web日志，用PL/SQL编程实现改进的会话识别方法，并与现有方法进行比较。实验结果证明，改进的会话识

别方法比现有方法识别会话更有效。

　　Web挖掘是针对包括Web页面内容，页面之间的结构，用户访问信息等在内的各种Web数据源。在一定基础上应用数据

挖掘的方法以发现有用的隐含的知识的过程。Web挖掘与传统的数据挖掘相比有其自身的特点。Web本身是半结构化或无结

构的数据，缺乏机器可理解的语义，Web挖掘的对象是大量，异质，分布的Web文档，对Web服务器上的日志、用户信息等

数据所开展的挖掘工作也属于Web数据挖掘的范畴。Web信息的多样性决定了挖掘任务的多样性。按照Web处理对象的不

同，一般将Web挖掘分为3类： Web内容挖掘，Web结构挖掘和Web使用记录挖掘（如图1所示），针对这3种不同的处理对

象，能够挖掘出许多有用的信息。

　　Web日志挖掘现已成为Web挖掘研究的重点。其主要分为数据预处理、模式发现、模式分析3个阶段[1]。数据预处理阶段

是要把从各种数据源得到的使用信息、内容信息和结构信息转换成模式发现阶段需要的数据抽象；模式发现阶段旨在使用各种

数据挖掘技术发掘隐藏在数据背后的规律和模式；模式分析阶段旨在根据具体的实际应用，过滤掉在模式发现阶段没有用的规

则或模式，并把有用的规则和模式转换为知识。

　　本文主要研究数据预处理阶段的会话识别。在分析现有的会话识别方法基础上，提出一种基于访问站点首页和导航页的改

进会话识别方法，最后通过实验验证了改进的会话识别方法比现有方法更有效。

　　　1 数据预处理数据预处理

　　数据预处理是Web日志中最基础、最频繁的工作，是整个数据准备的核心工作。数据预处理的结果将直接影响到挖掘算

法产生的规则和模式，因此预处理过程在整个Web日志挖掘过程中占据着非常重要的地位，是挖掘质量的保证。

　　数据预处理包括数据清理、用户识别、会话识别、路径补充和事务识别5个阶段[2]。（1）数据清理是指删除Web日志中

与挖掘算法无关的数据；（2）用户识别是识别出访问网站的每个用户；（3）会话识别是在用户识别之后，把每个用户在一

段时间内的访问序列进行分解，从而得到相应的会话。会话是指同一用户在一次浏览过程中连续请求的页面序列，它代表了用

户对服务器的一次有效访问；（4）路径补充是对识别出的用户会话进行优化的步骤，以使得其更加准确地描述用户的浏览请

求；（5）事务识别是将用户会话进行语义分组，形成适合挖掘需要的事务。

　　　　2 会话识别分析会话识别分析

　　用户会话[3]是指用户从进入站点到离开站点期间所访问的一系列页面序列集合。可表示为：

　　其中SessionID是会话标识，{（Pid1，t1）…（Pidk，tk）…（Pidn，tn）}是此次用户会话的页面访问序列，Pid是访问

页面的标识，t是访问该页面的时间。（Pid1，t1）表示用户此次会话访问的第一个页面和时间，（Pidn，tn）表示用户此次会

话访问的最后一个页面和时间。

　　2.1 常用会话识别方法常用会话识别方法

　　目前常用会话识别方法主要有两大类：一类是基于时间阈值，另一类是基于用户访问页面时的参引页面。基于时间阈值的

会话识别方法又可细分为以下3类：

　　（1）设定会话的持续时间阈值θ。即一个会话总的持续时间不超过θ。国外学者Catledge和Pitkow由实验得出θ设为25.5

min较好[4]，许多商业产品都采用30 min作为缺省值。

　　（2）设定页面的访问时间阈值η[5]。假设（Pidi，ti）、（Pidi+1，ti+1）为一个用户访问序列中的两条相邻访问记录。只

有当ti+1-ti≤η时，才认为这两条记录属于同一个会话。当ti+1-ti>η时，（Pidi，ti）是上一次会话的最后一条访问记录，而

（Pidi+1，ti+1）是新会话的第一条访问记录。一般η取10 min。

　　（3）上述方法（2）是对所有页面设定同一个页面访问时间阈值，并没有因页面的不同而不同。参考文献[6]中，根据统

计的页面的访问时间，在正态分布的假设下为每个页面设定一个访问时间作为切分会话阈值，并结合页面内容及站点结构来确

定页面重要程度，对该阈值进行调整。这是一种个性化的时间阈值设置方法。

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38514523

粉丝: 8
资源: 939

改进的Web日志挖掘：会话识别方法

通信与网络中的Web使用挖掘中数据预处理算法的设计与实现

数据挖掘关联规则算法研究.pdf

Web日志挖掘在用户行为分析的应用研究

Python库 | spidy_web_crawler-1.6.5-py3-none-any.whl

基于网络流量的用户网络行为被害性分析模型.docx

Web挖掘优化VOD服务器性能：案例与关键技术

Python+Flask打造Web视频监控系统教程

【MapReduce日志分析】：深入挖掘，从日志中读取作业的秘密

网络设备监控与日志分析

网络故障排除与日志分析技巧

最新资源