没有合适的资源?快使用搜索试试~ 我知道了~
工程科学与技术,国际期刊40(2023)101360一种消除Web使用挖掘Özkan Canaya,b,Umit KocabıçakcaSakarya大学自 然 科 学 研究所计算机和IT工程,Serdivan 54050,Sakarya,土耳其b萨卡里亚应用科学大学萨卡里亚职业学校计算机技术,Adapazari 54290,Sakarya,土耳其cSakarya大学计算机和信息技术工程系计算机工程,Serdivan 54050,Sakarya,土耳其阿提奇莱因福奥文章历史记录:2022年7月26日收到2023年1月11日修订2023年2月1日接受2023年2月24日在线提供保留字:Web使用挖掘预处理数据收集日志分析网络分析A B S T R A C TWeb使用挖掘(WUM)的底层数据源通常被认为是服务器日志。然而,访问日志文件确保了关于客户端的非常有限的数据从这些杂乱的数据中识别会话此外,这些数据无法有效地用于Web分析本研究提出了一种用于用户跟踪、会话管理和收集Web使用数据的方法该方法主要是基于一种创新的方法,使用收集的数据作为Web使用挖掘的数据源,用于Web分析提取开发了一个基于应用程序的API,它采用了与传统客户端方法不同的策略来获取和处理日志数据。通过将该技术集成到企业Web应用程序中,已成功地收集了日志数据。实验结果表明,该方法收集和存储的同质数据比Web服务器日志更便于浏览、过滤和处理。这种结构化数据可以毫不费力地用作高性能Web使用挖掘活动、实时Web分析、机器学习算法或功能推荐系统的可靠数据源。©2023 Karabuk University. Elsevier B.V.的出版服务。这是CCBY-NC-ND许可证(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍信息技术的迅速发展和广泛使用极大地促进了网络的发展。作为这种相互滋养的循环的自然结果,组织已经将其业务流程和工作转移到这种媒体上。信息是许多组织最重要的资产,而网络是一个巨大的数据源。那些意识到这一转变的人正在比以往任何时候都更多地投资于收集和理解更多的数据,以增强他们的业务战略。 了解他们的访客和行为,特别是对那些将重点放在网络上的组织来说,是至关重要的。大多数基于Web的应用程序(如公司Web应用程序、Web门户、购物网站或学习管理系统)都保留侧重于用户事务的日志,尽管相对而言*通讯作者:Sakarya大学,自然科学研究所,系。计算机和IT工程,Serdivan54050,Sakarya,土耳其。电 子 邮 件地 址 :canay@subu.edu.tr( 注 :Canay ) ,umit@sakarya.edu.tr(WEBKocabıçak)。q本工作得到Sakarya大学科学研究基金会的支持(项目编号:2010-50-02-024)。肤浅然而,对于从战略角度处理问题的组织来说,了解访问者行为,重新识别用户配置文件,并根据此来塑造他们的行为需要比普通日志记录更多的努力除非另有说明,否则Web服务器会将所有页面请求累积在访问日志中。搜索引擎的每一次点击、每一次页面访问或下载都被连续、匿名和无声地记录下来。这些包含身份、来源和浏览行为的访问日志在科学研究中是首选的,因为它们提供了现成的数据[1]。用户密集型网站的日志文件每天以数百兆字节的速度增长。这种情况使得分析非常耗时,并对HTTP日志分析器工具提出了基本的性能要求。对分析器最常见的抱怨是它们不够灵活,可用性有限,使用起来很有挑战性,而且非常慢,特别是在大数据上。另一方面,虽然第三方Web分析工具提供计算的分析信息,但它们不提供执行WUM处理的原始虽然在文献中有许多关于Web分析和Web使用挖掘的此外,由于网络分析通常是一种商业行为,https://doi.org/10.1016/j.jestch.2023.1013602215-0986/©2023 Karabuk University.出版社:Elsevier B.V.这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表工程科学与技术国际期刊杂志主页:www.elsevier.com/locate/jestch单位卡奈和卡奈。科卡比恰克工程科学与技术,国际期刊40(2023)1013602活动,公司不喜欢科学地公布这些工具如何收集和存储数据。基于云的分析工具通常使用客户端用户跟踪方法,并将数据存储在远程服务器上。这些工具不提供下载的原始数据,因为它是巨大的规模和存储在数据仓库中。因此,不可能将Web挖掘技术应用于这些数据。此外,尽管这些工具在日常使用中是免费的,但对于拥有大量用户的组织来说,所确保的配额是不够的。相比之下,付费版本非常昂贵,而且仍然不允许下载原始数据。基于云的网络分析工具也是数据隐私和主权问题的重要来源。开源工具,如Piwik,OWA[3]和Webalyt[4],已经出现来解决这些问题,将数据存储在本地服务器上。这些工具使用客户端JavaScript片段进行用户跟踪,就像商业替代品一样。这些工具的工作原理几乎都没有在文献中得到充分解释。此外,这些工具在客户端执行用户跟踪过程,通过为每个页面转换执行单独的请求,增加了服务器上的负载。Web使用挖掘和Web分析是截然不同的,尽管两者都使用Web访问数据。Web分析涉及收集日志数据并通过统计提取直观地呈现它们。相比之下,Web使用挖掘的重点是在清理和结构化现有数据后,使用知识发现技术识别有效的,新颖的,有用的和可理解的模式。因此,WUM假设这些数据已经可用;它对获取或积累这些数据不在这项研究中提出了一种新的方法,作为替代Web服务器日志作为WUM数据源。该方法省去了WUM过程中要求最高的预处理阶段,并从服务器访问记录中提供更可靠、更方便的数据。它还允许在应用程序级别收集和处理访问者使用数据。本研究的创新之处在于,它提出了一种数据收集方法,旨在开发自己的Web分析系统的组织,并证明了该方法收集的数据的Web使用挖掘的可用性。获得的数据通过所提出的方法,以结构化的形式存储在组织内,可以用于不同的目的。为了揭示所提出的方法的新颖性和差异性,表1WUM预处理和Web分析领域的最新研究。传统的方法,一些关于WUM预处理和Web分析的最新研究在表1中给出。尽管在文献中对使用开源网络分析工具获得的数据进行了一些现有的研究,但可能揭示这些系统的数据收集方法的学术出版物的数量几乎不存在。这项研究还清楚地指出,一般来说,分析工具如何执行数据获取,清理和存储等阶段此外,由于所提出的方法在服务器侧而不是客户端侧工作,因此不需要向服务器发送单独的请求以进行数据收集。因此,所提出的系统工作得更快,使服务器不那么繁忙。所提出的方法提供了一种解决方案,增加了组织对用户数据的控制,并减轻了他们对将其权限委托给另一家公司的担忧。在当今的信息社会中,安全问题和数据隐私敏感性日益增加。Aartsen等人进行的研究表明,发表过关于Web使用挖掘文章的作者考虑将各种方法和技术应用于Web安全,通过使用WUM发现异常流量,作为该领域最重要的未来研究主题之一,以及数据隐私[15]。该方法还保证组织对其数据的完全控制和所有权该方法在这种情况下,该方法可能是优选的,特别是在处理敏感数据的金融、电信、卫生和教育中。从页面请求中获取使用数据变得容易和可能,特别是在大型Web应用程序中,使用这种方法执行跨客户端和特定于应用程序的数据以一种可轻松用于数据挖掘或商业智能应用程序的形式存储在关系数据库中。然而,根据网站的用户密度,在长期使用期间,收集的数据可能会过度增加在这种情况下,应该考虑将历史数据存储在另一个关系数据库或多维结构(如OLAP多维数据集)组织还可以使用这些数据来创建Web分析系统,实时监控会话,并检测Web应用程序错误或不适当的使用尝试。另一方面,基于JavaScript的方法需要向服务器发出第二个请求。相比之下,该方法由于其服务器端操作原理,在数据收集中具有较少的步骤。数据收集比任何其他客户端方法都要快,因为客户端数据是在对各领域一种基于全路径详细的预处理,以提高weblog数据提出了两种访问者行为分析和预处理一种基于MapReduce的数据预处理算法融合2019路径分析[6]2019预处理[七]《中国日报》2020预处理[八]《中国日报》2021预处理[9]页.此外,客户端的方面想这种情况增加了搜索引擎机器人和其他网络爬虫的检测准确性。所提出的创新方法成功地执行用户和会话识别,提高数据的准确性。因此,它通过消除耗时的预处理步骤来加速WUM过程,并通过产生更准确的结果来提高挖掘活动的性能。模式分析技术-一种基于图的会话预处理施工在会话识别预处理中使用熵Web使用挖掘中基于MapReduce的用户2022届会议身份证2018届会议识别2018用户标识[10个国家][第十一届][12个]WUM的特性,如关联、分类和聚类,可以毫不费力地应用于通过该方法收集的数据此外,这些强大的数据可以用于网络分析提取,或者它们也可以作为人工智能的输入照明方法可以获得更有意义的信息使用AWStats分析公共日志2017Web分析一个新的开放式网络分析平台提案,2017WebWebalyt分析使用Matomo实现开放政府2021Web分析[13个国家][4]美国[14个]通过应用知识发现或不同的人工智能方法(例如机器学习和深度学习)从这些数据中提取数据。概括起来,本研究的主要贡献有五个方面:密钥贡献年技术参考文献从不同的2020日志数据[5]《中国日报》单位卡奈和卡奈。科卡比恰克工程科学与技术,国际期刊40(2023)10136031. 提出了一种创新的方法,解释了如何获取,融合和清洁半结构化数据,并存储所产生的关系数据,使Web使用数据可以用于Web挖掘和分析。2. 该方法是一种基于应用程序的服务器端替代Web服务器日志作为数据源的Web使用挖掘。3. 该方法可用于构建Web分析基础设施,确保组织对其数据的完全控制和所有权。4. 从网络分析的角度来看,所提出的方法消除了在客户端方法中向服务器发出第二次用户跟踪请求的需要,从而使服务器不那么繁忙。5. 通过该方法获得的结构化数据和关系数据除了其主要目的之外,还适合于多用途使用,例如机器学习、人工智能和深度学习。本文的其余部分组织如下。第二部分介绍了Web日志、Web分析和Web挖掘的相关知识,为研究提供了基础,并描述了Web使用挖掘预处理阶段的难点和相关工作第三节详细介绍了所提出的方法,包括三层组织,数据收集,数据模型,数据清洗,处理和存储阶段。第4节通过各种分析说明了将该方法应用于实际系统所收集的24小时数据,随后在第5节中进行了一些总结性评论。2. 相关工作Web使用挖掘是通过分析Web访问日志来理解用户行为并发现有益模式的过程。在总结了与WUM预处理阶段相关的大量研究的研究中,最常见的数据源是Web服务器访问日志。这些工作的重要部分集中在Apache Web服务器日志上。Web服务器日志是分析工作最频繁和最密集的2.1. Web用户访问日志由于网络的性质,用户通过点击网站上的链接从一个页面移动到另一个页面。每个新的页面转换都是对Web服务器的请求。自WWW出现以来,日志文件一直用于跟踪Web请求,也称为点击,第一个浏览器Mosaic于1993年发布[17]。存在用于收集和存储用户访问数据的各种方法。这些方法可以分为服务器级和应用程序级。服务器级日志是在系统运行期间由提供各种服务的服务器(例如Web、应用程序或代理服务器)获取并存储在后台的访问记录Web服务器的访问日志包含浏览器发出的所有HTTP请求作为全球最常用的Web服务器之一,Apache默认使用NCSAApache Web服务器访问日志的默认CLF配置为[18]:日志格式这里所包括的论点的含义如下:%h%l%u%t%r%s-%bApache还支持扩展通用日志格式(ECLF),也称为NCSA组合日志格式,类似于W3C扩展日志格式(ELF)。除了CLF之外,这种日志格式还包含两个信息,即用户代理和用户代理[18]。的访问日志中的一个简单单行条目的示例Apache Web服务器,一个典型的ECLF配置,如下所示193.140.253.80- [15/Aug/2021:17:30:51 + 0300]HTTP/1.1http://www.server.com/应用程序服务器日志需要一组特定的分析,并从商业应用程序服务器(如Weblogic、WebSphere或Tomcat)获得,是服务器级日志的其他示例[19]。提供各种服务的代理服务器和其他服务器通常也在其操作期间保持日志。另一方面,在应用程序级别收集的日志中获取和存储数据被视为单独的阶段。虽然数据存储阶段发生在服务器上(现场或非现场),但数据获取步骤可以通过客户端或服务器端Web技术执行。应用级用户访问数据通常通过客户端页面标记方法使用JavaScript(JS)片段获得,日志存储在远程服务器上。然而,这种方法不适合那些优先自由地将Web挖掘技术应用于其数据的组织2.2. 网络分析Web分析被Web Analytics Association定义为Web分析涉及积累和评估大量数据,以成功检测和改善现场和场外的Web使用[20]。Web分析过程需要四个步骤[21]:数据收集(访问者数量,在页面上停留的时间等)分析提取(通过创建指标将数据处理为信息)开发KPI(使用来自Web分析方法的信息进行商业智能)制定在线战略(例如,创建在线营销活动)2.3. Web挖掘数据挖掘是从数据库中发现知识的一个步骤,是利用各种技术从数据中获取有用信息的过程。DM可以应用于不同的数据类型,如关系,空间(地理),多媒体或时态数据库,数据仓库和Web数据[22]。虽然数据挖掘有各种应用领域,但应用于Web领域并使用Web数据作为输入的类型称为Web挖掘(WM)。Web挖掘分为三类:Web内容挖掘,Web结构挖掘和Web使用挖掘[23]。Web内容挖掘(WCM)是关于从网页上的内容(如文本,图像和视频)中挖掘信息[24]。●●●●●单位卡奈和卡奈。科卡比恰克工程科学与技术,国际期刊40(2023)1013604¼g[2019 - 04 - 21][2019 - 04 - 21][2019 - 04 - 04][2019- 04 - 04][2019- 04 - 05][2019-04][2019 - 04 -04][2019 - 04][2019 - 04 - 04][2019 - 04][2019 - 04][201Web结构挖掘(WSM)是指产生网站的结构摘要,并对页面内的超链接结构感兴趣[25]。Web使用挖掘(WUM)专注于发现和分析点击流模式或相关数据[26]。2.4. Web使用挖掘Web使用挖掘是在包含用户浏览历史的Web访问日志中搜索有价值的专利的过程必须应用几种数据挖掘技术来清理原始日志并将其转换为事务项集或数据多维数据集。为了从博客中提取信息,应该执行Web使用挖掘过程的以下三个阶段预处理是第一阶段,不完整或不一致的现有数据将根据下一阶段的需要进行处理[28]。模式发现是第二阶段,应用各种方法和算法,如统计学,数据挖掘,机器学习和模式识别来获得模式[29]。模式分析是最后一个阶段,在最后一个阶段对发现的模式进行分析,并以可理解的解释和可视化方式显示[30]。2.5. WUM的预处理阶段数据预处理是Web使用挖掘中最先也是最复杂的任务。这一关键阶段通常占整个工作的60%以上,确保了模式发现的结构化,可靠和集成的数据源[31]32。数据预处理阶段由单独的子阶段组成数据过滤是清理数据以删除不指向用户的条目的过程,例如静态文件和抓取网站的搜索引擎机器人[33]。用户识别是根据IP地址识别个人用户的过程,有时是用户代理[34]。页面浏览识别是确定哪些页面文件访问有助于单个浏览器显示的过程[33]。会话识别(或会话化)是将每个用户的用户活动记录分割为会话以表示对站点的单次访问的过程[35]。路径完成是识别由于使用本地缓存方法或屏蔽用户请求的“返回”按钮而未记录的访问的过程[36]。2.6. WUM预处理Web挖掘活动面临的主要技术问题,如不适当的数据。为了成功和可靠地进行采矿,收集的数据应采用适当的格式。然而,这些数据往往是不完整的或不可用的,因此其准确性不能得到保证。绝大多数挖掘工作通常用于提高数据质量[37]。Web服务器提供的原始访问日志文件包含影响模式发现和分析准确性的不相关元素这些无关紧要的条目包括与页面内容无关的资源,如图像,CSS或JavaScript文件可以检查以下文件请求和HTTP状态代码的示例,以查找需要过滤的不相关记录:‘‘GET/site HTTP/1.1‘‘GET/favicon.ico HTTP/1.1‘‘GET/app/admin/adm.php HTTP/1.1'' GET/app/images/ccc.png HTTP/l.1 "200‘‘GET/app/css/login.css HTTP/1.1‘‘GET/website/ HTTP/1.1从Web服务器日志中识别用户本身就是一个挑战。ECLF日志格式的用户识别问题可以用公式表示如下。考虑IP1/4 fip 1;ip2;. ;ip ng是访问网站的用户的所有IP地址的集合,R1;r2;..表示网站的所有资源的集合,;b ng是web用户的所有浏览器的集合,并且K k1;k2;. ;k n是网站外部的一组链接。一日志条目在ECLF可以被定义为其中ipi2IP;ri2R;ref i2R[K;bi2B,t表示请求时间,因为时间-tamp,d表示请求方法i。e. GET/POST,v表示HTTP版本,c表示HTTP状态码,c表示传输字节的大小。ref i;b i和cookie是自定义属性。Web服务器日志由L = fl1;l2;. l ng.清理和提取的日志可以定义为CL¼fcl1;cl2;. ;cl ng包含相关条目和c li<$hi pi;t;ri;½re fi];½bi] i.假设U^fu1;u2;. ;u ng是访问网站的所有用户的集合。用户ui对网站的访问可以被定义为vsihui;eii,其中e i t1;r1;ref1; t2;r2;ref2;.; t n;r n;ref n;t i1Pt i.因此,用户标识是如下公式化的问题:对于服务器日志L,拾取访问V1/V2;V2/V3;. ;vs ng of从清理的日志CL中删除网站用户,并在稍后将V写入用户活动文件[39]。会话识别是weblog预处理中的另一个主要问题[40]。服务器端编程语言的唯一会话允许跟踪来自同一浏览器的所有请求,直到它关闭。Web服务器使用cook-ies来跟踪用户并适当地进行会话过程。然而,Web服务器需要一组复杂的过程来从Web服务器日志中识别用户和会话[41]。这个过程很麻烦的主要原因是,除了客户端的IP地址和请求时间之外,Web服务器日志中没有其他数据来区分用户或会话。有限的信息,web服务器日志不足以理解例如浏览器已经关闭和重新打开。通常,日志记录解决方案通过将来自同一IP地址和Web浏览器签名的所有命中归因于一个人来跟踪访问者会话。这种情况与动态IP分配相结合成为一个问题,其中ISP在整个会话中分配不同的地址[42]。通过检查自上次请求以来经过的时间,尝试确定用户是否在单独的会议。一段时间后提出的请求得到考虑不同的会话,因为用户不会在页面上停留超过特定时间。在科学研究中,这一时间通常被接受为连续页面10分钟,会话持续时间30分钟[43]。另一个问题是区分午夜之前开始并持续到第二天的会话[42]。在文献中有许多研究与日志记录的需要有关,这与软件开发的历史一样古老。Gholamian等人。[44]检查了使用的一般日志结构并对多种测井应用进行了比较分析。Sri- vastava等人[45]揭示,包含有限访问数据的博客是文献中许多研究的灵感来源。Paredes等人[46]编写了一些研究报告,从这些记录中提取尽管据报道,这些研究已经取得了很大程度上的成功结果,但这些过程非常费力,是离线完成的,并不总是给出准确的结果。Abdalla等人[2]和Deshpande et al.[47]提到了在这方面遇到的困难。●●●●●●●单位卡奈和卡奈。科卡比恰克工程科学与技术,国际期刊40(2023)1013605主要由现有的算法所造成的建模问题已经在以前的研究中进行了研究,并提出了各种建议,以开发更有效的预处理方法。Sukumar等人[48]通过传达文献中的预处理技术,为这些研究提供了示例伪代码Kundu等人。[49]编译了网络日志分析应用程序,并在他们的研究中对它们进行了比较。Fatima等人。[40]揭示了在他们的研究中进行的会话识别研究。Deshpande等人。[47]总结了他们研究中在用户识别方面所做的工作。Srivastava等人[45]概述了在他们的研究中应用于Web服务器日志Svec等人[50]解释了数据预处理在Web使用挖掘中的重要性以及错误对数据分析的影响除了WUM目的之外,对于希望通过基于云的Web分析工具获取信息的组织来说,最大的问题是隐私问题,随着数据的保存,第三方服务器。Quintel等人[51]在他们的研究中提出了对这个问题的担忧 C. J. Eugan等. [4]提出了一个名为Webalyt的开放式Web分析平台,旨在提供可用性和可靠性。高流量下的能力。Kumar等人[3]在他们的研究中对基本的Web分析工具进行了比较分析,解释了Web分析应用程序面临的挑战。Matomo(for- merlyPiwik)、Open Web Analytics(OWA)和Webalyt等现场工具使用基于JavaScript的页面标记方法来获取数据,就像它们基于云的替代品一样。一项研究解释了数据模型,数据收集和存储方法,以及Piwik和OWA的工作原理,这是该领域最受欢迎的开源工具,在文献中没有发现。所有这些挑战解释了成功的数据收集和有效的挖掘活动的障碍。另一方面,内容提供商主要对访问者的行为感兴趣,以了解除了服务器管理员感兴趣的标准系统统计之外的趋势和因果关系[52]。许多这类要求不能用简单的统计工具来满足,需要更复杂的技术。3. 该方法认为Web服务器日志不足以执行有针对性的分析或不希望与其他人共享用户访问数据的组织可能更愿意将日志数据保留在其服务器上。访问数据的准确性和完整性对于确保Web使用挖掘过程产生可靠的结果至关重要。图1示出了通过鲁棒收集方法获得的数据可以有效地用作web分析提取和web使用挖掘两者的数据源。本研究的重点是开发一种更有规律、更健康地收集WUM该方法得到的使用这些数据还消除了对WUM预处理阶段的需要,并直接为下一步模式发现提供健康、干净和随时可用的数据。建议的数据收集方法,在现场工作,不同于传统的Web服务器日志或客户端的形式。该技术依赖于使用基于应用程序的API来获取、解释、格式化和存储数据。在建议的三层模式下开发的API旨在在大量访问流量下提供可用性和可靠性,并遵循信息安全的保密性,完整性和可访问性原则日志API已被实现到“校园自动化网络信息系统(CAWIS)“软件框架中我们对Sakarya大学的网络应用程序进行了评估,并收集了准确的数据。该方法的三层组织和日志API的定位如图所示。 二、表 示 层 包 括 前 端 ( 客 户 端 ) Web 技 术 , 如 HTML 、 CSS 和JavaScript。在服务器端生成并由用户在浏览器中查看的Web应用程序的用户界面位于此处。应用程序层包括日志API和在Web服务器上运行的应用程序。来自不同来源(如HTTP、网络和Web应用程序)的客户端和请求数据在此收集和处理。应用层与表示层和数据层都数据层包括所有类型的数据库和存储进程。GeoIP和日志API数据库以及应用程序数据都位于此层中。根据该模型,应用程序和数据库具有交叉访问。与其他方法不同的是,在这种方法中没有使用客户端Web技术来进行用户跟踪日志API在服务器端运行,并作为软件框架的一部分应用程序级日志记录是一种长期存在的方法,作为Web应用程序在某个级别上的功能特性。该方法引入了一个更标准化的结构,而不是通常或直接的解决方案。因此,在模式发现阶段提供常规数据,而不需要在Web使用挖掘过程的预处理阶段中进行数据转换、数据清理、数据过滤、用户和会话识别、路径完成和数据格式化。此外,许多定量和定性的数据不包含的Web服务器日志记录在一个结构化的形式,供以后处理。这些数据还可以用于各种目的,例如即时系统监控、分析提取和用户偏好分析。该模型的另一个突出特点是可以区分属于动态IP的会话。在所提出的方法中,会话由Web服务器创建,并且两个不同的设备被定义为单独的会话,即使它们使用相同的IP地址。当用户注销或不响应在出现以下情况时激活的警告窗口时,这些会话将终止在一段时间内没有页面活动。此外,与其他分析解决方案不同,在午夜之前开始并持续到第二天的会话不会在一天结束时终止。所有这些功能使该模型能够执行比weblog更成功的用户和会话识别。3.1. 数据收集企业或大型Web应用程序通常被设计为软件框架。日志API内置在框架代码中,在头部运行.因此,每个页面请求都会调用API。API在应用层中的工作方法如图所示。3.第三章。一旦适当地构建了软件框架,并且正确地集成了API,应用程序开发人员就与日志无关了。当开发人员编写和发布应用程序代码时,API始终作为分层框架的一部分工作。在软件框架代码结束之前,在页面日志表中更新关于在活动页面上执行的操作的应用数据。通过这种方式,可以获得用于改进应用程序的数据,例如页面加载时间、数据库查询延迟和发生的错误。●●●单位卡奈和卡奈。科卡比恰克工程科学与技术,国际期刊40(2023)1013606Fig. 1. 提出了WUM过程的数据收集方法和改进。日志API在初始阶段从HTTP、浏览器代理、Web应用程序、Web数据库和GeoIP数据库等不同来源获取客户端数据,并与数据融合相结合。数据基本上属于四个主要分类组之一:HTTP请求数据,网络级数据,应用程序级数据,外部数据。日志API收集表2中的每个请求的主要数据从这里包含的HTTP请求和网络协议源获得的数据由服务器端编程语言提供给API。API还访问应用程序数据单位卡奈和卡奈。科卡比恰克工程科学与技术,国际期刊40(2023)1013607图二. 所提出的方法的三层组织。包含由软件框架共享的用户信息。客户端地理位置(国家/地区)信息通过SQL查询从GeoIP表中的IP数据范围中检索。日志API在收集包含浏览器和OS信息的用户代理数据后,使用各种字符串处理函数获取详细数据,如浏览器名称、浏览器版本、操作系统名称和操作系统版本。表中的其他数据是直接从其来源获得的,未经处理。收集到的数据经过下一阶段的清理和处理后,根据数据模型存储在会话和页面浏览数据库表中。数据库表打开会话用于管理会话和实时跟踪活动用户记录创建于此表适用于进入应用程序的每个用户。当用户注销或超时时,相关记录将被删除过期因此,确保了包含系统中的循环访问者的表始终是最新的。所提出的方法的数据收集过程具有O(N)的线性时间复杂度取决于请求的数量。同样,服务器上消耗的处理器功率和数据存储大小也会根据页面请求按比例增加。该方法是一种可扩展的结构,并且通过提供足够的资源可以容易地增加其执行操作的能力3.2. 数据模型在Web应用程序中的日常事务期间生成的操作数据保存在写入繁重的OLTP(在线事务处理)数据库中,在该数据库中执行连续的数据输入输出操作[16]。记录存储在日志表单位卡奈和卡奈。科卡比恰克工程科学与技术,国际期刊40(2023)1013608图三. 日志API工作方式的序列图表示。表2收集主要数据及其来源。数据源客户端配置文件/用户代理(浏览器、操作系统)HTTP请求IP地址网络协议Referrer(previous webpage)HTTP请求转介(渠道识别)申请地理位置外部页面视图HTTP请求用户配置文件应用程序特定应用数据应用参观或会议申请在所提出的方法中集成到web应用数据库中。图1给出了该过程中使用的物理数据模型的实体关系图(ERD)。 四、ER图中所示表格的使用目的如下:user_info:Web应用管理的用户数据。open_sessions:正在进行的会话的数据。log_geoip:各国的IP范围数据log_session:包含会话信息的客户端数据log_page:包含页面信息的请求数据。会话管理过程由应用程序和Web服务器的集成操作来执行。第一次向网站发出请求时,服务器端编程语言会自动为客户端生成一个新的字母数字会话变量。另一方面,web应用程序使用表“打开的会话“来管理正在sessions.日志表中的所有会话和页面数据都通过名为"opn _ id“的外键关联用户识别再次由API执行,API也可以访问应用程序数据。3.3. 数据清理、处理和存储除了收集数据,日志API还执行清理和存储数据的功能。首先,所有获得的数据都被转换成一种形式,在按数据类型进行清理和格式化同时,对浏览器数据、请求类型等信息进行编码.此外,用于确定客户端位置的国家信息然后,将与会话相关联的整个结构化数据插入到单位卡奈和卡奈。科卡比恰克工程科学与技术,国际期刊40(2023)1013609X.Σ见图4。 物理数据模型的实体关系图。通过API执行的查询,具有引用完整性的会话和页面日志表。设S^fs1;s2;. ;s ng表示为每个访问者创建的会话集。S中每个si的会话数据存储在OLTP数据库的会话日志表中会话由访问者数据组成,例如用户名(如果登录)、操作系统、浏览器代理、IP、密码、搜索引擎和首次到达数据,这些数据在他们浏览页面时不会更改。设P s^fp1;p2;. ;p mg表示某个会话中的页面请求集合。Ps中每个pi的请求数据存储在单独的行中,在页面日志表中具有访问者的唯一会话ID。主要数据,如自动增加日志详细信息ID、会话ID、用户ID和名称、操作时间、服务器ID、应用服务、页面/模块和URL保存在页面日志表中。数据所在的表中一个元组的平均记录大小对于会话,存储大约200字节,对于页面浏览,存储大约1000字节。表log_page中的一个样本元组如表3所示。此方法一直是首选方法,因为在请求的每个页面上,表行中至少有一个数据发生更改。因此,用户和会话识别将确保百分之百的成功。 虽然页面日志表中的访问记录看起来在他们与社会经济地位的关系上会话以及经由要进行的MIS数据库查询在相关会话中访问的页面等式1中的关系代数公式可以用于从日志数据库表中获取在单独会话中导航的页面的数据,作为SQL内部连接。qs测井 会话名称:opnid/p:opnidqp日志页100此外,每个会话的长度可以通过汇总访问者在该会话的页面上花费的时间来获得。由于所请求的时间R可用于表中的每个页面,因此第p个页面的页面停留时间可以是最小的。 页面是通过减去第p页的请求时间从第p + 1页Rp 1[54]。因此,会话的停留时间Ds使用时间尺度通过m个页面的停留时间的总和来计算,如给出的在等式2中。MDs¼Rp 1-Rp 2第1页每个会话的浏览量根据等式3进行审议。在请求中,它们按照请求的顺序存储为时间序列。然而,这种情况并不妨碍获得有关PPS公司简介ð3ÞM单位卡奈和卡奈。科卡比恰克工程科学与技术,国际期刊40(2023)10136010表3表log_page中的示例元组表字段示例数据log_details_id 14036log_opn_id 81291166553log_username user9发布时间:2021-2019 -09-02日志服务器16log_app_service gatelog_module信息登录_网址http://www.gate.sakarya.edu.tr/?page=infolog_web_message欢迎来到WebGatelog_subtitle Info::您可以查看访问权限和安全性信息在这里Copyright © 2018 - 2019 www.cncnc.com版权9290-ca8ebb9e6bbcCopyright © 2018 - 2019 www.cncnc.com版权所有‘‘cookie_theme”; s:1:‘‘0”; s:10:‘‘cookie_lang”; s:1:‘‘0”;日志会话序列化一个:8:{s:7:''ses_uid”; s:6:'' 166553”; s:6:''ses_id”; s:5:‘‘81291”; s:8:‘‘ses_theme”; s:1:‘‘0”;秒:1电话:021 - 88888888log_get_serializea:1:{s:4:''page”;s:4:'' info”;}登录_页面_加载_时间0,02664.1. 使用分析图5显示了所有会话中浏览量最多的前20名用户通过这种分析,可以确定用户使用系统的程度或在某种意义上使系统保持忙碌。类似的分析是,在会话中浏览量最多的前20名用户。在单个会话中非常高的页面浏览量可以指示危险的用户操作,并且可以用于检测异常。访问者和系统注册用户访问的页面数量提供了关于如何使用系统的重要信息表4显示了访问者类型和使用次数按浏览频率分为五组。这种分析对于确定注册表用户和访问者的跳出率以及揭示他们的页面浏览习惯至关重要。用户在一个会话中浏览超过100个页面的行为值得单独考虑。一般来说,“访问者”(有时是“用户”)的概念4.2. 用户类型和性别数据分析用户数、会话数、页面浏览量、每次会话的页面浏览量以及总会话持续时间(秒、分钟和小时)按用户类型和性别分列的数据见表5。此外,平均会话和页面持续时间可以很容易地显示,并评估,页面日志表还包含应用程序标题、应用程序消息、cookie、会话、发布、获取和页面加载时间等操作数据,以确保应用程序开发人员获得用于软件质量改进和错误检测目的的Web管理员可以使用这些数据库表来监视系统使用情况并跟踪实时分析信息。特别是,获取页面生产时间在Web开发人员能够检测数据库引起的缓慢方面起着至关重要的作用4. 实验结果本研究未使用假设或合成数据。相反,分析是基于在一个真正的企业Web应用程序中实现该方法所获得的实际数据。为了证明所提出的方法收集的数据的意义,检查了2018年3月16日星期五的24小时数据。分析的一天样本数据包括22,104个会话和161,672次浏览。关系数据库中收集的数据可以通过生成复杂的查询进行该数据也可以很容易地适应任何WUM技术。关于页面请求和会话的数据允许分析,例如网站使用情况,用户类型和性别,设备,IP和代理,浏览器类型和主机,语言和国家,搜索引擎和关键字。此外,可以对累积的数据进行每日、每周、每月、每年和长期的分析提取或比较根据目标和目的,这些数据还可以用于异常检测和系统负载估计。通过对收集到的实际数据的分析,对方法的合理性进行了评估通过实施该方法,不仅取得了一致的结果,而且对今后的活动也产生了启发性的以下小节介绍了为揭示所收集数据的重要性和准确性而创建的一些使用所获得的数据,可以轻松地进行比本节所解释的更多的分析。可以对用户行为做出选择。4.3. 每小时请求数据根据用户类型和性别,可以获得系统每小时的使用情况作为OLAP数据立方体。这些多维数据如图所示。 6作为一个例子除了提供关于服务器和系统密度的信息之外,该信息对于攻击和异常检测也是有意义的。4.4. 分析设备和浏览器代理数据面向客户端的设备和浏览器代理数据的技术分析如图7所示。此类技术分析对于网站的可访问性、可支持性和可用性要求至关重要。通过分析访问系统的客户端来获得与图7(a)中所使用的设备类型、图7b中的操作系统、图7c中的浏览器类型以及图7d以同样的方式,图7e中的用户来自的国家和图7f中的浏览器语言
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功