没有合适的资源?快使用搜索试试~ 我知道了~
软件影响12(2022)100248原始软件出版物RIROSE:在线搜索环境下的理性信息检索放大图片作者:John A.Santos-Arteagaba意大利特伦托特伦托大学经济和管理系bDepartamento de Análisis Económico y Economía Cuantitativa,Universidad Complutense de Madrid,Madrid,Spain自动清洁装置关键词:信息检索在线搜索决策树标杆管理点击率模式识别A B标准我们设计了一个基准算法,模仿用户检索信息时的顺序行为从在线搜索结果的第一页面内的引擎提供的备选集合中选择。该算法定义的基准被设计用于评估与所确定的理性检索策略的偏差用户的主观偏好和信念。该算法考虑了2047个节点组成的二叉决策树定义的10个选项排名在第一页的结果。 该算法的灵活性允许将修改考虑到搜索摩擦和用户方面不同程度的不耐烦,以及测试机器学习技术的分类能力代码元数据当前代码版本v1用于此代码版本的代码/存储库的永久链接https://github.com/SoftwareImpacts/SIMPAC-2021-202Reproducible Capsule的永久链接https://codeocean.com/capsule/1348726/tree/v1法律代码许可证MIT许可证Code Ocean使用的代码版本控制系统使用MATLAB的软件代码语言、工具和服务编译要求、操作环境依赖性如果可用,链接到开发人员文档/手册https://help.codeocean.com/en/collections/500063-user-manual支持电子邮件,以了解问题本文所描述的算法的主要直觉是建立在一个信息检索过程的设计,这是尽可能接近的行为,一个标准的理性决策者(DM)正式的决策理论文献,同时占顺序评估结构常见的主要实证研究。简而言之,基准算法定义了一个信息检索框架,其中每个DM开始评估组成搜索引擎提供的结果的初始页面的十个备选项。DM遵循一个顺序过程,该过程由从所显示的备选项中检索到的观察结果决定,这些观察结果决定了他随后的检索行为。图图1示出了对应于来自二叉决策树的前四个备选方案的检索过程,其中 DM由观察到的实现的值确定,���= 1,2,������...,10,相对于令人满意的截止值,,= 1,2,...,10,由他的偏好决定。后一个值是由DM根据他对潜在实现的信念主观定义的这可以从组成不同备选方案的特性中观察到。简单地说,每当 ���>������时,DM在继续观察下一个选项之前评估相应的选项。请注意,DM在处理由引擎提供的初始结果集的10个备选项时,必须说明执行或省略的评估的整个历史本文中的代码(和数据)已由Code Ocean认证为可复制:(https://codeocean.com/)。更多关于生殖器的信息徽章倡议可在https://www.elsevier.com/physical-sciences-and-engineering/computer-science/journals上查阅。*通讯作者。电子邮件地址: Debora. unitn.it(D. 迪卡普里奥),fransant@ucm.es(F.J.Santos-Arteaga)。https://doi.org/10.1016/j.simpa.2022.100248接收日期:2022年1月3日;接收日期:2022年1月28日;接受日期:2022年1月31日2665-9638/©2022作者。由Elsevier B.V.出版。这是一篇开放获取的文章,使用CC BY许可证(http://creativecommons.org/licenses/by/4.0/)。可在ScienceDirect上获得目录列表软件影响杂志 首页:www.journals.elsevier.com/software-impactsD. 迪卡普里奥和F.J. 桑托斯-阿特亚加软件影响12(2022)1002482Fig. 1. 基准信息检索过程:组成二叉决策树的四个初始选择。也就是说,基准算法是在总共十个备选项上定义的二叉决策树,占1023个二叉决策节点和1024个最终节点,即总共2047个节点。该算法允许考虑DM着手评估搜索引擎所递送的结果的初始页面之外的任何给定数量的令人满意的备选方案的场景。请注意,检索过程的复杂性随着每一个额外的备选方案的考虑而大幅增加。在这方面,对基准算法施加的限制是基于经验观察到的DM的行为,DM关注搜索引擎提供的前十个选项[1从直观的角度来看,一个基本的算法,包括10个单独的观察,每个与其相应的截止值,也可以被定义为描述检索行为的DM观察经验。事实上,从这个基本算法获得的输出不能与基准算法的输出区分开来,基准算法考虑了整个潜在的检索路径。然而,基本的算法必须扩展到形式化的检索过程中,DM被要求确定少于10个的替代品,满足他们的主观要求之间提供的引擎。即使在这种情况下,基本算法也不会识别DM可能生成的整个检索路径集,从而阻止了对潜在观察和评估集之间我们必须强调这样一个事实,即定义理性DM检索过程的二叉决策树(在在线搜索环境中)在经济学、决策理论和运筹学文献中很常见,以前没有编码和测试过尽管这些研究分支承认算法所基于的正式顺序过程,并且已经经验性地验证了DM的检索行为及其观察和评估预定数量的满意替代方案的目的,但情况仍然如此[4]。在下面的论文中描述的基准算法正式化的顺序检索结构和随后的路径图中总结。1,总共有10个备选方案。DM可能采取的每一个步骤的定义允许在通过由检索到的观察结果确定的检索路径的特定点处包括各种修改。此外,设计用于测试特定行为策略的替代算法,还设计和评估了基准情景。这些算法的主要贡献可以总结如下:• Di Caprio等人。[5]说明了摩擦-由不满足决策树不同节点中DM的主观要求的观察触发-对其检索行为的影响• Di Caprio等人。[6,7,Source Code 2021]引入了一组互补算法,可以比较DM在不耐烦增长时的行为提出了主要基准算法的两种变体,其中不耐烦确定DM上假设的停止行为,其范围为◦ 在严格的情境中,一旦替代品相对于他们的主观偏好表现不佳,即一旦观察结果不满足他们的截止期望,DM就会结束检索过程◦ 在更复杂的环境中,DM会通过表现不佳的替代品进行,直到找到一个令人满意的替代品,然后在观察到一个新的表现不佳的替代品时立即停止。• Di Caprio和Santos Arteaga [8],Di Caprio和Santos Arteaga [9,源代码2021]利用基准算法的能力来生成可用于训练和验证机器学习(ML)技术分类能力的行为模式。也就是说,该算法既提供了检索到的数值观测值,以及根据所进行的评估的行为后果。根据检索决策的报告顺序,设计了不同的算法并进行了分类。从算法中获得的输出向量被用作训练输入,以突出ML技术相对于标准统计技术的识别和分类能力。表1给出了当满足截止值等于���= 0.5时,对于所有���= 1,2,...,10,从基准算法获得的输出。每一列表示一个查询,该查询说明引擎提供的第一页结果中描述的十个每个查询的输出对应于随机实现,描述了DM点击的每个备选方案和后续页面的特征。D. 迪卡普里奥和F.J. 桑托斯-阿特亚加软件影响12(2022)1002483表1图二、 对于������= 0.5,���= 1,2,...,10,相对于无摩擦场景的CTR差异。表2由基准算法在���λ= 0.5,λ= 1,2,...,10时提供的输出搜索查询0.758 0.823 0.4902019 - 05 - 24 00:00:002019 - 06 - 21 00:00:000.655 0.950 0.709 0.585摩擦情景中的CTR差异。摩擦CTR无-1=0.1 [f1= 0.1; f2= 0.2]1 50.02 50.09 50.002 50.02 45.02 45.05350.01 42.53 39.56随机评价2019 - 05 - 25 00:00:000.706 0.439 0.2762019 - 03 - 25 00:00:000.277 0.766 0.655 0.5062019年12月31日星期四上午10时30分4 49.96 41.22 35.6250.02 40.65 33.06100.05 40.38 31.582019年12月17日星期一2019 - 04 - 24 00:002019年12月31日1 1 3 2 12 2 4 4 24 4 5 6 66 8 7 8 82019年10月30日星期一10 49.92 39.91 30.12点击的页面0 9 8 9 100 0 0 10 00 0 0 0 00 0 0 0 00 0 0 0 0• 两个不同的摩擦力被添加: 在DM面对第一个摩擦力������<���������在DM面临第二次���无条件<������显然,可以基于摩擦力引入附加的摩擦力值0 0 0 0 0如上所述,基准决策树算法允许将任何潜在的修改纳入其主要检索结构内定义的DM的主观行为。每个节点描述了由相应特征的随机实现条件的决策规则的实现。在这方面,在每个节点应用的规则可以修改,以纳入任何的战略特点,确定在文献中描述的不同类型的决策过程。例如,我们可以考虑在DM的搜索过程中引入摩擦[5,7]。也就是说,每当实现相对于相应的满意值表现不佳时,DM可能会觉得引擎提供的排名没有像预期的那样正确地适应他们的偏好,从而降低了他们点击任何后续替代方案的意愿,即, 从而增加后续截止值的值。在这种情况下,所产生的效果的强度和持续时间可以根据DM的主观特征来定义。作为一个说明性的例子,我们考虑了两种情况,这两种情况是由引入的累积摩擦决定的,以解释替代方案• 在DM面对第一个最小摩擦力实现后,将唯一摩擦力,Δ1= 0.1,添加到所有剩余截止值,Δ 1= 1,2,���业绩不佳的实现数量。表2列出了通过不同方案获得的CTR,而图2列出了通过不同方案获得的CTR。2描述了无摩擦基准和每个场景之间每个替代方案的CTR差异。每个模拟由一百万个查询组成摩擦增加对CTR的影响由引入的摩擦数量和替代方案在排名中的位置决定。与此同时,对总转化率的非线性递增效应突出表明其集中在排名较低的替代品中。总而言之,基准算法的不同扩展和修改将允许考虑基于在决策树的每个节点处实现的各种行为策略的多个评估场景,并且通过可能遵循的任何潜在路径。 a DM。注意,除了描述DM的行为之外,该算法还提供了一个基准,用于分析当对检索框架进行修改时,在主要的缺点中,算法的大小构成了绑定限制- ,由于检索过程中加入了其他替代方法,编码要求大大增加。在这方面,算法的基础上更简单的检索策略可以被设计为提供类似的结果的复杂的基准框架,突出有限理性的同化能力和随后的行为DM的重要性。D. 迪卡普里奥和F.J. 桑托斯-阿特亚加软件影响12(2022)1002484竞合利益作者声明,他们没有已知的竞争性财务利益或个人关系,可能会影响本文报告的工作引用[1]Chitika , 谷 歌 结 果 定 位 的 价 值 , Chitika , 2013 , Westborough ( 2013 ) 可 在perma.cc/7AGC-HTDH. Chitika Insights 2013年6月[2] B.迪恩,我们分析了500万个谷歌搜索结果,2019年,这是我们了解到的有机点击率(2019年)可在https://backlinko。com/google-ctr-stats.[3] 高 级 网 络 排 名 , 谷 歌 有 机 CTR 历 史 , 2021 年 , https : //www.advancedwebranking.com/ctrstudy/网站。(于二零二一年十二月二十六日查阅)。[4] J.秦,W. Zhang,X. Wu,J. Jin,Y. Fang,Y. Yu,用于点击率预测的用户行为检 索 , 在 : 第 43 届 国 际 ACM SIGIR 信 息 检 索 研 究 与 开 发 会 议 论 文 集 ,SIGIR2347http://dx.doi.org/10.1145/3397271.3401440[5] D.作者:F.J. Santos Arteaga,M. Tavana,一种新的在线搜索行为建模和研究排名可靠性变化的算法,应用。(2021 b)http://dx.doi.org/10.1007/s10489-021-02856-8。[6] D.作者:F.J. Santos Arteaga,M. Tavana,在线搜索环境中满意和不耐烦用户行为的信息检索基准模型j.eswa.2021.116352http://dx.doi.org/10.1016/[7] D.作者:F.J. Santos Arteaga,M. Tavana,ESWA:在线搜索环境中满意和不耐烦用户行为的信息检索基准模型http://dx.doi.org/10.24433/CO.9579932.v1[8] D. Di Caprio,F.J. Santos Arteaga,增强机器学习技术的模式识别能力:特征定位 的 重 要 性 , Mach 。 学 习 .Appl.7 ( 2022 ) 100196 ,http://dx.doi.org/10.1016/j.mlwa.2021.100196。[9] D. Di Caprio,F.J. Santos Arteaga,MLWA增强机器学习技术的模式识别能力:特征定位的重要性[源代码],2021,http://dx.doi.org/10.24433/CO.0135598.v1。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功