没有合适的资源?快使用搜索试试~ 我知道了~
软件X 21(2023)101312原始软件出版物AMED:聚合多媒体探索和发现搜索软件Abdur Abdulman Khana,Abdul,Umer Rashida,Naveed Ahmedba巴基斯坦伊斯兰堡45320阿扎姆大学计算机科学系b苏丹王子大学计算机与信息科学学院,利雅得12435,沙特阿拉伯ar t i cl e i nf o文章历史记录:接收16八月2022收到修订版2022年12月15日接受2023年保留字:信息发现多媒体文档搜索引擎探索性搜索a b st ra ct多媒体内容的激增正在将用户的信息需求从简单的基于查找的信息检索转变为更复杂的探索和发现搜索。探索性搜索范式需要非线性访问不同的多媒体文档,这危及传统的面向精度的搜索引擎结果页面(SERP)配备了媒体特定的线性查找列表称为垂直。现有的垂直聚合方法是在特定数据集上实例化的,并且不容易在网络上进行比较和再现。因此,本文的目的是宣传新的最先进的发现软件聚合多媒体内容,以帮助探索性搜索的发现过程AMED软件执行深度语义分析,聚类,并总结SERP垂直提供多媒体文档为基础的遍历。这些多媒体文件进一步连接到一个非线性图的基础上的相似性措施,并提出了交互式搜索用户界面(SUI),使用户着迷的搜索空间。实证评估所提出的数据模型达到99%的准确率得分,优于现有的聚合技术。受试者间的进一步(N= 44)设计的SUI和Google(基线)搜索引擎之间的可用性分析显示用户参与度提高29.6%,搜索满意度提高43%,知识获取提高32%,点击次数减少63.9%。版权所有©2023作者。由爱思唯尔公司出版这是CC BY许可下的开放获取文章(http://creativecommons.org/licenses/by/4.0/)中找到。代码元数据当前代码版本V1用于此代码版本的代码/存储库的永久链接https://github.com/ElsevierSoftwareX/SOFTX-D-22-00242可复制胶囊的永久链接https://codeocean.com/capsule/5930598/tree/v1法律代码许可证MIT许可证使用git的代码版本控制系统使用Python、HTML、CSS、JavaScript、PyCharm、SERP-API的软件代码语言、工具和服务编译要求、操作环境和依赖关系 以下图书馆:django,networkx,spacy,lexrank,distance,pattern,autocorrect,inflect,contractions,hdbscan,nltk,scipy,scikit-learn,powerai,scycepiece,numpy,tqdm,transformers,sentence_transformers,python-dateutil,pillow,Wikipedia,google-search-results如果可用,请链接到开发人员文档/手册问题支持电子邮件arkhan@cs.qau.edu.pk1. 动机和意义网络上的多媒体内容通过轻松访问互联网和手持设备而激增[1]。信息*通讯作者。电子邮件地址:arkhan@cs.qau.edu.pk(Abdur Abdulman Khan).https://doi.org/10.1016/j.softx.2023.101312随着信息技术的普及,用户的信息需求也越来越具有探索性。除了寻求精确查询的答案外,Web用户还需要直观的方法来探索多媒体信息[2]。在大约35亿次发布的搜索查询中,38%表达了信息探索和发现的意图[3]。现有的搜索引擎2352-7110/©2023作者。 由Elsevier B.V.出版。这是一篇开放获取的文章,使用CC BY许可证(http://creativecommons.org/licenses/by/4.0/)。可在ScienceDirect上获得目录列表SoftwareX期刊主页:www.elsevier.com/locate/softxAbdur Abdulman Khan、Umer Rashid和Naveed Ahmed软件X 21(2023)1013122=Fig. 1. AMED软件的体系结构设计。实线箭头表示模块依赖,虚线箭头表示模块依赖。月亮符号表示模块间通信。信息需求。相关内容分散在缺乏相关性的各种垂直领域[4]。这迫使网络用户手动聚合和综合不同垂直领域的连贯信息,阻碍了探索过程。探索性搜索是一种相对较新的范式,它描述了开放式、持久性和多方面的信息寻求,其目的是解决复杂问题和发展增强的心理能力。Web用户对在线检索系统的要求越来越高,包括聚合多媒体文档、非线性内容浏览和交互式可视化,以便从海量的检索结果中快速理解感兴趣的信息。该检索范式在文献中被认为是探索性检索[5]。随着探索性搜索问题成为研究界广泛关注的问题,许多研究者引入了创造性的技术来重构和重组搜索结果的内在机制,以缓解用户的探索性例如,[6-[9-类似地,在[12然而,大多数这些方法都是在特定的数据集上实例化的,相应的高级工具仍然无法为普通用户所用。因此,大多数现有的研究者比较新的探索性搜索方法使用传统的基于查找的检索系统的推广。因此,在宣传新的发现工具以增强可比性方面存在研究差距[5]。AMED软件旨在宣传最先进的发现软件,该软件聚合多媒体垂直,以帮助探索性搜索的发现过程。AMED软件对SERP垂直领域执行深度语义分析、通过基于相似性度量实例化非线性图并呈现交互式可视化,进一步增强了与这些多媒体文档的交互,该交互式可视化使用户在探索和发现有趣信息时在搜索空间内着迷。此外,AMED软件是在真实数据集上安装的,并使用严格的经验和可用性分析进行评估,以满足用户通过实际设计、实施和评估人类受试者(N = 44)的SUI,进一步研究了所提出的数据模型的有效性。对所提出的数据模型和SUI的评估优于现有基线系统因此和最大的再现性以确保结果的据我们所知,以前没有报道过为研究社区的进一步发展而宣传一个记录良好的探索和发现搜索工具的2. 软件描述AMED软件是在最先进的即插即用库上实例化的,具有最小的配置和最大的耦合机制。这种模块化架构设计执行了大部分样板代码工作,并减少了不必要的编码复杂性。因此,它允许部署高级别的概念,而不是专注于低级别的实现细节。详细的体系结构设计和功能将在随后的小节中讨论。2.1. 软件构架AMED软件使用Django1库来初始化软件架构的主干。Django是按照模型-模板-视图架构设计开发的。图1说明了AMED软件的总体架构设计。该模型封装了固有的数据模型,并充当控制数据流的数据访问层。它包含后端逻辑,包括媒体源检索、垂直聚合、语义分析、聚类和非线性图实例化。模板是一个表示层,它处理搜索用户界面(SUI),并提供一种机制来执行最终用户信息的条件格式设置。视图执行核心业务逻辑,并充当模型和模板之间的中间层。因此,视图负责将细化的用户参数分发给模型进行检索,处理检索到的数据模型,并将其呈现给最终用户。随后的小节解释了软件架构。2.2. 软件功能2.2.1. 模型该 模 型 的 主 要 执 行 点 是 垂 直 检 索 功 能 , 包 括 结 果 集f{get_all_vertical_results(q,n,e)},其接受字符串(q)中的用户查询、要检索的搜索结果的数目(n)作为整数,并且搜索en-gine(e)用于检索传统上可用的垂直领域,如文本、新闻、图像和视频等。该功能聚集每个多媒体对象的固有元数据,包括标题、内容、URL和日期时间。可以修改参数以从任何垂直源检索结果,并且可以修改参数以包含比上述更多的结果。拟议的软件提出了一个新的通用基线,允许最小依赖的未来探索性研究1https://www.djangoproject.com/Abdur Abdulman Khan、Umer Rashid和Naveed Ahmed软件X 21(2023)1013123=垂直元数据被聚合到通常预先训练的最先进的文本句子BERT [15]embeddings= f{f{get_sentence_embedding(resultset)}}中。因此,BERT模型可以合并任何垂直源进行聚合。随后,聚合的嵌入容器通过凝聚聚类进行处理,凝聚聚类在语义上被转换为汇总的多媒体 文 档 =f{f{get_summarized_clusters ( get_agg_assignment(embeddings,θ))}}。阈值θ是使用最佳平均聚类得分[1]经验定义的。采用相同的过程来分组语义相似的多媒体将文档分成组f{f(get_summarized_clusters( f{get_agg_assignment ( get_sentence_embedding( documents ) ) ) }} 。 最 后 , G = f{graph ( resultset ,documents,groups)}基于两种类型实例化非线性图边缘;包容性和相似性。搜索结果、文档和组之间的边表示包含边,因为多媒体文档组包含多媒体文档,并且多媒体文档包含多媒体搜索结果。文档和文档之间的边表示相似性边,因为多媒体文档或文档组可能与其他多媒体文档或文档组相似。相似性边缘是基于超过内部相似性阈值的阈值创建的[1],这创建了非线性搜索空间导航。在Algo中说明了数据模型流的算法1.一、2.2.2. 模板模板负责以可用的格式向最终用户呈现信息。AMED软件包括四个整体模板:发现,探索,查找和可视化,如图所示。2(分别为a、b、c和d)。发现界面呈现概括的多媒体组以提供快速搜索结果空间理解。探索性界面提供了对概括的多媒体文档的主题探索。查找接口提供了完全聚合的线性多媒体搜索结果适合调查任务。最后,可视化界面提供了一个实时的基于图形的交互机制,以保持用户的吸引力和促进偶然发现。2.2.3. 认为视图管理数据模型和搜索用户界面之间的数据交互流。用户最初在搜索用户界面上提供查询,并且视图将用户查询分派到固有数据模型以用于复杂图的结果检索、处理和实例化此外,视图预处理用户的搜索结果过滤选项,如日期,布尔查询关键字,首选浏览模板等,以减少网络流量,缓存优化机制,nism防止过多的API调用时3. 说明性实例AMED软件提供了四种主要的搜索活动:细化、探索、查找和可视化。由于用户在发现搜索过程中的信息需求是动态的,与支持特定活动(例如,无论是发现,探索,查找或可视化),我们设计了四个SUI来支持这些活动的独特和集体。每个活动包含四个标准面板:过滤、浏览、概述和搜索面板。这些面板的设计符合最佳探索和发现SUI原则[16]。准确地说,过滤面板被放置在最左边,以最大限度地提高整个控件的可见性和响应设计。浏览面板是基于无限滚动原则实例化的,该原则保留了上下文并有助于保持用户对探索搜索空间的兴趣。为了克服无限滚动中的导航定向,使用了使点击内容饱和的着色约定。最右侧的概览面板Abdur Abdulman Khan、Umer Rashid和Naveed Ahmed软件X 21(2023)1013124∈⊆∀⊆ ∀∈→∈→⊆∀=∈图二、 AMED软件的 图 示 , 概述了(a)发现界面,(b)探索界面,(c)可视化界面和(d)可视化界面。显示单击项目的快速概览,而不更改视图。最后,搜索面板位于最顶部,这是SUI中的传统位置随后的小节从数据模型耦合的角度说明了每个活动3.1. 发现界面发现接口采用图数据模型G.它提供了搜索空间的快速概述,以帮助发现过程。它提出了十个词概括的多媒体组,进一步封装前三名的多媒体文档和片段。研究表明,用户对7至12个单词的内容摘要和前三个搜索结果的认知过载最小[16]。默认情况下,向用户显示经由每个组的包含边连接的前三个内容,并且可以在探索更多面板中遍历经由相似性边连接的内容。被配置为在点击感兴趣的多媒体组时打开,以进一步访问剩余的多媒体文档和前三个相似的多媒体组。当用户首次访问AMED软件时,发现界面默认打开,以提供搜索结果空间的完整概述3.2. 探索性界面探索性接口使用G的子集,其中G e = {G eG:顶点文档}。探索性界面的主要目的是为详细理解提供主题多媒体文档探索。一旦选定,此界面将使用过滤面板的控制组打开类似于发现界面设计原则,用户可以使用包含和相似性路径在该界面中非线性地浏览搜索结果,如Algo 1.一、3.3. 查找接口查找接口使用G的子集,其中G1={G1 G:vertices resultset}。查找接口的主要目标是提供多媒体搜索结果的聚合线性列表,以增强调查活动和信息的快速查找,类似于传统的Web搜索引擎。然而,在这方面,所提出的查找接口提供完全语义聚合,而不是现有搜索引擎的混合可以使用标准过滤面板控制组来访问查找界面,并且一旦被选择,将保持对查找界面的查看,以通过查询重构来促进进一步的查找活动。这个界面的一个显著区别是在一个类似画廊的网格中呈现连续的图像,以提供信息的快速视觉概览。此外,通过提取查询实体细节并从维基百科检索汇总的事实3.4. 可视化界面可视化界面提供与固有图形数据模型的直接交互。这种可视化以树状格式呈现图形,以避免信息空间过载。用户最初在G集合内选择感兴趣的多媒体组。随后,使用子集G e ={G eG:顶点文档G i}。然后,用户可以选择感兴趣的多媒体文档并查看搜索结果的进一步相关联的子集,例如,S{Gl Ge:顶点片段Ge}。通过实时交互,这种可视化可以帮助领域专家和普通用户理解底层数据抽象层次上的组织机构。4. 影响用户多方面的信息需求要求超越传统的检索范式。为基于查找的查询设计的垂直搜索结果列表正变得不足以支持需要信息合成和意义构建的复杂信息搜索。AMED提供了一个自适应的体系结构解决方案,将现有检索系统的功能扩展到高级探索性搜索系统中。具体地说,分散的多媒体信息被聚合成语义一致的文档,而不管数据集的限制和领域知识。这些文档被分组为连贯的补丁,总结,并链接为基于相似性的图形数据模型,以增强意义和信息Abdur Abdulman Khan、Umer Rashid和Naveed Ahmed软件X 21(2023)1013125觅食为了确定所提出的方法的有效性,我们设计了符合最佳设计原则的交互式SUI [16]。AMED软件的含义实际上在[1,5,17]中使用。AMED由人类专家进行经验评估,达到99%的准确度,优于现有基线聚合模型其次,对人类参与者进行了研究间可用性分析(N = 44,平均年龄= 31,SD= 12.11,男性/女性= 26/18)[17]。用户样本包括不同的背景,年龄和学历,以获得现实的结果。使用用户参与度量表、情景后问卷和认知量表分别评估AMED,以测量用户探索性参与度、感知搜索任务难度和知识获得。结果显示,与最先进的网络搜索引擎相比,用户感到参与度增加了29.6%,系统和搜索满意度增加了43%,知识获取增加了32%,搜索努力减少了63.9%。在评估探索和发现搜索引擎的主要挑战之一是缺乏现成的基线系统提出的研究人员,这阻碍了比较。这随后可能会助长一些线索的研究的有效性。高级探索性搜索系统与一般基线进行比较,与高级搜索系统相比的实际改进仍然被掩盖。因此,各种研究使用不同的可用性尺度最好遵守他们提出的系统。因此,标准化的高级探索性检索系统不足以进行比较。据我们所知,我们是第一个主动推广和宣传从经验和可用性角度评估的完整解决方案的公司,以帮助重现性和可比性。AMED软件是公开的,可以通过GitHub代码空间获得动手交互。2通过这一举措,我们的目标是鼓励未来的研究人员使用最先进的探索和发现系统产生可比较的5. 结论探索式和发现式搜索是一种新兴的搜索范式,它要求超越传统的信息检索方式. AMED软件是为了帮助信息探索和发现而开发的。AMED提供了一个额外的架构解决方案,将传统搜索系统的功能扩展为高级探索和发现搜索系统。与现有的方法不同,AMED被实例化和公开,而不管数据集和域限制,以将分散的多媒体垂直聚集到语义上连贯的文档中。这些文件被分组为连贯的补丁,总结,并链接为一个基于相似性的图形数据模型,以增强信息觅食和意义。最后,交互式SUI是按照最佳设计原则设计的,以确定体系结构据我们所知,没有努力宣传一个有充分记录的最先进的探索和发现搜索系统。AMED通过经验和可用性分析进行了评估,实现了99%的数据模型准确性和42%的可用性(用户参与度,SUI满意度和减少的搜索工作)。因此,该软件的含义可以帮助探索性的系统设计和数据建模过程中,为未来的研究人员。此外,结果因此,在未来,我们打算进行详细的认知演练分析,以揭示研究结果的偏倚效应2https://github.com/HQuser/arkamedCRediT作者贡献声明Abdur Bullman Khan:概念化,数据管理,形式分析,调查,方法论,软件,验证,可视化,写作Umer Rashid:概念化,形式分析,方法论,项目管理,资源,监督,验证,书面审查NaveedAhmed:资金收购,资源,写作竞合利益作者声明,他们没有已知的竞争性财务利益或个人关系,可能会影响本文报告的工作数据可用性数据和代码可在CodeOcean和Github上获得,在提交手稿时提供致谢作者要感谢沙特阿拉伯苏丹王子大学支付本出版物的文章处理费(APC)的支持。作者感谢苏丹王子大学的支持。作者还感谢SERPAPI为这项研究提供免费搜索信用附录A. 补充数据与本文相关的补充材料可以在https://doi.org/10.1016/j.softx.2023.101312上找到。引用[1]放大图片创作者:Khan AR,Rashid U,Saleem K.一种用于聚合多媒体文档web搜索结果的非线性发现的架构。PeerJ计算Sci. 2021;7:e449.[2]马尔基奥尼尼G.探索性搜寻:从找到到理解- ing。CommunACM 2006;49(4):41-6. http://dx.doi.org/10.1145/1121949的网站。1121979.[3]Anuyah O,Milton A,Green M,Pera MS.搜索引擎对与课堂环境相关的网络搜索查询的响应的实证分析。阿斯利布·JINF. 经理。2020;72(1):88-111。[4]拉希德·汗2021年国际人工智能大会。ICAI,一种使用语义的关系聚合不相交多媒体搜索结果方法,2021,p. 62比7[5]放大图片创作者:John W. 用户发现聚合多媒体网页内容的解释性研究。IEEEAccess 2022;10 : 56316-30. http://dx.doi.org/10.1109/access.2022.3177597 网站。[6] Rashid U,Bhatti MA. 探索框架结果在多媒体信息聚合搜索。多媒体工具应用2017;76(24):25787-826. http://dx.doi.org/10.1007/s11042-017-4769-8网站。[7]Saddal M,Rashid U,Khattak AS.一种浏览方法来探索网络图像搜索结果。2019年第22届国际多主题会议。INMIC,2019,p. 1比6[8]放大图片作者:Rashid U,Saleem K,Ahmed A. MIRRE方法:MIR聚合搜索结果的非线性和多模态探索。多媒体工具应用2021;80(13):20217-53。[9]放大图片作者:J. Mímir:一个用于交互式信息搜索和发现的开源语义搜索框架。J.WebSemant.2015;30:52-68.http://dx.doi.org/10.1016/j.websem.2014.10.002.[10][10]张晓刚,张晓刚.在触摸设备上设计探索性搜索。在:计算机系统中的人为因素会议-会议记录,2015年。2015年,p.4189-98.[11]Khalili A,Van Andel P,Van Den Besselaar P,Graaf KA De.使用基于自适应 多 重 图 的 分 面 浏 览 器 促 进 偶 然 知 识 发 现 。 In : Proceedings of theKnowledge Capture Conference,K-CAP 2017,vol.十五岁2017年,中国科学院出版社。http://dx.doi.org/10.1145/3148011.3148037Abdur Abdulman Khan、Umer Rashid和Naveed Ahmed软件X 21(2023)1013126[12]Di Sciascio C,Sabol V,Veas EE.随你而排名:用户驱动的探索的搜索结果 。 在 : 智 能 用 户 界 面 国 际 会 议 , 会 议 录 IUI 。 2016 , p. 118-29.http://dx.doi.org/10.1145/2856767的网站。2856797[13]Ruotsalo others T. 探 索 性 搜 索 的 交 互 式 意 图 建 模 。 ACMTrans. Inf. Syst.2018;36(4):1-46.[14][10] Gaviowacka D,Ruotsalo T,Konyushkova K,Athukorala K,KaskiS,Jacucci G. 引导探索性搜索:从用户与关键字的交互中进行强化学习。在:智能用户界面国际会议,会 议 记录IUI。2013年,第117比27[15]古列维奇·赖默斯Sentence-BERT:使用连体BERT网络的句子嵌入。2019年,【上线】。网址:http://arxiv.org/abs/1908.10084。[16]Russell-rose T,Tate T.设计搜索体验:发现的信息架构。Morgan Kaufmann;2013,http://dx.doi.org/10. 1016/B978-0-12-396981-1.00006-9。[17]拉希德·汗一种基于语义的关联聚集不相交多媒体搜索结果方法。2021年国际人工 智 能 会 议 ( International Conference on Artificial Intelligence , ICAI2021)2021,第62-7页。http://dx.doi.org/10.1109/ICAI52203.2021.9445229.[18]Achsas S,Nfaoui EH.使用堆叠自动编码器改进大数据源的关系聚合搜索。科根系统研究2018;51:61-71。http://dx.doi.org/10.1016/j.cogsys.2018.05.002网站。[19]Achsas S,Nfaoui EH.使用堆叠自动编码器改进大数据源的关系聚合搜索。51,2018,p. 61-71. http://dx.doi.org/10.1016/j.cogsys.2018.05.002,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- StarModAPI: StarMade 模组开发的Java API工具包
- PHP疫情上报管理系统开发与数据库实现详解
- 中秋节特献:明月祝福Flash动画素材
- Java GUI界面RPi-kee_Pilot:RPi-kee专用控制工具
- 电脑端APK信息提取工具APK Messenger功能介绍
- 探索矩阵连乘算法在C++中的应用
- Airflow教程:入门到工作流程创建
- MIP在Matlab中实现黑白图像处理的开源解决方案
- 图像切割感知分组框架:Matlab中的PG-framework实现
- 计算机科学中的经典算法与应用场景解析
- MiniZinc 编译器:高效解决离散优化问题
- MATLAB工具用于测量静态接触角的开源代码解析
- Python网络服务器项目合作指南
- 使用Matlab实现基础水族馆鱼类跟踪的代码解析
- vagga:基于Rust的用户空间容器化开发工具
- PPAP: 多语言支持的PHP邮政地址解析器项目
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功