没有合适的资源?快使用搜索试试~ 我知道了~
3662公开查询标识以实现搜索透明度李若涵卡内基梅隆大学,微软美国ruohanli@microsoft.com李建祥卡内基梅隆大学,微软美国jianxiangli@microsoft.com巴斯卡·米特拉加拿大伦敦大学学院微软bmitra@microsoft.com摘要费尔南多·迪亚兹米拉·魁北克加拿大人工智能研究所diazf@acm.orgAsiaJ. 别加河马克斯普朗克研究所for Security andPrivacy Germanyasia.mpi-sp.org1引言搜索系统控制排名内容对搜索者的暴露在许多情况下,创作者不仅重视其内容的曝光,而且还重视对内容出现的特定搜索的理解。 识别哪些查询暴露了排名结果中的给定内容片段的问题是一个重要且相对未充分探索的搜索透明度挑战。暴露查询对于量化搜索偏见、隐私、数据保护、安全和搜索引擎优化的各种问题是有用的。 在给定系统中暴露查询的精确识别在计算上是昂贵的,特别是在诸如web搜索的动态上下文中。我们探讨了近似暴露查询识别(EQI)作为检索任务的可行性,通过颠倒查询和文档在两类搜索系统中的作用:密集的双编码器模型和传统的BM 25。然后,我们改进了这种方法,通过度量学习的检索嵌入空间。我们进一步推导出一个评估指标来衡量暴露查询的排名质量,以及进行近似EQI的各个实际方面的实证分析。总的来说,我们的工作有助于一个新的概念,在搜索系统的透明度和计算手段实现它。CCS概念• 安全和隐私→安全和隐私的社会方面;·信息系统→专业信息检索;·计算方法→神经网络。关键词搜索曝光,暴露查询,透明度,隐私ACM参考格式:Ruohan Li,Jianxiang Li,Bhaskar Mitra,Fernando Diaz,and Asia J.别加2022. 公开查询标识以实现搜索透明度。 在ACM Web Conference 2022(WWW '22)的会议记录中,2022年4月25日至29日,虚拟活动,法国里昂。ACM,美国纽约州纽约市,11页。https://doi.org/10.1145/3485447.3512262在Mic r osoft Resea rch时完成了部分工作。本 作 品 采 用 知 识 共 享 署 名 国 际 协 议 ( Creative Commons AttributionInternational)授权4.0 执照WWW©2022版权归所有者/作者所有。ACM ISBN978-1-4503-9096-5/22/04。https://doi.org/10.1145/3485447.3512262给定可搜索内容的大型存储库,信息检索(IR)系统控制内容对搜索者的暴露在许多情况下,创作者不仅重视其内容的曝光,还重视对其内容出现的搜索上下文的理解。为了实现给定系统促进的搜索上下文的透明度,搜索引擎应该识别哪些搜索查询在排名结果中暴露了每个语料库文档[4]。然而,搜索系统当前不向内容生产者提供这种透明性,因为几乎不存在可用于该任务的非蛮力方法识别这样的暴露查询是我们在本文中的重点。公开查询用例。 曝光透明度很重要的证据渗透到多个工作领域,包括公平和偏见,隐私,搜索引擎优化,甚至安全。Azzopardi和Vinay[1]将可检索性偏差定义为在所有可能的查询中因此,找出哪些查询暴露了哪些文档,对于量化和审计这种偏差是必要的公平排名通常集中在特定的查询[11],而个人用户几乎没有办法了解哪些排名总体上暴露了他们的内容。这在排名曝光率高度货币化的环境中尤其重要,如招聘[13]或在线市场[22]。Biega等人[4]认为暴露查询是搜索系统中的一个重要隐私工具,展示了暴露敏感查询是有问题的一系列场景[27]。被遗忘权[3]是关键的数据保护权利之一:暴露查询的知识可能使用户能够更精确地执行这项权利,而不是完全从搜索结果中删除自己。内容创建者还可以使用曝光透明度来帮助提高搜索结果中文档的性能[30,38]。除了内容创建者之外,服务提供商也可能关心了解不同的内容是如何暴露的[26,41],以更好地了解他们的系统。最后,控制哪些查询暴露某些类型的内容可能会防止通过搜索引擎意外泄漏信息[40]。接近。识别暴露查询的一个直观策略是分析过去的搜索日志,以找到响应特定查询实际返回的文档。然而,随着搜索生态系统不断变化并且要搜索的集合和搜索模型都被更新,这样的日志很快失去了它们作为暴露查询的源的相关性。此外,在某些WWWRuohan Li,Jianxiang Li,Bhaskar Mitra,Fernando Diaz,and AsiaJ.别加3663敏感的搜索上下文,理想情况下应该在暴露发生之前捕获暴露的可能性并记录。因此,暴露查询需要基于给定的搜索排名器而不是日志来计算。 精确的蛮力计算假设我们有一个宇宙的可行的查询-例如,基于现有的查询日志和/或从语料库文档生成-实际上是低效的,因为它涉及到发出所有这些查询的检索系统和重新聚合的排名结果。现在的问题是,我们是否可以做得更好。捐款. 在本文中,我们探讨了近似暴露查询识别(EQI)作为一个检索任务,查询和文档的功能是颠倒的可行性。 我们在两类搜索系统的背景下研究这个想法:基于密集嵌入的最近邻搜索-例如。,[18,24,42]和传统的基于BM 25的[32]检索使用倒排索引[48]。 在基于嵌入的搜索系统的情况下,我们展示了如果我们将问题视为联合查询-文档嵌入空间中的度量学习的形式,则如何改进基于检索的EQI,变换文档检索模型的嵌入空间,使得变换的嵌入空间中的最近邻搜索近似对应于原始嵌入上的反向最近邻搜索。在搜索系统中,查询是否暴露文档是文档相关性以及语料库中有多少其他文档相关的函数因此,我们的直觉是,我们可能能够通过充分选择捕获密集文档区域的语料库特征的训练数据来重新组织嵌入空间中的查询和文档我们还推导出一个评估指标来衡量暴露查询的排名的质量类似于先前用于评估查询建议算法的有效性的双侧度量[33]。该度量表明,查询的曝光重要性取决于文档检索用户和EQI系统用户的行为。总的来说,我们的工作贡献了一个新的概念,在搜索系统中的透明度,并探讨了一个潜在的计算方法来实现它。2相关工作暴露查询标识。 暴露查询识别问题由内容创建者pri- vacyBiega等人定义。[4]的文件。 作者提出了一种EQI方法,该方法在使用具有Dirichlet平滑的单字语言模型的排名器的特定情况下识别单字和二元组暴露查询。该解决方案从语料库中生成合成候选查询,然后使用特定于排名的启发式算法修剪此查询集。 暴露查询集的输出是精确的,尽管是在有限的合成查询集(unigram和bigram)上计算的,但并不总是现实的。相反,制定EQI作为一个检索任务的查询语料库,使我们能够:(i)模型的内容暴露更充分地结合用户浏览模型;(ii)扩展的解决方案的空间,包括查询检索方法,可以处理任意长度的暴露查询。EQI与可检索性的概念密切相关[1]《易经》云:“君子之道,焉可诬也?有始有终。可检索性是分配给文档的点积分数,其量化(1)文档是否暴露在用户有足够耐心检查的等级内,以及(2)向搜索引擎发出查询的可能性 我们的目标是发现特定的查询,暴露了一个文档的检索,从而可以用来估计组件(1)的检索。进一步相关的概念包括关键字查询[14],这是在给定的文档检索系统中检索文档的最小查询。根据定义,keyqueries是所有暴露查询的子集搜索透明度和可解释性。 EQI是一种搜索透明度:其目标是帮助用户全面了解搜索系统为他们提供的结果。透明度与可解释性和可解释性密切相关,其目标是了解排名算法如何以及为什么返回某些结果。可解释性方法包括为黑盒模型生成事后解释,包括局部(解释单个排名结果)[36,39]和全局(解释排名模型)[35]。面向模型的技术包括修改模型使其更具可解释性和透明性[47]或通过可视化进行解释[8,9],而面向用户的技术包括推断模型假设的搜索查询背后的意图[34]或将解释调整为用户的搜索心理模型[37],通过信任的镜头评估解释[29]。颠倒查询和文档的角色。我们的方法EQI的灵感来自几个IR问题,其中的文件和查询的作用是颠倒的。Yang等人[45]采用逐文档查询技术,从文档中发出信息量最大的短语作为查询,以识别相关文档。 在EQI的上下文中,设置有一些不同之处:我们检索暴露查询而不是其他相关文档,并且对暴露查询的广泛覆盖感兴趣,因此使用整个文档作为查询,而不仅仅是最具信息性的短语。Pickens等人[28]索引查询结果集,其中每个可检索项是一个查询,每个查询由一个伪术语列表描述,这些伪术语对应于该查询使用所选检索系统检索的文档ID。 这种方法称为恢复索引,允许按多个文档进行查询。在我们的上下文中,我们感兴趣的是检索暴露单个文档的查询,恢复索引类似于精确的蛮力方法。Santos等[33]建立一个提出查询建议的框架其可以检索针对给定查询的更相关的结果Nogueira等人[25]开发一种生成模型,对于给定的文档,该生成模型产生可以扩展文档以进行更有效检索的查询这两种方法都会生成一组查询,给定的文档可能是相关的,但不是那些在特定地发布给给定的文档检索系统时会暴露该文档的我们期望由这些方法生成的查询集与理想的暴露查询集相交,但是由于特定文档检索系统的行为与标记数据不同,因此相交将较小;并且有效性也可能在标记相关,标记不相关和未标记文档之间变化。在这些情况下,重要的是EQI对实际暴露的文件有效,而不管其相关性如何。3暴露查询标识我们给出了一个文档检索系统,该系统响应于查询而产生从集合D中检索到的文档的排序公开查询标识以实现搜索透明度WWW3664→→.⭢⭢)=→⭢⭢→⭢⭢⭢⭢()下一页⭢⭢.M()()·∈()下一页..M(σ)=⭢⭢→.)=JDDq用于检查持久性的参数( )=i∈dilog2(i+1)Qγd表1:符号列表检索系统-由µq d给出:符号描述D.一系列文件QQµdq,µqd (d)qi∈dµdq(qi,d)·µqd(d,σqi)q∈µd<$q(qj,σj)·µq<$d(d,σqj)(二更)查询语料库d单独文件q单个查询文献检索σq响应q检索的文档的排序列表这种推导使我们得到一个度量,两个不同用户的行为:(1)使用文档的用户,内容检索系统和内容暴露给谁,以及(2)EQI系统的用户直观地,当EQI用户暴露于查询时,所提出的度量具有更高的值,σqnQq的理想文档集d每次查询在相应的文件中突出显示目标文件µq→d一种检验σq的用户浏览模型等级列表。1检验σqρ(d,σq)中 d的基于0的秩的公开查询检索响应于数据而检索的查询的排名列表度量实例化。 为了计算度量,我们可以为µd q和µq d插入标准的用户行为模型,这些模型对用户如何在文档检索和公开查询检索设置下与检索结果进行交互做出了不同的假设。查询的理想排名列表为d例如,如果我们假设µd q和µq d都基于Dnd Q每个文档与秩偏置秩决策(RBP)度量相同的用户模型[23]µdq一个用户浏览模型,用于检查浏览器对于持久性参数γd<$q∈(0, 1]和γd<$q∈(0, 1],我们ρ(q→,qd)q在qd中的0- 基秩获取以下变量:.Qψγρ(qi,σd)·γρ(d,σqi)我们将EQI定义为补充检索任务,其中,给定Q柬埔寨卢比,卢比(美元))=.i∈dD Qρ(qj,d)Q dρ(d,σqj)(三)在文档d中,系统负责检索查询日志中的查询 ,根据其概率排序在文件检索系统中暴露文件的风险因此,在本发明中,EQI在技术上意味着反向文档检索。我们使用亚-qj∈<$d<$γdq·γq D其中,ρ x,ρ n是x在排名列表中的从0开始的排名。代替RBP,我们可以插入不同的用户组合模型,包括NDCG或详尽(其中用户检查所有脚本q d和dq表示对应于排名结果)。例如,如果我们假设一个详尽的模型,文档检索和EQI任务。表1列出那些记号对于EQI,采用NDCG进行文件检索:.Qψ q{d∈σq}·ρ(d,σqi)3.1导出评估指标EXH、NDCGD .ρ(d,σqj)检索度量通常采用累积质量分数对排名靠前位置的所有项目进行求和,并根据检查员在给定排名检查文档的概率进行加权:σ=dσµ d,σ <$d。这里,σ是结果列表,文档d的质量分数<$d通常是其质量分数的函数。与查询的相关性和µ d,σ是用户在-在用户浏览模型µ下进行观察。度量标准-例如NDCG [19]-进一步将该值标准化为qj∈<$d<$q{d∈σqj}·log2(j+1)其中,q{ }是指示器函数。3.2实际考虑3.2.1原型用户。RBP由两个用户耐心参数γq d和γd q参数化。它们的值应该被选择为最好地反映用户在给定的底层任务中的行为一旦有了行为数据,我们就可以代表某些典型的度量:范数-di∈σµ(di,σ) ·<$didj∈σµ(dj,σ) ·<$dj其中σ是理想的用户. 患者文档检索用户可能会好奇或恶意-cious(分别在肯定或否定查询上下文的情况下)。排名结果列表类似地,在暴露查询检索sce- nario中,我们希望测量检索到的查询的排名列表的质量,我们将其称为暴露列表,以响应文档。为了实现这一目标,我们提出了等级暴露列表质量(Ranked Exposure List Quality,简称QIQ),它采用了与Norm-M类似的形式:患者EQI系统用户可能担心其隐私或对其内容的货币化感3.2.2查询集合。EQI假设存在一个查询集合。 有许多方法可以创建这样的集合。首先,我们可以使用来自文档检索系统的现有日志,该日志包含曾经发出的所有查询QQµdQ(d)qi∈dµd q(qi,d)·<$qiq∈µd<$q(qj,)·<$qj(一)搜索者。这种方法的优点是查询将是现实的。然而,该模型将无法捕捉到jdd1类似的双侧度量先前已用于查询建议的任务中查询预测系统的成功取决于查询排名的质量其中,red和r ed是d的r eved和理想e x posu re列表。现在的关键观察是,在EQI的情况下,质量值<$q对应于q在原始数据中暴露d的概率而且还取决于每个查询检索的文档排名的质量[33]。 EQI需要类似的乘法度量;然而,与查询预测度量不同,暴露集质量度量需要:(i)量化查询是否暴露文档,而不是文档是否相关;以及(ii)合并两种不同的用户行为模型(EQI和文档检索系统用户)。QQ(3665⊗ ×→Q →D →D()≤()⭢−Q → D →⭢⭢()()()常用函数为实例丢失校验()我建议学习一个新的度量空间(Xdq,),其中NN搜索−WWW别加有问题的曝光的实例[4,5,40]由看不见的查询。 合成地生成查询集合是另一种选择。当采用这种方法时,为了限制集合的大小,可以将查询截断为一定长度,并根据各种频率分类法进一步修剪[1,4,7]。 该方法可能允许系统在问题暴露发生之前检测到问题暴露,但它将阻止系统暴露于许多可行的查询。从业者应根据报告给定应用程序中的常见或最坏情况暴露上下文是否重要来选择方法。4嵌入式系统的EQI在这项工作中,我们考虑的第一个家庭的检索系统是基于嵌入的搜索系统,也被称为双编码器系统,学习独立的矢量表示的查询和文档,使其相关性可以通过应用相似性函数在相应的向量估计。令fQ:Rn和fD:Rn分别是查询和文档编码器,并且:RnRnR是向量相似性算子。查询-文档对的得分sq,d则由下式给出sq,d=fQ(q)<$fD(d)(5)4.1训练数据生成生成训练数据是这个学习任务中的一个关键挑战为了训练模型,我们需要一个文档及其暴露查询的数据集。因此,我们需要设计一种训练数据生成策略,以确保:(1)我们只向文档检索模型发出有限数量的查询,以保持该方法的计算效率,(2)我们对每个训练文档至少有一个暴露查询,以及(3)训练数据表示每个训练文档周围的查询分布。算法1中概述了所提出的过程的伪代码。在严格的效率约束下,确保训练数据具有代表性和高质量,因为我们只对训练查询进行文档检索(第5行)。通过从候选集候选中选择训练文档(第9行),我们保证每个训练文档至少有一个暴露查询,可以在最高排名中检索它。然后,我们从文档检索嵌入空间中最接近每个训练文档的Q个查询训练中进行KNN搜索(第12行)。这为我们提供了每个文档周围的查询样本分布,并且正和负文档-查询对将匹配文档检索嵌入空间中的当前错误(其中文档和查询之间的相似性不一定反映暴露)。注意,从算法1中构造的训练序列,我们可以理想情况下,sq,d>sq,d,如果d+比采样两种类型的训练实例,形式为d,q+,q->,cor-
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 十种常见电感线圈电感量计算公式详解
- 军用车辆:CAN总线的集成与优势
- CAN总线在汽车智能换档系统中的作用与实现
- CAN总线数据超载问题及解决策略
- 汽车车身系统CAN总线设计与应用
- SAP企业需求深度剖析:财务会计与供应链的关键流程与改进策略
- CAN总线在发动机电控系统中的通信设计实践
- Spring与iBATIS整合:快速开发与比较分析
- CAN总线驱动的整车管理系统硬件设计详解
- CAN总线通讯智能节点设计与实现
- DSP实现电动汽车CAN总线通讯技术
- CAN协议网关设计:自动位速率检测与互连
- Xcode免证书调试iPad程序开发指南
- 分布式数据库查询优化算法探讨
- Win7安装VC++6.0完全指南:解决兼容性与Office冲突
- MFC实现学生信息管理系统:登录与数据库操作
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功