没有合适的资源?快使用搜索试试~ 我知道了~
172公平搜索:一种搜索结果排序的公平性工具梅克·泽赫里克柏林洪堡大学马克斯·普朗克软件系统研究所meikezehlike@mpi-sws.orgchato@acm.org奥法布拉卡洛斯卡斯蒂略大学摘要排名搜索结果和推荐已经成为我们在线查找内容、产品、地点和人员的主要机制。随着招聘、选择、购买和约会越来越多地由算法介导,排名可能决定商业机会、教育、获得福利,甚至社会成功。因此,询问搜索结果是否会降级,边缘化或排除弱势群体的个人或推广具有不受欢迎功能的产品具有社会和道德重要性。在本文中,我们提出了FAIR SeAR cH,第一个公平的开源搜索API,以提供公平的概念排名搜索结果。我们实现了两个众所周知的算法,从文献中,即FA*IR(Zehlikeet al. ,2017)和DELTR(Zehlike和Castillo,2018),并将它们作为Python和Java中的独立库提供。此外,我们还为这两种算法实现了Elasticsearch的接口,这是一种基于Apache Lucene的知名搜索引擎API。这些接口使用前面提到的Java库,并使希望确保公平搜索结果的搜索引擎开发人员能够使用 轻松将DELTR和FA*IR集成到其Elasticsearch环境。CCS概念• 信息系统→学习排名;·应用计算→法律、社会和行为科学;关键词排名、排名公平性、差异影响ACM参考格式:Meike Zehlike , Tom Sühr , Carlos Castillo , and Ivan Kitanovski.2020 年 。FAIRSEAR cH:一个在排名搜索结果中实现公平的工具在2020年网络会议(WWW'20 Companion)的配套程序中,2020年4月20日至24日,台北,台湾。ACM,美国纽约州纽约市,4页。 https://doi.org/10.1145/3366424。33835341引言随着信息量以疯狂的速度增长,排名搜索结果已成为我们发现本文在知识共享署名4.0国际(CC BY 4.0)许可下发布作者保留在其个人和公司网站上以适当的署名传播作品的权利。WWW©2020 IW3C2(国际万维网会议委员会),在知识共享CC BY 4.0许可下发布。ACM ISBN 978-1-4503-7024-0/20/04。https://doi.org/10.1145/3366424.3383534TomSührTechnische UniversitätBerlintom. googlemail.com伊万·基塔诺夫斯基圣西里尔和美多迪乌斯大学计算机科学与工程学院.kitanovski@finki.ukim.mk相关内容。排名算法会自动为我们对这些内容进行评分和排序,通常是通过降低项目相关的概率[6]。因此,通常情况下,算法不仅选择我们提供的产品和我们阅读的新闻,还选择我们遇到的人,或者我们是否获得贷款或面试邀请。随着招聘、选择、购买和约会越来越多地通过算法进行调节,排名可能会决定商业机会、教育、获得福利甚至社交成功。因此,询问搜索算法是否产生可能降级、边缘化或排除非特权群体(例如,种族或性别歧视)或推销具有不期望的特征的产品[2,4,5,8]。本文的运作概念的一个历史和目前处于不利地位的保护群体,并关注不同的影响,即,所述群体的机会丧失,与他们是否受到不同待遇在排名中,不同的影响转化为不同群体之间的暴露差异[7]或注意力的不平等,这可以理解为获得经济或社会机会的系统性差异。在本文中,我们介绍了FAIR SeAR cH,这是第一个公平的开源搜索API,它实现了文献中的两种众所周知的方法,即FA*IR [9]和DELTR [10]。对于这两种算法该实现是作为一个独立的Java和Python库提供的,以及Elasticsearch的接口,1一个流行的,良好的-经过测试的搜索引擎,被亚马逊、Netflix和Facebook等许多大品牌使用。我们的目标是提供公平排名算法的各种方法,具有广泛的正义定义,以满足各种业务情况下的许多可能的公平 策 略 。 通 过 将 算 法 作 为 Python 和 Java 中 的 独 立 库 以 及Elasticsearch提供,我们使正在进行的关于公平机器学习的研究可以为广泛的专业开发人员和研究人员社区访问和随时使用2理论背景本节解释FA*IR和DELTR背后的数学原理,并给出其应用领域的DELTR [10]构成了一种所谓的处理中方法,该方法将公平项纳入其学习目标。通过这种方式,它可以学习忽略受保护的功能以及充当代理的不受保护的功能,例如1https://www.elastic.co/173()下一页()下一页.Σy()下一页yWWWp(a) 所有不受保护的元素首先出现在训练集中的情况(b) 所有受保护元素首先出现在训练集中的情况图1:使用合成数据描述测试结果上图:DELTR减少了不同的风险暴露。底部:DELTR中的不对称性,如果受保护的元素已经出现在第一个位置,则不会改变排名。表1:必须出现在前k个位置以通过α = 0的排名组公平性测试的受保护项目的最小数量的示例值。1 .一、我们称之为MTable。表[9]给定长度k的分级,在任何分级位置,受保护项的比率都不会远低于给定的p。FA*IR将此约束转换为统计显著性检验,使用参数为p、k和α的二项累积分布函数F,并声明如果对于每个k,以下约束成立,则排名公平地代表受保护组:邮政编码。FA*IR [9]属于后处理过程类,并对给定的搜索引擎结果进行重新排名,以满足预定义的哪里F(τp;k,p)>α,τp是排名公平约束。2.1DELTR:一种学习排序方法在传统的学习排名(LTR)系统中,排名函数f是通过最小化损失函数L来学习的,损失函数L衡量f做出的预测y与训练判断y之间的误差。为在测试中。这个约束现在可以用来计算在每个排名位置处的受保护项目的最小数量,使得约束保持(参见表1,具有p的不同示例)。例如,考虑表2中的排名,该排名对应于求职者在XING数据集中搜索在[9]中使用。我们观察到男性和女性DELTR ListNet [3]的损失函数,一种著名的LTR算法由一个项U扩展,它衡量预测排名的这样,新的损失函数LDELTR=L y,y+γUy同时优化f的相关性和公平性。U被定义为在概率排名中对不同社会群体的不同暴露的度量。这意味着测量由受保护组G1的项目与非受保护组G0的项目接收的出现在顶部位置的概率的差异:U(y)= max 0,Exposure(G0 |P)−暴露(G1 |P)2排名前10前10前40前401 2 3 4 5 6 7 8 9 10男女男女2019 - 10-19 00:表2:前10名与前10名的不均匀性的示例the top- 40 resultsfor query表[9]候选人在前k个职位上不断变化,在这种情况下,妇女在前10个职位上更喜欢男子,图1显示了DELTR如何在一个合成数据集上工作,该数据集的总大小为50个项目,每个项目xi 表示为两个特征:它们的保护状态和0到1之间的分数:xi=xi,1,xi,2。如果项目属于受保护组G1,则属性xi,1为1,否则为0分数xi,2分布在在两个不重叠的区间上随机均匀地分布。培训文档按分数递减排序,因此顶部元素是具有最高分数的元素。我们首先考虑一个场景,在这个场景中,所有受保护的元素的分数都严格小于所有未受保护的元素的分数(图1a)。在这种情况下,标准的学习排名算法将所有未受保护的元素置于所有受保护的元素之上,从而给予它们更大的暴露。相反,具有增加的γ值的DELTR减少了不同的暴露,同时仍然考虑评分值的差异。图1b显示了该方法的不对称性:如果受保护的元素已经收到比未受排名器f保护的元素更大的预测暴露,则DELTR将表现得像标准LTR方法。2.2FA*IR:一种重新排序的方法作为一种后处理方法,FA*IR [9]假设已经训练了一个它的排名组公平性约束保证,在一个p = 0。3,这意味着在前10名职位中至少有一名女性因此,表2中的排名将被视为公平。但是,如果所需比例为p= 0。5这意味着在前4名中至少需要一名女性候选人在这种情况下,排名将通过FA*IR重新排序以满足公平性约束。此外,我们的库实现了对所需显著性水平α的最佳调整。这是必要的,因为对表1中的表示的检验是多假设检验。3仙女座:德尔特·普卢金为了将DELTR集成到Elasticsearch中,我们使用Elasticsearch学习排名(LTR-ES)插件2。集成架构如图3所示。 逻辑由两个阶段组成:训练和排名。训练 为了在运行时应用DELTR进行检索,LTR-ES需要将先前训练的模型上传到其模型存储中。由于训练模型是一项非常CPU密集型的任务,涉及大量的监督和验证,因此它在DELTR包装器中离线发生,该包装器调用我们的独立DELTRPython库来训练LTR-ES合适的模型。必须提供包装材料2 https://elasticsearch-learning-to-rank.readthedocs.io/en/latest/zzzKz1234567891011120.10000000 000000.30000001 111120.50001112 233340.70112233 45566地点假设女性候选人174FA iR SEARCH:A Tool For Fairness in Ranked Search Results WWW(a) FA*IR Elasticsearch插件的架构(b)演示应用程序图2:(a)FA*IR Elasticsearch插件的架构和(b)带有FA*IR Elasticsearch插件的演示Web应用程序;红色表示受保护的项目有一个训练集,训练参数和模型的名称。在训练之后,包装 器调 用 LTR-ES 上 传API , 该API将序列化模型 存储在Elasticsearch的LTR插件中,使其可用于即将到来的检索任务。在上传时,包装器指定model_name、type(总是DELTR)、模型本身和它所训练的feature_setfeature_set指定查询相关的特性,告诉LTR-ES在应用模型时使用哪些文档特性榜Elasticsearch通过应用重新评分方法对检索到的文档进行排名,因为在整个Elasticsearch集群上执行查询非常昂贵。系统首先对整个索引执行基线相关性查询,并返回前N个结果。然后,Rescorer修改前N个结果的分数并返回新列表。DELTR实现了Elastic接口,它将我们之前学习的权重应用于前N个结果的文档特征,以产生最终排名。在Rescorer中,我们必须指定两个关键参数:window_size-要重新评分的元素数量(通常N)• model-模型名称。图3:DELTR上面的代码构成了一个使用DELTR的示例rescore查询,其中我们将结果集限制为匹配“Jon Snow”的文档所有结果都基于Elasticsearch的默认相似度(BM 25)进行评分。在这些已经有点相关的结果之上,我们应用我们的DELTR模型来获得前1000个文档的最佳和最公平的排名4FAIRLAND:THE FA*IR PLUGINFA*IR插件使Elasticsearch能够处理搜索查询,并使用FA*IR和参数k,p和α对结果进行重新排名。它通过两个新的端点和一个包含FA* IR参数的公平重新编码器JSON对象扩展了Elasticsearch API。这两个新端点创建一个新的或请求一个现有的MTable,一个实现表1的整数数组。 一旦生成,MTables将在Elasticsearch中持久化以供进一步使用,以避免搜索时的额外计算成本。图2a显示了插件内部FA*IR查询被传递给Elasticsearch,·邮政someindex / _ s e a rc h{“query“:{“match“:{“_ a l l“:“Jon Snow“} },“re s c o r e“:{“window_size“:1 0 0 0,“query“:{“r e s c o r e_q u e r y“:{“s l t r“:{“params“: { 1}“关键词“:“乔恩 雪,“model“:“del t r_m o del“,}175:1()下一页邮政someindex / _ s e a rc h(From) : 0,“s i z e“ : k,“查询“ : {“匹配“ :{“body“ : q} },“r e s c o r e“:{“窗口大小“:k,“fa i r_r e s c o r e r“:{“p r o t e c t e d_k e y“:“gender“,“p r o t e c t e d_v a lue“:“f“,“s i g n i f i c a n c e_l e v e l“:a l pha,WWW'20Companion,2020年4月20日至24日,台北,台湾Zehlikeetal.算法1:构造MTable输入:排序大小k,最小比例p,显著性α;输出:M表M∈NkM←0k;ac←adjustAlpha(k,p,α);对于i=多克多Mi←inverseCDF(i,p,αc);端returnM;Elastic将标准结果排名返回给插件。然后,插件根据与输入参数p、k和α匹配的相应MTable对结果进行重新排序。请注意,仍然可以执行具有所有内置功能的无意识组件通过REST API进行HTTP请求通信,上面的代码表示对插件的HTTP请求。Elasticsearch使用指定的查询对象、匹配对象和查询词q执行常规搜索。如果不满足p、k和α中指定的公平性约束,则插件使用FA*IR对结果进行重新排名。首先,MTable将检查参数k、p、α的MTable是否已经存在(图2a的右侧)。如果没有,插件会调用MTable Generator使用算法1创建它,并将其存储到MTable Storage中,作为键k,p,α的键值对。我们注意到,图2a中的MTable处理程序是出于表示目的对Java类和接口的简化FA*IR排名器(图2a)根据请求的MTable(图4)对Elasticsearch结果进行重新排名,并通过JSON格式的HTTP响应返回它们,就像标准Elasticsearch结果一样。5结论在本文中,我们介绍了FAIR SeAR cH,这是第一个为搜索引擎提供公平搜索结果的开源API。我们将之前发布的方法作为Python和Java中的独立库实现,并将其嵌入到Elasticsearch的插件中虽然这些插件旨在为Elasticsearch工程师提供现成的实现,但独立的库为使用Solr等其他技术的人提供了很大的灵活性。通过这种方式,我们希望公平意识算法能够更快地进入生产代码和商业环境,以避免不良的社会后果,例如搜索结果中的歧视。致谢。该项目是在数据透明实验室的研究资助下实现的。卡斯 蒂 略 得 到 了 部 分 资 助La Caixa 项 目 LCF/PR/PR16/11110009。Zehlike由MPI-SWS资助图4:根据MTable对Elasticsearch结果进行重新排序;Shields表示受保护的项目6示范所有库和插件都可以在www.example.com上https://github.com/fair-search。我们的演示将包括两个主要部分:首先,我们将解释FA*IR和DELTR的架构,通过使用本文中的数字。接下来,我们将有一个现场编码会议。对于FA*IR,我们将编写一个迷你示例,用于在Elastic- search实例中设置算法。它将展 示 如 何 集 成 参 数 p 和 α , 以 及 如 何 通 过 搜 索 查 询 与Elasticsearch 插 件 进 一 步 交 互 。 有 关 FA*IR Python 库 和Elasticsearch 插 件 的 介 绍 可 在 YouTube 上 找 到 [11] 。 对 于DELTR,我们将使用2.1节中的合成数据集来训练公平模型。我 们 将 展 示 如 何 使 用 DELTR-Wrapper 将 此 模 型 上 传 到Elasticsearch中,以及在发出搜索查询时如何使用它。其次,使用来自实时编码会话的结果,我们将观察算法如何影响求职者搜索演示网站(图2b)上的排名结果,该网站对简历数据集进行操作[1]。最后,我们将演示DELTR和FA*IR的不同输入参数将如何影响结果,并直观地给出参数的最佳实践选择。这两个部分也在YouTube教程中显示。我们需要一个大屏幕,以便与会者能够从远处跟随编码示例。引用[1] 2018.恢复带标签的数据集。(2018年)。https://www.kaggle.com/iammhaseeb/带标签的数据集访问日期:2018-11-02。[2] TooonCaldersandInd resteculliobaitestec. 2013年。为什么无偏计算过程会导致判别式决策过程。信息社会中的歧视和隐私。斯普林格,43[3] 曹哲,秦涛,刘铁岩,蔡明峰,李航。2007.学习排序:从成对法到列表法。第24届机器学习国际会议集。ACM,129[4] Cynthia Dwork , Moritz Hardt , Toniann Pitassi , Omer Reingold , andRichard Zemel. 2012年。通过意识实现公平 在proc 在ITCS。ACM Press,214[5] 莫里茨·哈特2014年。大数据如何不公平:了解不公平的来源数据驱动的决策。(2014年)。[6] 斯蒂芬·E·罗伯逊。1977.概率排序原则,见IR.Journal of documentation33,4(1977),294[7] Ashudeep Singh和Thorsten Joachims。2018.排名曝光的公平性第24届ACMSIGKDD知识发现数据挖掘国际会议论文集。ACM,2219[8] 拉坦亚·斯威尼2013年。在线广告投放中的歧视队列11,3(2013),10.[9] Meike Zehlike,Francesco Bonchi,Carlos Castillo,Sara Hajian,MohamedMega- hed,and Ricardo Baeza-Yates.2017. FA*IR:一个公平的top-k排名算法。在proc 2017年ACM信息与知识管理会议ACM,1569[10] Meike Zehlike和Carlos Castillo2018年减少排名中的不同暴露:学习排名方法。arXiv预印本arXiv:1805.08716(2018)。[11] Meike Zehlike和Tom Sühr。2019年。FA*IR in FairSearch(05 01 2019).https://youtu.be/UXxTijlb5SY
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索AVL树算法:以Faculdade Senac Porto Alegre实践为例
- 小学语文教学新工具:创新黑板设计解析
- Minecraft服务器管理新插件ServerForms发布
- MATLAB基因网络模型代码实现及开源分享
- 全方位技术项目源码合集:***报名系统
- Phalcon框架实战案例分析
- MATLAB与Python结合实现短期电力负荷预测的DAT300项目解析
- 市场营销教学专用查询装置设计方案
- 随身WiFi高通210 MS8909设备的Root引导文件破解攻略
- 实现服务器端级联:modella与leveldb适配器的应用
- Oracle Linux安装必备依赖包清单与步骤
- Shyer项目:寻找喜欢的聊天伙伴
- MEAN堆栈入门项目: postings-app
- 在线WPS办公功能全接触及应用示例
- 新型带储订盒订书机设计文档
- VB多媒体教学演示系统源代码及技术项目资源大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功