文件标题：偏好判断在众包相关性评估中的应用

135 浏览量更新于2023-11-29 收藏 1.21MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

319预算偏好：在众包相关性判断时优先考虑文档对Kevin Roitero乌迪内大学意大利乌迪内kevin.roitero@uniud.it摘要英国cco@sheffield.ac.uk谢菲尔德大学AlessandroPastorcoa.chewww.example.comStefano Mizzaro乌迪内大学乌迪内，意大利mizzaro@uniud.it1引言Gianluca Demartini昆士兰大学澳大利亚布里斯班g. uq.edu.au在信息检索（IR）评估中，偏好判断是通过向评估者提供一对文档并要求他们选择两者中最相关的一个来收集的。这是经典的相关性判断方法的一种替代方法，在这种方法中，人类评估员在一定程度上判断单个文档的相关性;这种替代方法允许对相关性做出相对而不是绝对的判断。虽然偏好判断对于人类评估员来说更容易执行，但要判断的可能文档对的数量通常很高，以至于无法对所有文档进行判断。因此，以下类似的想法池策略的单文档相关性判断的目标是采样最有用的文件进行判断，在这项工作中，我们专注于分析替代方法来采样文件对判断，以最大限度地提高价值的一个固定数量的偏好判断，可以可行地收集。这样的价值被定义为我们可以在给定预算的情况下评估IR系统的程度，即可以收集的固定数量的人类偏好判断通过依赖于几个数据集的相关性判断收集的专家和众包的手段，我们实验com-cumbered替代策略来选择文档对，并显示不同的策略如何导致不同的IR评估结果的质量水平。我们的研究结果表明，通过使用适当的程序，有可能实现良好的IR评价结果与数量有限的偏好判断，从而确认使用偏好判断创建IR评价集合的可行性。CCS概念• 信息系统→检索结果。关键词偏好判断，相关性评估，众包ACM参考格式：Kevin Roitero ， Alessandro Pastorco ， Stefano Mizzaro ， and GianlucaDemartini.2022. 预算偏好：在众包相关性判断时优先考虑文档对在ACMWeb Conference 2022（WWW '22）的会议记录中，2022年4月25日至29日，虚拟活动，法国里昂。 ACM ， New York ， NY ， USA ， 9 页。https://doi.org/10.1145/3485447.3511960允许免费制作本作品的全部或部分的数字或硬拷贝，以供个人或课堂使用，前提是制作或分发副本的目的不是为了盈利或商业利益，并且副本的第一页上有本声明和完整的引用。版权的组成部分，这项工作所拥有的其他人比ACM必须尊重。允许使用学分进行摘要以其他方式复制、重新发布、在服务器上发布或重新分发到列表，需要事先获得特定许可和/或付费。请求权限请发邮件至permissions@acm.org。WWW©2022计算机协会ACM ISBN 978-1-4503-9096-5/22/04。. . 十五块https://doi.org/10.1145/3485447.3511960从人类评估员那里收集相关性判断是创建用于测量有效性的虽然收集此类判断的经典方法包括向人类评估员展示主题和文档，并要求他们在量表上对相关性进行评级，但收集人类标签的另一种方法是通过偏好判断。在这样的设置中，向人类评估者呈现来自集合的两个不同文档，并要求评估两者中的哪一个（如果有的话）与给定主题更相关。评估员更容易做出相对判断，说明一个文件比另一个文件更相关，而不是做出绝对的相关性判断[21]，并且偏好判断已被证明比绝对更可靠（即，单份文件）的判决[5]。然而，可能的文档对的数量可能非常大，并且通常太大而不能全部手动评估，即使当使用众包作为扩大人类相关性评估的方式时。许多问题需要得到回答，以便能够使用偏好判断来评估IR有效性，包括，例如，如何将偏好判断转换为绝对的文档相关性分数[2]，如何处理不完整的偏好判断[10]，以及使用哪些度量[28，29]。在本文中，我们专注于组合爆炸的数量的偏好判断收集，并提出方法，以优先考虑的文件对判断，从而使最好的有限的预算对，可以现实地判断可用的人类评估。偏好判断方法带来的另一个挑战是，文档对的数量如此之高，以至于在实践中不可能构建一个“所有对”的集合，以执行关于将某些对优先于其他对的实验研究。这在我们的研究中至关重要，因为我们的目标是在所有可能的对中选择最佳对我们通过以不同的方式从经典的逐点相关性判断中生成对来绕过这一限制，从而模拟具有大量对的数据集（实际上，我们的实验所需的所有对）。总之，我们提出并实验性地评估了基于IR系统定义的文档排名、数据融合方法和不同评估预算水平的文档对选择策略。这项工作的主要贡献是：一种模拟文档池所有可能的偏好判断的方法;文件对选择策略，用于决定顺序判断哪一对，从而一旦判断预算已经被消耗就能够停止;数据集转换，通过Bradley-Terry-Luce模型[3，20]基于可用的逐点判断···WWWRoitero等人320.= 50 = 247。500（在所有极端情况下）（）下一页≻（）∈∈.Σ（）（）∈（）下一页2（）下一页对于给定主题，排名低于k，其中Pk=s∈SR（s，k）（75100）500美元，即，超过10亿（在极端情况下，广泛的实验结果比较选择策略在不同的条件下，包括预算规模，模拟方法，和算法，以评估系统的有效性的基础上，一组偏好;根据偏好判断，向从业者提供关于使用何种设置进行IR评估的复制我们的实验所需的所有代码和数据都可以在www.example.com上获得https://github.com/KevinRoitero/preferences-on-a-budget。2相关工作在第一次提议使用偏好判断（例如，[27]和Carterette et al.的工作[5]，再次提出了可操作性，近年来，已经有工作着眼于围绕使用偏好判断的不同开放挑战，包括如何在偏好判断可用的假设下可靠地执行IR评估[2，4，6，7，23，34，35]。第一RQ 2. 同样的策略对所有情况都是最有效的吗？或者，选择策略是否优于其他策略，取决于某些参数，例如，判断预算，用于模拟所有偏好判断的方法，池深度，IR系统有效性等。RQ 3. 我们如何从可用的逐点判断出发，真实地模拟大量的偏好判断？RQ 4. 当部署最佳评估程序时，评估结果如何与经典逐点判断和基线进行比较？系统排名如何受到影响？第四章记法和问题定义记法。我们用D ={d1，. . . ，dz}文档集合，其中T ={t1，. . . ，tm}的主题集合，其中S ={s1，. . . ，sn}是一组IR系统，k是评估截止值，R（s，k）是包含已被该？系统s∈S考虑使用偏好判断的社区是如何从成对偏好判断中推断文档相关性得分Bashir等人 [2]从偏好判断开始推断文档的相关性，考虑来自旅游的技术。以前的研究还提出了在不完全偏好判断的情况下评估IR系统的措施[4，30]。Clarke等[8，9，10]提出了一种识别和排序文档池的方法，使用部分偏好判断，而不是依赖于评估整个文档池的经典方法 Clarke等通过众包的方式收集对TREC2019会话协助跟踪中最热门检索结果的部分偏好判断，并通过兼容性评估他们的方法：一种捕捉相关性之外因素的新指标。虽然他们的工作着眼于混合逐点成对判断集合，以进一步区分通过逐点评估在相同相关性级别分类的文档，但我们专注于创建一个高效的仅成对评估集。Yang等人 [31]通过众包使用三种方法收集相关性评估：成对偏好、绝对相关性和相关性比率;然后将收集的评估与使用二进制、四个级别和幅度估计判断量表收集的评估进行比较。在我们的工作中，我们利用所有这些数据集进行实验验证和比较的替代方法来优先考虑偏好判断的文档对Sakai和Zeng[28，29]研究了不同的评估指标（经典/逐点和新颖/成对）如何与网络搜索结果偏好保持一致;他们的结果表明，尽管新颖成对度量的一些变体在识别统计学显著差异方面很有前途，但它们的表现不如经典的逐点度量，如NDCG。与此相比，我们专注于基于偏好判断的评估的第一步在深度k处的池，即，该集合包含已经由S中的至少一个系统检索到的文档，对于给定主题，该文档的等级低于k，其中r s，d是文档d在由s针对给定主题产生的分级列表中的等级（如果文档已经被检索到并且由s早于k进行分级，否则k +1），并且其中B是预算，其表示可以针对每个主题判断的文档对的数量。问题. 给定一个文档集合D、一组IR系统、一个主题和若干个可判断的文档对，目标是从D中选择B个文档对，收集对它们的偏好判断，并评估系统在S中的有效性。因此，要考虑的对的可能总数为|D|二、判断哪一对考虑D中的文档（可以是深度k P k处的池的一部分，也可以不是），给定文档对di，dj，我们有三种可能的情况：djg P k; 2 diP Kdjg P k; 3 di P kdj P k. 情况1类似于在逐点文档判断中通常假设为不相关的文档在P k之外的情况。情况2指的是可能不太有价值的对进行评估，因为IR系统已经表达了对其中一个的明显偏好。因此，这些对甚至可以假设didj。案例3是最有意思的一对，评估为可能是相关文档。在这项工作中，我们专注于这样的文件对。请注意，通过仅查看案例3对，我们显著减少了要判断的可能对（从|2至|PK|（2分）|2≈k2).两人一组来评判。然而，这个数可能仍然是整数和/或大于B。在典型的TREC设置中，池深度k=100，例如50个主题和75次运行，1002运行检索相同的文档集，深度为100），并且，具体地，关于如何最好地选择要判断的文档对3研究问题我们专注于以下研究问题：RQ 1. 在偏好判断的情况下，在预算限制的文件对，可以判断的数量，哪些是最有用的对判断，以评估IR的有效性？哪种配对选择策略最有效？在检索的文档集之间绝对没有重叠的谱的末端因此，我们的目标是在情况3中定义各种文档对的排序。鉴于这两份文件都出现在库中，看看它们在系统中的排名是很有意思的。然后，我们可以通过考虑各种策略（稍后详细描述）来对di、dj进行排序，假设已经对更相似的两个文档进行了排序，··研究问题，已经被IR研究公司所关注预算偏好：在众包相关性判断时优先考虑文档对WWW321？{（）|∈}•（）下一页{（）|∈}•（）下一页.（）下一页（）i（）下一页）（−）（（））（−）（−（）下一页|{1}|{（）}|·（/）（/）？s∈S•（）下一页s∈S{（di，dj）|di，dj∈R（s，k）}.1. 表格11.1. 文件汇总表1.2. 形成配对2. 计算分数和削减预算2.1. 计算文档2.2. 计算对2.3. 预算削减3. 确定首选项4. 线性化对以生成Qrels5. 评估和计算相关性5.1. 评价5.2. 计算相关性图1：建议的5步IR评估程序。收集对他们的偏好判断就越有趣/有用/信息量越大这定义了文档对的有序列表然后可以根据该顺序选择配对，并收集偏好判断，直到达到B对的预算评价然后，我们计算Kendall的τ相关性获得系统的排名使用单文档的判断和一致性判断与不同的预算B，看看有多少文档对是必要的，以获得可比的评估结果。5程序我们的实验程序总结在图1中，并在以下小节中详细描述5.1步骤1.表格15.1.1步骤1.1.形成文件池选择池深度k并计算P k。5.1.2第1.2步. 形成配对池从Pk中选择一个（子）文档集，并形成一个配对池PP =di，djdi，djPk;对于这一步，我们考虑以下替代策略：1All：考虑Pk中的所有文档而获得的文档对di、dj;形式上，PPall= di、dj di、djPk。在内部：所获得的一对文档di、dj的并集是con-i-j。将每个系统检索到的数据隔离起来，平均排名（AvgRank）：根据AvgRank，文档的得分对应于考虑检索它的所有系统计算BordaCount（Borda）：Borda count [13]是一种投票算法，用于计算用于确定选举获胜者的受欢迎程度分数;这种算法也用于组合来自多个IR系统的文档排名[1，12，17，22，24]。根据Borda Count，文档的分数对应于其在排名中的（倒数）位置例如，假设k=10，如果一个文档已经被五个系统按等级1、 1、 3、 5和8检索，则其Borda计数等于10 1+101+ 103+ 105+ 108= 32。倒数排名融合（RRF）：RRF是一种用于组合来自多个系统的排名的方法，其表现优于单个排名学习方法[11，17]。根据RRF，每个文档的得分是其在排名中的位置的倒数，用经验参数x进行调整，根据以下公式计算：RRF d =sx+ r s，d−1。例如，如果一个文档已经被五个系统在等级1、1、3、5和8中检索，则其RRF分数等于1 1 + 1 1 + 1 3 + 1 5 + 1 8 = 2。66.CombMNZ：CombMNZ是一种用于组合来自多个系统的排名的方法，该方法使用分数（即，检索状态值，RSV）的文件在不同的系统排名列表[17]。根据CombMNZ，每个文档的分数是通过将文档出现的排名数量乘以所有排名列表中获得的分数之和来获得的。形式上：CombMNZd=i diRs，kRSVs，d. 例如，如果文档已由五个具有分数的系统（即，RSV）分别为10、10、7、6和6，其CombMNZ评分等于5·（10+10+7+6+6）=195。5.2.2步骤2.2.计算文档对分数。计算每对文档di，dj的得分。对于这一步，我们简单地通过取di和dj的分数之差的绝对值来计算每一对的分数;然后，我们根据它们的分数对文档对进行排序。请注意，上一步中详细介绍的一些方法需要按升序排序的对（即，当分数越低越好），而其他则按降序排列。其他更高级的di和dj的分数函数可以用于该步骤（例如，加权组合），但它是超越Adjacent：考虑到由每个系统检索到深度k的相邻文档而获得的文档对di，d j的并集;形式为y，PPadj={ （ di ， dj ）|di，dj∈R（s，k）<$r（s，di）+1 = r（s，dj）}.请注意，以下关系适用于文档集：PPadj=PPwithin= PPall。5.2步骤2.计算分数和削减预算5.2.1步骤2.1.计算文档的分数为上一步中选择的每个文档d计算一个分数;对于这一步，我们考虑以下替代方法（见脚注1）：[1]为了避免混淆，我们在提到我们的过程中的替代变体时采用了以下术语：对选择策略计算文档对得分的方法（步骤2.1，下面的5.2.1节），以及线性化对和生成qrels的算法（步骤4，下面的5.45.2.3步骤2.3.预算削减。分别为每个主题剪切长度为B的排序对列表，它表示可以判断的文档对的数量。5.3步骤3.确定首选项对于每个需要判断的文档对，确定哪一个文档比另一个文档更受欢迎;为了执行这一步骤，在这项工作中，我们依赖于下一节中详细介绍的数据集5.4步骤4.线性化对以生成Qrels收集或计算每个文档对的偏好判断后，我们现在将偏好判断列表转换为将从前一步获得的相关性分数存储到qrels文件中，即，池中每个文档的逐点相关性分数，需要计算.····深度k;形式上，PP在这项工作的范围，以实验分析它们。WWWRoitero等人322I+ J（∞）[][][]每个系统的传统IR有效性度量对于这一步，我们考虑以下替代算法（见脚注1）：SBW（Sort By Win）：我们根据文档在收集的文档中的成对判断中优先于另一个文档的次数对文档进行排名。然后，遵循与Clarke等人相同的方法。[8- 10 ]，我们为每个文档分配代表相关性级别的连续数字;当出现平局时，我们为平局的文档分配相同的（第一）相关性级别。BTL（Bradley-Terry-Luce）：我们使用Bradley-Terry-Luce模型[3，20]，这是一种概率成对比较模型，它在假设Prob（i）>j）=ssis，其先前已在IR字段中使用（参见例如，在一个实施例中，[16、19]）。我们选择这个模型是因为它对部分比较和模型错误设定具有鲁棒性[16]。从成对比较的集合中，我们获得每个文档的得分我们使用Yang等人的数据集验证了这种方法 [31]从本地成对比较开始：BTL和成对比较之间的一致性高于提出的线性化方法（81。4%vs.79. 3%）。BTLR（BTL排名）：这是通过将BTL诱导的排名中的位置分配为文档评分而简单获得的注意，如Clarke et al. [8- 10 ]，我们为每个IR系统计算一个qrels文件，以打破有利于系统的联系。5.5步骤5.评估和计算相关性5.5.1步骤5.1.评估。在生成qrels之后，我们通过运行trec_eval来计算每个系统主题对的NDCG [15]有效性度量。5.5.2第5.2步。计算相关性。然后，我们计算在考虑原始池（即，由逐点评估形成的QRELS文件）数据集和考虑根据该过程中详述的步骤判断的文档对的有限集合而计算的有效性度量。我们专注于系统排序的Kendall6数据集和基线为了通过实验验证所提出的过程，了解受约束的偏好判断集合的可行性，并回答第3节中介绍的研究问题，我们考虑以下数据集：TREC-8[14]：通过考虑专家评委对在TREC-8的Ad-Hoc轨道上竞争的系统检索的文档集进行的二进制相关性评估而制作的数据集幅度估计（ME）[21]：通过重新评估在TREC-8 [14]的Ad-Hoc轨道上竞争18个主题的系统检索的前10个文件而制作的数据集。每份文件都由10名不同的评估员使用幅度估计进行评估，这是一种在处理测量时使用的心理-物理缩放技术一种感觉。已使用允许0范围内的值的ME变体S100[25]、S4[26]和S2[26]：通过重新评估ME中评估的相同文件制作的三个数据集，保持相同的实验设置，并使用分别在0、 100、0、 3和0、 1范围配对比率[31]：通过使用三种相关性评估策略重新评估ME研究中评估的文档子集而形成的数据集：成对偏好、绝对相关性和相关性比率（即，和我一样在我们的研究中，我们专注于论文作者提供的相关性比率分数，因为它是导致与地面真相更高一致性的分数（见[31，表2]）。除了现有的逐点判断数据集之外，我们还通过使用Bradley-Terry-Luce（BTL）模型[3，20]在由上述现有数据集中的每个文档判断引起的成对比较集合上构建了名为“toket-toPref”的新数据集。例如，如果评估者提供4个逐点判断，则这对应于向BTL模型添加6个成对判断（所有成对组合）。最终的模型输出是每个文档的分数和相应的排名。考虑这种方法是有趣的，因为它允许我们了解聚合方法对输入数据集的影响：BTL模型以对噪声和稀疏判断的鲁棒性而闻名。由于上述数据集包含对前10个检索到的文档的逐点判断，因此在我们的实验中，我们将池深度k固定为10。为了比较所提出的方法的有效性，我们将其与一组基线进行比较。我们认为：考虑整个数据集计算的有效性分数为了估计这种方法的预算，我们定义了上限和下限：在前一种情况下，我们假设在成对设置中判断一对文档所需的努力（以及因此的预算）等于在逐点设置中判断单个文档所需的努力;在后一种情况下，我们假设判断一对文档的努力是判断单个文档的努力的两倍;考虑所有获得的文档对的集合（即，不考虑预算），PP adj和PP在文档集合内（参见第5.1.2节中的步骤1.2），每一个与三个所考虑的算法组合以线性化对并生成qrels（参见第5.4节中的步骤4），即， PP adj与BTL结合，PP adj与BTLR结合，等等。7实验结果7.1从逐点评价到成对评价为了显示从逐点评估到成对评估方法的效果，我们首先确定用这两种方法获得的评估结果之间的最大可实现相关性。为此，我们使用我们的程序（见第5节）和TREC-8作为输入数据;更详细地说，我们将预算从10变化到10 5，并考虑所有可能的参数值，以找到程序变量和预算，从而获得逐点计算的系统有效性和计算的系统有效性之间的最大相关性，对于同一数据集，成对。鉴于TREC-8中的文件相关性评估是由经过培训的评估人员进行的，这设定了我们的期望·········预算偏好：在众包相关性判断时优先考虑文档对WWW323−60402000 1官方0.250.200.150.100.050.000.0 0.1 0.20.31.00.80.60.40.20.01.0τ-S2在所有之中101102103104105预算τ-S2toPref1.00.80.60.40.20.01.0τ-S4101102103104105预算τ-S100toPref图2：在左边，qrels文件中的文档分数分布对于逐点方法（x轴）和对于成对方法（y轴），使用导致最佳相关值的实验变体获得（即，相邻对、Borda、SBW和3400对预算）。右边是使用官方数据（x轴）和实验数据（y轴）计算的系统有效性并详细说明了从逐点评估设置移动到成对评估设置的影响图2显示，对于导致具有最高相关性的结果的变体，在左边的图中显示了专家给出的文档分数和我们的方法分配的分数的分布，在右边的图中显示了考虑到使用原始逐点判断计算的NDCG@10分数和我们计算的分数而的系统排名之间的相关性0.80.60.40.20.01.00.80.60.40.20.0101102103104105预算τ-配对比101102103104105预算0.80.60.40.20.01.00.80.60.40.20.0101102103104105预算τ-TREC8101102103104105预算我们的pairwise方法右图中的红色圆点显示了我们在左图中突出显示的系统;其他系统显示了类似的行为。正如我们从图2的右图中所看到的，两个系统排名之间的相关性并不完美，特别是最有效（因此也是最有趣）的系统的有效性得分是不同的这种效果可以归因于所采用的特定有效性度量;出于这个原因，我们调查了分配给文档的相关性分数正如我们从图2的左侧图中所看到的，尽管两个箱形图明显不同，并且左侧箱形图的中值明显低于右侧箱形图的中值，但我们可以看到，在我们的过程中，有些文档被成对转换为“误判”。总而言之，从逐点到成对的评估设置，我们失去了评估的准确性，即使使用了完全相同判断集。作为未来的工作，我们留下了一个深入的比较分析的进一步的方法来分配相关性分数的文件，以形成qrels，这可能会导致更高的相关性。通过所采用的方法实现的相关性作为一个目标，在下面介绍的实验中进行比较，因为它代表了最好的可能实现的相关性对原始的评估结果。7.2判断哪一对我们现在来研究在执行成对评估时，哪一个文档对的集合会导致更高的相关值。为此，我们考虑第5节中讨论的过程，并将重点放在用于生成对的文档集上，即PP all、PP within和PP adj文档图3：PP all、PP within和PP adj的KendallMEtoPref和S4toPref未示出，因为它们分别与S100 toPref和S2 toPref不可区分; S100和ME未示出，因为它们与S2和S4不可区分。集. 该过程详见第5.1.2节的步骤1.2。图3中的图在x轴上显示了预算（对数标度），在y轴上显示了使用我们的程序获得的系统排名与使用每个数据集的逐点得分计算的系统排名之间的Kendallτ相关性在图3中，我们使用三种不同的颜色来表示PP all、PPwithin和PP adj文档集;相同颜色的系列表示该过程的所有可能变体;例如，蓝色标识PPadj策略的所有可能变体，这些变体是在考虑对配对进行排名的所有方法（参见该过程第5.2.1节中的步骤2.1）以及对得分进行线性化并生成qrels的所有算法（参见该过程第5.4节中的步骤4）时获得的。对于低预算（即，小于10 3，10 4）PP adj是导致更高相关值的文档选择策略。为PP内，特别是PP所有相关值显著降低（降至约0. 5在最坏的情况下）;因此，至关重要的是不要使用这些战略的低预算范围。然后，随着预算的增加，最佳选择策略变为PP all，即使这种策略的所有变体之间存在很大差异，我们将在下面进行研究。然而，如果我们关注最佳绿线，我们会看到，当预算大约或更大时，它会增加PPadj获得的相关值成对相关性相关性相关性相关性相关性相关性WWWRoitero等人324然而，如果我们关注最差的绿线，我们会看到大约10 4（在某些情况下甚至10 5）的预算需要PP all来匹配PP adj。转向文档集内的PP，我们观察到它比其他两个更不有效，因为它导致在PP all和PP adj所观察到的值之间的重叠值。这种行为对于我们考虑的所有数据集都是一致的。总结一下，在实践中，如果研究人员的目标是执行偏好判断对于低预算，要考虑的最适当的文档对集合是由系统检索的相邻文档形成的文档对集合（即，这是一个合理的假设，因为在计算特定IR系统的有效性分数时，所选择的少数文件是信息量更大的文件。相反，当预算增加时，由多于一个IR系统检索的文档变得有信息性以计算正确的相对系统排序;出于这个原因，对于更高的预算，PP all将优先于PP adj。这些结果，在以下三个观察中示意性地表示，也是RQ2的第一个明确答案：没有在所有情况下都更好的一刀切策略，并且选择取决于其他参数，例如，可用的预算。观察1.对于低预算，仅选择相邻的对在检索到的文档的排名列表中;对于较高的预算，更喜欢考虑所有对的其他方法。观察2. 注意从所有对中选择低预算（即，在10 2-104的范围内）：这导致非常低的相关结果。观察3. “跨系统”的文档对似乎很有用：重要的是不要只在单个系统中选择文档对。1.00.80.60.40.20.01.00.80.60.40.20.01.00.80.60.40.20.0τ-S2BordaCombMNZ RRF101102103104105预算τ-S100toPref101102103104105预算τ-配对比101102103104105预算1.00.80.60.40.20.01.00.80.60.40.20.01.00.80.60.40.20.0τ-S2101102103104105预算τ-S100toPref101102103104105预算τ-配对比101102103104105预算7.3如何排名对现在我们来研究用于对文档对进行排名的不同方法的效果，即AvgRank、Borda、CombMNZ和RRF（参见本过程第5.2.1节中的步骤2.1与图3类似，图4中的图表在x轴上显示预算，在y轴上显示使用该过程的特定变体计算的肯德尔τ相关值。更详细地，图4的第一列示出了通过用于对文档的PPadj集合的对进行排名的不同方法获得的相关值（即，对于较低预算最有效的那些），而该图的第二列示出了PP所有文档集合的相关值（即，更高预算的最有效方法我们没有在内部报告PP，因为在前一节中已将其确定为效率较低的策略我们提出了三个数据集的结果：一个最初被评估为逐点（即，S2），已经被转换为偏好判断的数据集（即，S100toPref），以及已经使用成对方法评估的数据集（即，配对比）;其他数据集显示出非常相似的行为，并且没有显示空间问题。正如我们通过检查图4的第一列所看到的，当我们考虑PPadj文档集时，Borda和RRF是导致更高相关值的方法，前者在预算较低时表现更好，而后者则相反，通常会获得更高的绝对相关值。关注第二列，我们看到当考虑PP所有文档集时，行为是不同的。更详细地说，在这种情况下，我们可以看到RRF是几乎所有数据集的所有预算的最佳方法（Pair-Ratio例外）。图4：AvgRank、Borda、CombMNZ和RRF的KendallPPadj在左栏，PPall在右栏。S100未示出，因为它与S2不可区分总结并回答RQ1，我们可以说，在实践中，RRF是对配对进行排名的最佳方法，无论预算如何，它对PP adj和PP所有文档集都有效。然而，对于非常低的预算（即， 2）对于PP adj文件集，首选Borda。观察4. RRF是对文档对进行排序的最佳方法，判断;对于非常低的预算博尔达是首选。7.4如何线性化对以生成Qrels到目前为止，我们已经看到，PPadj和PP都是两种最佳的文档选择策略（分别针对低预算和高预算），RRF是对文档对进行排名的最佳方法我们现在转向RQ 3，研究可用于“线性化”对的最佳算法图5显示了用于线性化配对的SBW、BTL、BTLR策略的相关值对于图4，图的第一列显示PPadj系列，而PPall显示在第二列中。从图5中可以看出，BTL和BTLR总是提供非常相似的结果;相反，SBW显示出不同的行为。这表明BTL策略返回的分数与我们使用BTLR时分配的分数没有实质性差异从图中可以看出，虽然BTLR导致获得相关性相关性相关性相关性相关性相关性预算偏好：在众包相关性判断时优先考虑文档对WWW3251.00.80.60.40.20.0τ-S2BTLRBTLSBW101102103104105预算1.00.80.60.40.20.0τ-S2101102103104105预算1.00.80.60.40.20.0τ-S4101102103104105预算1.00.80.60.40.20.0τ-ME101102103104105预算1.00.80.60.40.20.01.0τ-S100toPref101102103104105预算τ-配对比1.00.80.60.40.20.01.0τ-S100toPref101102103104105预算τ-配对比1.00.80.60.40.20.0τ-S4toPref101102103104105预算τ-TREC81.00.80.60.40.20.01.0τ-莫法特比101102103104105预算ρ-S20.80.60.40.20.80.60.40.21.00.80.60.40.2全RRF-BTLRB-adj-none-BTLRB-adj-none-BTLB-adj-none-SBWB-within-non-BTLRB-within-non-BTL B-within-non-SBW0.80.60.40.20.0101102103104105预算0.0101102103104105预算0.0101102103104105预算0.0101102103104105预算图5：SBW、BTL、BTLR的KendallPPadj在第一列，PPall在第二列。S100未示出，因为它与S2不可区分。最高的相关值，它似乎比BTL更不稳定，特别是当考虑PP所有文档选择策略（第二列）。观察5. BTL是一种线性化偏好BTLR是导致最高相关值的算法7.5最佳手术变体从前面的分析中，我们已经确定了最好的方法来选择对，这分别是：使用PPadj设置为低预算和PP所有的较高的，使用RRF方法来排名对，和线性化的偏好使用BTL算法。我们现在关注RQ4，并结合这些结果，并报告每个数据集的最佳参数组合，该组合对应于最佳程序变量，即导致逐点和成对评估结果之间的最高Kendall τ相关性的变量。此外，在此步骤中，我们还将最佳手术变体与考虑的基线进行比较（第6节）。图6显示了本研究中考虑我们在图表中报告了RRF和BTLR组合，其对应于PPall的最佳程序，以及Borda和BTLR组合，其对应于PPadj的最佳程序。与前面的图一样，所有图都在y轴上报告肯德尔τ ;最后一个图6：PPadj和PPall的最佳手术变体。“B”S2 toPref、S100toPref 和 MEtoPref未显示，因为它们与 S4 toPref无法区分;S100和S2与S4和ME无法区分。Pearson的ρ相关性的一个例子我们首先关注在逐点数据集中的不同评估度量截止处获得的相关值（即， NDCG@2 、NDCG@3、. . . ，NDCG@10），在图中由黑色系列表示并使用“X”作为标记。从图6中可以看出，对于除了已转换为偏好的数据集之外的所有数据集，我们的最佳算法变体总是导致比逐点数据集更高的相关值。在实践中，这意味着，除了已经被人工转换为偏好的数据集之外，成对选择策略导致的相关值与考虑逐点评估获得的相关值相似，甚至更高此外，我们可以看到，对于所有考虑的数据集，我们的方法导致获得比所有基线获得的更高的相关值。在实践中，这意味着即使对于某些数据集，我们的方法不会导致达到在考虑逐点评估时获得的相同相关值，它也比考虑所有对更有效，即使在较低的预算下;事实上，图6中的最佳系列表明，选择少数好对导致获得比选择所有PP adj和PP all对获得的更高的评估分数。总之，我们已经表明，通过考虑低预算的PP adj，Borda和BTLR以及PP all，RRF和BTLR，相关性相关性相关性相关性相关性相关性相关性相关性相关性相关性相关性相关性WWWRoitero等人3260.30.20.1S2 - 4900所有，RRF，BTLRρ：0.96τ：0.81τAP：0.690.0 0.1 0.2TREC-8S4toPref - 3400all，Borda，SBW0.200.150.10公司简介所有，Borda，BTLRρ：0.94τ：0.78τAP：0.640.0 0.1 0.2TREC-8S100toPref - 3400all，Borda，SBW0.30.20.1S100 - 4300全部，RRF，BTLRρ：0.96τ：0.81τAP：0.690.0 0.1 0.2TREC-8配对比- 4600所有，RRF，BTL观察7. 最好的系统的有效性是更好地估计与数据集不转化为偏好。8讨论和结论在本文中，我们着眼于策略，方法和算法，选择有限数量的文档对进行判断，然后评估IR系统的有效性。关键的挑战是识别信息量最大的对，以最大限度地提高价值，几乎没有可用的人类偏好判断。我们对多个IR评估集合进行了广泛的实验，涵盖了不同的0.200.150.100.05ρ：0.83τ：0.63τAP：0.490.0 0.1 0.2TREC-80.200.150.100.05ρ：0.83τ：0.63τAP：0.480.0 0.1 0.2TREC-80.20.1ρ：0.94τ：0.79τAP：0.710.0 0.2TREC-8评估类型、相关性量表和评估者类型。我们研究了不同的文档对选择策略、文档对得分计算方法以及线性化文档对和生成查询的算法对IR评估结果的影响。针对四个研究问题（见第3节），我们提出了新的策略来选择最有用的文档对进行判断，并对它们进行比较，以了解哪种情况下最有效图7：系统排名：逐点与成对。更高的预算研究者能够选择文档对的子集，如果评估该子集，则该子集导致比在不采用有效选择策略的情况下评估所有PPadj和PPall对可能获得的相关值更高的观察6. 评估精心挑选的文件pairs比评估一个更大的通用集合更好7.6 系统排名在研究了导致最高评估准确度的实验设置之后，我们现在转而分析这种设置如何影响系统的排名（仍然解决RQ 4）。图7中的图表在x轴上显示了根据NIST专家提供的官方判断计算的NDCG@10值，在y轴上显示了根据我们的实验设置计算的NDCG@10值。图中的每个点都是一个系统，通过考虑所考虑主题的NDCG@10的平均值来计算度量每个图在顶部可视化导致最高Kendall τ相关值的设置。我们提出了两个数据集的结果，这些数据集最初被评估为逐点（即，S2和S100）、已经被转换为偏好判断的数据集（即，S100toPref），以及已经使用成对方法评估的数据集（即，配对比率）;其他数据集具有类似的行为，并且没有显示空间约束。从图中可以看出，似乎有两种数据集：由成对判断形成的数据集（即，和配对比率），以及其他。很明显，前一组数据集导致的相关性值低于后一组数据集。事实上，通过分析前一组数据集，我们可以看到相关值在0左右。Pearson的ρ为 83，0。63对于Kendall最有效的系统估计不足，正如低τAP[32]分数所证实的那样。相反，我们可以看到另一组数据集导致使用成对或逐点方法计算的系统有效性之间的高度相关性;事实上，这些数据集导致相关性为0。Pear

下载后可阅读完整内容，剩余1页未读，立即下载