同行评分：减轻学术论文评审负担的人工智能方法研究

64 浏览量更新于2023-11-30 收藏 797KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1916同行评分：一种减轻学术论文评审过程的双重角色方法摘要Ines Arous弗里堡大学瑞士弗里堡ines.unifr.chMourad Khayati弗里堡大学瑞士弗里堡mourad. unifr.ch洁阳代尔夫特理工大学荷兰代尔夫特j.yang-3@tudelft.nlPhilippe Cudré-MaurouxUniversity ofFribourg弗里堡大学，瑞士pcm@unifr.ch学术论文审查过程。2021年网络会议论文集科学同行评审是保持学术出版物质量标准的关键审查过程的有效性目前正受到各种会议上提交的文件迅速增加的挑战这些地点需要招聘大量具有不同专业知识和背景的审查员。提交的审查报告往往不符合会议的一致性标准。这种情况给元评审者在做出最终决定时带来了越来越大的负担。在这项工作中，我们提出了一种人工智能方法，可以估计审查是否符合会议标准。具体而言，我们要求同行根据评审合规性的重要标准（如充分的公正性和客观性）匿名对彼此我们引入了一个贝叶斯框架，该框架从同行评分过程、历史评论和会议决策中学习评论的一致性，同时考虑到评分的可靠性。我们的方法可以帮助元评审员轻松识别需要澄清的评审，并检测需要讨论的提交，同时不会引起评审员的额外开销。通过一项大规模的众包研究，人群工作者被招募为评分员，我们表明，所提出的方法优于机器学习或单独的审查成绩，它可以很容易地集成到现有的同行评审系统。CCS概念• 信息系统→众包;·计算数学→贝叶斯计算;·计算方法→神经网络;学习潜在表示。关键词同行评分、同行评审、众包、人工智能协作ACM参考格式：Ines Arous，Jie Yang，Mourad Khayati，and Philippe Cudré-Mauroux.2021年同行评分的同行评审：一个双重角色的方法，以减轻本文在知识共享署名4.0国际（CC-BY 4.0）许可下发布。作者保留在其个人和公司网站上以适当的署名传播作品的权利WWW©2021 IW 3C 2（国际万维网大会委员会），在知识共享CC-BY 4.0许可下发布。ACM ISBN 978-1-4503-8312-7/21/04。https://doi.org/10.1145/3442381.3450088（ WWWACM ，纽约州纽约市，美国， 12 页。https://doi.org/10.1145/3442381.34500881介绍同行评议是评估研究人员提交给学术期刊或会议的科学工作的标准过程。在这个过程中的一个重要任务是在最后，当Meta评审员必须作出决定，接受或不接受一篇论文近年来，同行评议受到了论文提交量快速增长的挑战。以计算机科学会议为例：神经信息处理系统会议（NeurIPS）和IEEE计算机视觉与模式识别会议（CVPR）在2020年分别收到了9467份和6656份提交;这两个数字是2010年收到的提交数量的五倍。为了保证每篇论文的评审数量最少，这些会议招募了大量不同专业水平和背景的评审员。例如，由于提交的论文数量非常多，一些会议决定取消在同一地点的以前版本中发表论文的限制，以成为审查委员会的一部分[11]。提交的审查并不总是符合会议的一致性标准，如要求有充分的理由，论证的有效性（例如，不自相矛盾），以及评论的客观性这种情况给元评审员带来了越来越大的负担，他们不仅要处理更多的论文和评论，而且还必须仔细验证评论是否符合评审标准。例如，在我们上面引用的NeurIPS示例中，每个元评审员必须处理多达19个提交，总共大约76个评论。如果我们能够开发出自动检测低一致性评论的方法，那么工作量就可以减少。 ACM SIGMOD会议[2]的程序主席最近已经明确讨论了这一需求：“主席们人工发现了低置信度的评论;但是，应该自动标记这些评论，以便立即采取行动”，“在评论进入时自动分析它们，以发现有问题的文本......可以大大减轻主席和元评审员在试图手动检测问题案例时所承受的开销”。我们注意到，计算方法提供了强有力的支持，以简化同行评审过程的几个部分，如论文分配，1917WWW评审员[13，21，23，27，42]，寻找专家评审员[12，15，30]和评审员评分校准[4，16，31];然而，在开发用于检测低一致性评审的计算方法方面可以找到相对较少的工作。自动检测低一致性评论是不平凡的，主要有两个原因。首先，这项任务非常复杂，需要从多个维度[1，18，36，38，41]评估评论，包括理由，论证，客观性等。对这些维度的评估在认知上要求很高，因为它需要理解评论文本以理解其陈述之间的各种关系。其次，出于隐私和保密考虑，大多数会议的提交和审查信息都不能公开访问。这种训练数据的缺乏限制了现有自然语言处理技术的性能为了应对这些挑战，我们提倡一种人工智能协作方法，用于半自动检测低一致性评论。我们让同行评审员根据评审一致性的重要标准匿名对彼此与此同时，机器学习模型加入了对不太模糊的评论的评估，同时从新的同行评分中学习，以在评论特征与其一致性水平之间建立联系。涉及机器学习的主要优点是，模型封装并积累了人类对审查一致性的知识：它在以前的会议版本中学到的东西可以通过简单地将模型应用于新的审查而用于新的版本。随着时间的推移，该模型得到了改进，人工智能方法需要更少的人类评分来检测低一致性评论。“同行分级同行评审”机制并没有破坏当前的同行评审过程：同一篇论文的评审者应该阅读彼此的评论，并在必要时对自己的评论进行调整。通过要求他们给彼此的评论打分来做出这样一个明确的步骤，可以潜在地刺激评论者更加参与，并提高之后讨论的质量。因此，我们提出的机制是一个轻量级的附加到目前的同行评审系统，而不会引起太多额外的努力，从审查。在技术层面，我们引入了贝叶斯框架，该框架将机器学习与同行评分无缝集成，以评估审查一致性，同时允许模型从同行评分中学习。我们的框架设计的一个重要考虑是，它模拟了评分员的可靠性，从而考虑到他们的各种背景和专业知识水平的影响。为了学习机器学习模型的可靠性和参数，我们推导了一个基于变分推理的原则性优化算法。特别是，我们推导出有效的更新规则，允许模型参数和分级机的可靠性在每次迭代增量更新通过这样做，与单独训练机器学习模型的计算成本相比，这两种类型的参数都可以有效地学习，而几乎没有额外的计算成本。为了评估我们提出的方法，我们首先进行了一个小规模的在线实验与真正的专家审稿人，在那里我们模拟真正的同行评审过程与同行评分。我们评估同行评分的有效性，考虑到评分作为权重的审稿人与现有的聚集方法相比平均或加权平均的自我报告的信心。然而，专家评分的数量不足以评估所提出的贝叶斯框架。受工人在判断科学论文和搜索结果与特定主题的相关性方面的积极结果的启发[8，24]，我们进行了一项更大规模的众包研究，我们收集了工人评分，以近似专家评分。然后，我们使用工人评分来评估我们在三年时间内从ICLR会议收集的数据集上的框架，这使我们能够观察到随着时间的推移模型的逐步改进。总而言之，我们做出了以下主要贡献：我们提出了一个新的双重角色的机制，称为我们的方法可以很容易地集成到当前的学术同行评审系统中;我们引入了贝叶斯框架，该框架将机器学习模型与同行评分相结合，以协同评估学术评论的一致性，同时允许模型随着时间的推移而改进;我们在多年的会议中对我们的框架进行了纵向评估，表明我们的方法将最先进的准确性提高了10.85%，并且模型在三年内提高了6.67%的准确性2相关工作在本节中，我们首先讨论同行评审的最新发展，然后回顾与我们的评审评估和同行评分框架相关的现有工作方法2.1科学同行审评在下文中，我们讨论了两个相关的主题：科学同行评审的计算支持和评审中的偏见来自人工智能的最先进的工具正在使同行评审过程的部分自动化[37]。一个典型的例子是自动将论文分配给适当的审稿人。该问题已经被公式化为信息检索问题[13，19，22，30]，其中要分配的论文是“查询”，并且每个评论都表示为文档（例如，评审员的专业声明或出版物）。这个问题也被公式化为匹配问题，其目标是在给定的一组约束条件下将一组论文与评审员匹配，例如工作量，兴趣和利益冲突[20，21，23，27，42]。另一个重要的问题是寻找专家评审员。该任务通常依赖于文本文档的自动学术出版物）和科学计量学（例如，授权和专利的数量），以及基于文献间交叉引用的链接分析[12，15，30]。除此之外，还致力于开发在评论[45]中识别情绪和预测反驳结果[17]的方法。最近，一个预先训练的语言模型SciBERT已经被引入科学出版物中的文本建模[6]。与针对这些问题所做的大量工作相比，在开发用于审评符合性评估的自动工具方面所做的工作相对较少。最近的讨论指出了低一致性评审中的问题，评审者可能会表现出偏见，或者只支持预期的简单结果，或者要求不必要的实验[2，3，5，7，14，37]。···同行评分：一种减轻学术论文评审过程的双重角色方法WWW1918P我IG∈I∈I∈ G∈IP|P|我在这些问题中，评论中的偏见是研究最广泛的话题。评审偏差的一个重要来源来自评审过程的设置是单盲或双盲的。Sundergrass [40]回顾了600多篇关于审查的文献，总结了单盲和双盲审查对公平性、审查质量和设盲有效性的影响作者特别指出，大量证据表明，在单盲设置中存在审查偏见，有利于高声望的机构和著名作者。Tomikins et al.[43]通过在ACM WSDM会议上的受控实验证实了这一发现。偏见的另一个重要来源是审查者在提供建议时的不同标准。 Shah等人最近的一项分析。[39]在Neurips会议的评论中发现，分数超过阈值的论文比例与会议定义的阈值含义不一致例如，近60%的分数高于3，尽管事实上，审稿人被要求给3+的分数，只有当论文位于前30%的意见书。这导致了许多作者的沮丧，他们的论文尽管得到了很好的分数却被拒绝了。与那些关于审查偏见的研究相比，低一致性审查的其他方面的讨论要少得多，例如缺乏决策和论据的理由。我们在第4节中通过在线调查表明，论证和决策缺乏正当性通常是由于低一致性审查，这增加了Meta决策的复杂性，如果处理不当，会降低作者对场地的信任。我们设想，用于低一致性评论检测的自动方法可以显着减少这个问题，类似于过去几十年中用于论文评审员分配的自动方法。我们的工作沿着这个方向进行了第一次尝试，提供了一种首创的人机交互人工智能方法，该方法利用人类和机器智能来确定审查一致性。2.2审查评估和同行评分在我们的方法的设计中，我们从现有的审查评估和同行评分的方法，在不同的领域开发的灵感。审查评估方法主要针对电子商务和在线评级平台。Olatunji等人 [33]提出一种具有上下文感知编码机制的卷积神经网络，以基于评论文本预测产品评论的有用性。Zhang等人[47]研究预测用户对特定产品功能的问题的答案的有用性的问题。他们的模型基于双重注意机制，既关注问答对中的重要方面，又关注评论中反映的共同观点。这些方法的核心依赖于预先训练的语言模型，如Glove [35]或ALBERT [26]。这些语言模型在海量异构语料库上进行训练，以捕捉文本语义，为评论分类提供有用的信息。由于任务的认知复杂性、高度专业化的主题以及缺乏用于模型训练的可用数据集，学术评论的预测比其他类型的评论更具挑战性。与那些全自动方法不同，我们考虑人类的作用（即，同行）在我们的方法是不可或缺的，因为我们在我们的实验中显示同伴评分的方法主要是为（在线）教育和众包平台开发的在教育背景下，Wang et al.[46]从博弈论的角度研究了学生在自己的作业和给别人评分之间分配时间的现象人群工作者被用来模拟学生的角色和评估家庭作业的质量。Mi等人 [29]提出了一个概率图形模型来聚合同行评分。他们的方法考虑了在线课程设置，并对学生和评分者的可靠性进行了建模，在学生的可靠性和真实分数之间建立了概率关系。Carbonara等人 [10]将MOOC中的同行评分过程建模为一个审计游戏，学生扮演攻击者的角色，课程工作人员扮演防御者。在众包的背景下，Labu- tov et al.[25]提出一个融合任务执行和评分的框架他们采用了期望最大化算法，通过推断工人的可靠性和任务难度来聚合评分。从方法论的角度来看，我们的框架与上述方法不同，因为我们采用了一种人工智能方法，该方法集成了同行评分和监督机器学习模型，这对于提高审查一致性的准确性和减少人工工作都很重要。3PGPR框架在本节中，我们将介绍我们提出的贝叶斯PGPR框架，该框架学习从一些同行评分的评论以及给定地点的历史数据（评论和决定）中预测评论的一致性。我们首先正式定义我们的问题，然后描述我们的整体框架，其次是我们的变分推理算法学习PGPR参数。3.1符号和问题表述3.1.1符号。在本文中，我们使用粗体字母表示向量，使用粗体字母表示矩阵。对于任意矩阵M，我们用Mi，j表示第i行第j列的元素我们使用大写字母（例如，）以书法数学字体表示集合和表示集合的基数。表1总结了本文中使用的符号我们将评论集表示为，评分者集表示为。我们仅限于包括没有符合性基础事实的分级评论-我们的框架可以使用任何数量的具有基础事实的评论进行初始化，从而利用历史数据（参见第3.4节）。对于每个评论i，我们提取一组特征，如第5.1.5节中详细描述的，并将结果向量表示为xi。我们用Ai，<$来表示评分员<$在复习i时给的评分。由于单个评分者只能对有限数量的评论进行评分，A是一个稀疏矩阵，其中只有一小部分条目是已知的。3.1.2问题定义。设为评论集，其中每个评论i由特征向量xi表示。设A是评分员-评论矩阵，其中每个元素Ai，<$是评分员<$∈G对评论i的评分。我们的目标是使用xi和A来推断所有评论i∈I的一致性得分zi。WWWInes Arous、Jie Yang、Mourad Khayati和Philippe Cudré-Mauroux1919W（）下一页W1≈1∫W（∈G）表1：符号。3.2PGPR作为贝叶斯模型PGPR是一个统一的贝叶斯框架，它集成了一个机器学习模型一旦经过训练，PGPR的机器学习部分可以单独用于预测评论的一致性，而无需同行评分。整个框架在图1中被描述为图形模型。它从特征（通过机器学习模型）和同行评分两者对评审一致性进行建模，同行评分被建模为以评审一致性和评分者属性为条件的过程（即，可靠性和偏差）。在下文中，我们首先描述如何将机器学习模型嵌入到PGPR中，然后描述评分过程及其集成到我们的框架中。3.2.1学习一致性。我们用高斯分布对审查一致性zi进行zi<$N（µi，σi），（1）其中μi和σi分别是分布的均值和方差 µi是通过任意架构的神经网络从评论特征xi预测的。µi=softmax（fW（xi）），（2）其中，函数fWxi对softmax层之前的网络层的输出进行建模，通过在所有评论中共享来参数化高斯分布的方差σi通过我们的推理算法自动学习（在第3.3节中描述）。与正常的监督设置不同，我们没有评审一致性μi的基础事实;相反，我们给出了一组评审等级，我们接下来建模。3.2.2建模审查等级。我们考虑评分员的两个重要属性，即可靠性和偏见的评分过程建模。在实践中，我们希望在估计评分员对不同数量的评论进行评分的可靠性和偏差时有一个置信度度量：图1：PGPR的图示双圆圈表示观察变量，而单圆圈表示潜在变量。正方形表示模型参数。边表示文本分类中的条件关系在左侧，由参数化的机器学习模型预测评论的一致性zi。每个评论用特征向量xi表示。在右边，一个评分员表示为她的可靠性分布r<$，参数为A<$和B<$，她的偏差b<$，α<$作为先验。评分员指定一个评分为Ai，д的评论。更好地提供准确的等级。r<$r（A，B），（3）我们认为评分者偏见是评分者对评论给予高或低一致性分数的倾向我们用b<$（<$∈ G）表示分级者偏差，并使用高斯分布对其进行建模。b<$N（m，α）.（四）3.2.3将机器学习与同行评分相结合。我们将评分员<$给出评分Ai，<$的可能性定义为评分员的可靠性r <$、偏差b <$和评论的潜在一致性z i的概率。p（Ai，<$|zi，r<$，b<$）=N（zi+b<$，r<$）（5）Eq中的条件概率（5）形式化了以下结论：i）具有偏差b<$0（或b<<$0）的评分者可能高估（或低估）评论的一致性，而具有偏差b<$0的评分者对评论一致性的估计更准确; ii）具有高可靠性r<$0的评分者可能给出与真实一致性有小偏差的一致性分数。3.3PGPR的变分推断学习PGPR的参数需要最大化以下似然函数：p（A）=p（A，z，r，b |X; W）dz，r，b，（6）此外，我们采用贝叶斯处理时，通过引入先验分布建模分级机属性具体来说，我们用r表示评分员的可靠性，并用Gamma分布对其建模：较高的值表示其中z是所有评论的潜在一致性得分，r和b是所有评分员的潜在可靠性得分和偏差X表示所有评论的特征矩阵，是机器学习参数的集合。符号我一GXizirдbдµi，σiA<$，B<$m描述Set ofreviews Setof grader评分-评论矩阵评论的特征向量审查一致性分布分级可靠性分布分级偏差分布评分员信度分布参数评分员偏差分布参数Xi的gBGGαWzi审查平地机BGRgAi，g评分员评分50篇评论的信度和偏差高于只评分5篇评论的评分员为了量化我们推断的可信度同行评分：一种减轻学术论文评审过程的双重角色方法WWW1920.|X= A +，（·）L1.我.д.д∫1（）下一页W1我（）下一页________________________________________________________________________________________伊鲁<$B<$σ22015年10月25日，美国加州大学洛杉矶分E步骤（第3-7行）和M步骤（第8-9行）。E步骤包括更新评审一致性的变分分布Bдp（z，r，b|A、X、W）2αд我，我由于Eq.（6）包含一个以上的潜变量，则优化[44]在计算上是因此，我们考虑似然函数的对数，即，她评分的评论，她的偏见和她在上一次迭代中的可靠性q（r<$）<$Gamma（X，Y），（11）logp（A）=q（z，r，b）p（A，z，r，b |X;W）dz，r，bq（z，r，b）L（W，q）其中：д二、x___________________________01-02-0|Iд|+的i[A2+σ2+2µi（m <$−Ai，<$）−2Ai，<$m<$]）。+<$q（z，r，b）q（z，r，b）dz，r，b，（7）xz s让我们来看看3.3.（分级者偏差的增量更新分级器q（b<$）遵循具有参数的高斯分布，KL（q||（p）其中KL是两个分布之间的Kullback Leibler散度。方程中的对数似然函数（7）组成可以使用审查一致性、分级者可靠性和她对上一次迭代的偏见q（b<$）<$N（，），（12）两个任期。使用变分期望最大化算法[44]，我们可以通过两步迭代优化目标函数：1）E步，其中我们最小化KL发散其中：K KK=A<$|Iд|+αд， .为了应用p（z，r，b|A，X;W），具有变分分布A<$q（z，r，b）; 2）M步，其中我们最大化第一项L（W，q），给出新推断的潜在变量。在下文中，L=α<$m<$+B<$i（Ai，<$−µi）。我们描述这两个步骤。E步使用平均场变分推理方法[9]，我们假设q（z，r，b）对潜变量进行因子分解：M步考虑到审查的一致性，在E步骤中推断的分级者可靠性和偏差，M步骤最大化Eq. （7）学习机器学习模型的参数Wq（z，r，b）=q（zi）∈Iq（r<$）∈Gq（b <$）。（八）∈G长（宽=（q）q（zi，r<$，b<$）log p（Ai，<$，zi，r<$，b<$|xi;W）dzi，r<$，b<$+C为了最小化KL散度，我们为因子函数选择以下形式：q（zi）=N（μi，σi），q（r<$）=Γ（A<$，B<$），q（b<$）=N（m<$，α<$），（9）其中μ，σ，A，B，m，α是用于预测的变分参数=q（zi，r<$，b<$）log[p（Ai，<$|zi，r<$，b<$）p（zi|xi;W）]dzi，r<$，b<$+C=<$q（zi，r<$，b<$）log p（Ai，<$|zi，r<$，b<$）dzi，r<$，b<$xz s我伊代дддM1形成最优化并最小化KL发散。在下文中，我们给出每个潜变量的更新规则我们首先通过以下引理给出评审一致性zi的更新规则。1+q（zi）logp（zi|xi;W）dzi+C（13）x_____ z sM2让我们来看看3.1.（审查符合性的增量更新一致性分布q zi遵循高斯分布，并且可以使用等级、分级者可靠性和来自先前迭代的审查一致性来递增地计算q（z）<$N（，），（10）其中C=Eq（zi，r<$，b<$）lo <$（q（z，1，b））是常数。只有秒-L（W，q）的第二部分，即， M2，取决于模型 M2恰好是q（zi）和p（zi）之间的交叉熵的倒数|xi;W），它被广泛用作许多分类器的损失函数。因此，可以使用反向传播来优化M2其中：IV V3.4算法整体优化算法在算法1中给出我们W=. A）+µi，<$B<$ +σ2）。首先初始化每个概率分布的参数- 是的Aд1i和机器学习模型的一部分然后，我们在其次，我们给出了评分员信度和偏差的更新规则让我们来看看3.2. （分级机可靠性的增量更新）分级机可靠性qr的更新遵循Gamma分布，其参数可以使用一致性增量更新д同行评分：一种减轻学术论文评审过程的双重角色方法WWW1921W（）下一页（）（）（）1所有引理的证明在附录中给出评分员的信度qr <$0和偏差qb <$0。M步骤包括使用反向传播来更新机器学习模型的参数。当评审一致性q zi不再被评分者可靠性和偏差修改时，达到收敛。注意，当具有地面真实一致性的一些评论可用时，可以首先训练机器学习模型以获得W的初始化，然后将WWWInes Arous、Jie Yang、Mourad Khayati和Philippe Cudré-Mauroux1922C（|我||G|C）、|G||I|算法1：学习PGPR参数输入：评分员-评审矩阵A，评审特征矩阵X产出：按性别分列的方案审查框架的参数：µi，σi，A<$，B<$，m<$，α<$，1初始化PGPR参数;2当logp（A）不收敛时，3，因为i∈Ido4使用引理3.1更新q（zi）5，对于<$∈ Gdo6使用引理3.2更新q（r<$）7使用引理3.3更新q（b<$）8，因为i∈Ido9使用反向传播更新W;长度结构合理性置信度声明得分攻击性公平性4321清晰一致客观图2：评审标准的排序。为这个决定。2）篇幅：审查应具有足够的篇幅由算法1进一步更新一旦学习算法终止，就可以取出PGPR的机器学习模型来评估任何审查的符合性。第3-4行中的迭代需要的时间复杂度为，并且通过所有分级器的迭代产生的时间复杂度为。我们的算法的整体复杂度是O #iter+ +W，其中#iter是直到收敛所需的迭代总数，W是学习机器学习模型参数的复杂度。4评分评审的任务设计在本节中，我们将介绍我们对评审评分任务的设计，该任务用于收集数据以评估我们提出的框架。由于隐私问题，大多数场地的提交和评论信息都不会公开。幸运的是，我们在两个地方获得了这样的信息，我们与专家评审员进行了一个小规模的实验，以评估同行评分在衡量评审一致性方面的有效性。然而，评估我们提出的PGPR框架需要比我们从专家评审员那里收集的更多的评分。我们进行了一项更大规模的众包研究，在这项研究中，我们收集了工人的评分，以近似专家评审员的评分，并使用这些评分来评估PGPR。本节重点介绍专家和人群场景的评分审核任务设计在下一节中，我们将对专家评审员和人群工作者的评分效果进行分析。在下文中，我们首先确定了一组审查符合性评估的标准，然后描述了分级任务的设置。4.1审查符合性我们从文献、期刊和会议[1，18，36]发表的一组综述指南以及Springer [41]或Nature Research [32]等出版商的指南中编制了一份包含8项综述符合性标准的列表。这些标准分为以下三类。• 清楚起见审查的明确性主要体现在三个方面。第一章为荟萃评审员理解评审员3）理由：评审应包括支持该决定的论据，包括对先前工作的提示以及对评分所依据的论文特定部分的引用[18]。一致性审查的一致性由三个方面定义。1）分数：推荐的分数应至少有一个或两个理由支持。2）权利要求：摘要与陈述的弱或强权利要求之间不应有3）自信：当论文的某些方面超出了审稿人的专业知识范围时，审稿人应该明确承认[18]。客观。审查应该是公正的，并提供建设性的批评。1）公正性：评论不应该偏向于不相关的因素，例如由于缺少评论者自己的参考文献而给低分。2）冒犯性：评论应涵盖技术工作，而不是给出个人陈述和/或冒犯性术语[18]。为了了解这些标准的重要性，我们最初对来自两个国际会议的38位专家评审员进行了在线调查：SEMANTICS（SEM）（2019版）和国际去中心化语义网研讨会（DSW）（2017和2018版）。我们要求专家评审员在5分制李克特量表上对每个标准和三个类别的重要性进行评级，并将结果显示在图2中。我们注意到，清晰度排名最高（由28位专家评审员），特别是，理由被视为高度一致性评审的最重要方面。一致性与客观性同样重要虽然许多人同意客观性不是决定性的方面，但一半的专家承认收到或阅读过不公平的评论，而很少有人收到过冒犯性的评论。事实上，24位专家评审员认为公平与冒犯同等重要或更这些结果表明，专家们认为审查的公平性是一个重要的问题。4.2任务设计对于我们在工作中考虑的每一项审查，我们要求参与者为八项符合性标准中的每一项提供评级，这些标准分为三个部分，与上面介绍的三个类别相对应。在众包场景中，我们从亚马逊结构：通常要求审查应包含论文、决定和支持性论据的摘要2https://www.seas.upenn.edu/ nenkova/AreaChairsInstructions.pdfWAvg. 评级··同行评分：一种减轻学术论文评审过程的双重角色方法WWW1923（）（−）/[客户端]具有“Master”资格的MTurk工作人员这项任务首先解释了如何提出学术评论，标准（在一个表2：ICLR数据集的描述#错位。附属是至少存在决策与元决策不一致的评审的提交数量;#Misalign。re-views是未对齐的审阅的总数。第二，一个正面的例子和一个负面的例子。然后，我们向员工展示一份评论，并要求他们从1到4对每个标准进行评分，其中4为最佳评分。我们将范围设置为1-4而不是1-5，因为我们在初步研究中发现，工人倾向于在后一种情况下选择3。每个评级问题都附有一个信息框，说明要评级的方面对于有关正当性、公平性和冒犯性的问题版 #sub. #错位。附属 #错位。评论201750616953020188463551072201915656702060提供评审摘要，作为其评级决定的依据[28]。理由可用于解释评审的符合性评分对于注意力检查，我们要求工作人员从评审中识别推荐决策;未能识别评审决策的工作人员的结果被排除在外。在得到他们的评分后，我们要求工人以自由文本的形式输入反馈。每个评论都由三个不同的工作人员进行评分。该任务大约需要12分钟才能完成。完成任务的工人获得了1.8美元的奖励。在专家场景中，任务被简化为仅包括每个标准的评级学术评论的同行分级在当前的同行评审系统中是隐含的：每个评审员都应该阅读其他评审员的评论，并决定是否保留她的原始建议;然而，他们通常不需要明确表达他们对其他评论的意见。我们假设明确的同行评分可以刺激评论者查看其他评论，并提高之后的讨论质量。在下一节中，我们通过与真正的专家评审员的实验表明，当用于在评分聚合中对评审员的推荐评分进行加权时，同行评分是有效的，这比现有的聚合方法更接近元决策，例如，根据评价者的自信心加权平均。5实验结果本节介绍我们的实证评估结果3。我们首先进行初步分析，以了解专家和工人分级的有效性，然后通过将其与最先进的技术进行比较来评估我们的PGPR框架的性能。最后，我们对PGPR的主要属性进行了深入分析。我们回答以下问题：问题1：专家和工作人员在评估评审符合性时的评分效果如何（第5.2节）。问题2：我们提出的人工智能方法在预测审查符合性方面有多有效？（第5.3节）。问题3：与多数投票相比，（第5.4节）。问题4：随着时间的推移，当更多的评论与地面真理决定变得可用时，同行评分在改善一致性预测方面有多有效？（第5.5节）。5.1实验装置5.1.1数据集。我们收集来自ICLR会议的数据，该会议为所有人提供开放的审查和评估分数3源代码和数据可在www.example.com上获得https://github.com/eXascaleInfolab/pgpr。通过OpenReview4提交。我们收集了2017 年至2019年提交给ICLR会议的所有评论我们的ICLR数据集共包含2917份提交和8838份评论。 1194篇论文至少有一篇评论与Meta决策不一致。在我们的研究中，我们主要对这些案件感兴趣，因为它们在达成最终决定时需要一些额外的努力。表2报告了收集的数据集的关键统计数据。5.1.2积极选择评论进行评分。我们利用主动学习从ICLR-2018和2019数据集中选择信息量最大的评论子集进行分级：对于每一年，我们将前一年训练的模型应用于本年度的所有评论，并选择模型预测最不确定的评论（通过预测概率的熵来衡量）进行众包。我们分别从ICLR-2018和ICLR-2019中选择了前30%（321）和前5%（103）的评论，并在我们的实验中表明，这些数字足以使模型收敛到最佳性能。我们将选定的审查称为我们在实验中研究了PGPR在这两个类别上的表现，以及分级不确定评论的数量对模型训练的影响总的来说，我们在2018年和2019年众包了444篇评论的子集，并从64名众包工作人员那里收集了1093个评分。5.1.3数据分割。为了模拟PGPR在现实世界中的应用，我们在不同版本的ICLR会议上对其进行了评估，具体如下：对于每年（2018年或2019年），我们假设前几年的评论和地面实况是已知的，而对于本年度，只有评论可用，没有地面实况。对于本年度的一部分评审，我们从员工那里收集评分因此，训练数据包含前几年的评论和决定，以及今年的人群标签。我们使用当前年份的基本事实进行审查，并将其平均划分为验证集和测试集。5.1.4标签提取。我们认为评审一致性的基础事实是一个二元变量，由评审员决策和荟萃评审员决策之间的一致性表示：当评审员和荟萃评审员都决定接受或拒绝一篇论文时，评审的基础事实被设置为1，否则为0。我们的模型为每个评论预测了一个介于0和1之间的值，描述了评论符合的概率。值越高，审核符合要求的可能性越高。对于从人群工作人员收集的评分，我们使用函数tx=x1 4将其映射到区间0，1，以便有效评分的范围与我们模型的预测范围相4https://openreview.net/····1924..（十四）德尔WWW5.1.5神经结构和特征。我们的机器学习模型的输入是手工设计的特征以及评论中句子的嵌入。对于手工设计的功能，表3：用平均评审分数和自我报告的置信度、专家评分和工人评分的加权平均值近似元决策的准确性我们为每个评论提取决策得分，置信度得分，以及它们与同一篇论文上其他评论我们还计算了评论的长度、评论中的引用次数以及涉及论文内容的关键字数量（例如，方程、截面、图）。对于文本嵌入，我们通过利用预先训练的语言模型SciBERT将每个句子表示为固定大小的向量[6]。这些输入被馈送到机器学习com-我们的框架的组成部分，包括一个多输入模型，我们称之为“混合模型”。它包括用于评论的嵌入的基于注意力的模型和用于评论的统计特征的逻辑回归。我们将基于注意力的模型和逻辑回归的输出连接起来，并使用带有tanh激活的全连接层，然后是线性层;输出由softmax函数生成（等式2）。2）。5.1.6比较方法。我们将我们的方法与最适用的审查合格评定技术进行比较。我们首先比较了为学术领域设计的分类方法：1）MILNET [45] ，一种用于对学术评论进行分类的多实例学习（MIL）神经模型（最初用于sen）。验证集上的最佳性能对于PGPR，在将来自基于注意力的模型和逻辑回归的输出连接之后，我们使用具有tanh激活和十个神经元的全连接层。5.1.8评估我们通过评估评审员推荐分数的等级加权平均值来近似元决策的准确性，来衡量专家和工作人员评分在评估评审一致性方面的有效性。给定同一篇论文上的一组评论R，我们将评论r ∈ R对该论文的推荐分数表示为sr，将评论收到的平均评分表示为<$r。R的总得分由下式给出.r∈R<$rsR∈R从计算机科学和生物医学领域。3）DoesMR [17]，一个逻辑回归模型，从学术评论中提取手工设计的特征进行预测。此外，我们还比较了为非学术评论任务开发的模型，包括通用语言模型和最初为预测产品评论的有用性而开发的两个模型：4）AL-BERT [26]，一种用于各种NLP任务的预训练语言模型，考虑到句子间的连贯性，以捕获包括评论在内的文档中的细粒度信息。5）PCNN [33]，具有上下文编码的卷积神经模型6）RAHP [47]，一种基于注意力的模型，依赖于双向LSTM来捕获文本中的顺序依赖关系对于DoesMR，除了原始特征外，我们还包括我们方法使用的所有特征，例如评论中的引用数量和引用论文内容的关键字数量。所有其他方法仅使用文本数据，因此无法利用手工设计的功能。我们还比较了PGPR与它的变体Mix模型，只consists的机器学习组件。请注意，在Mix模型中，用于评论嵌入的基于注意力的模型与用于评估SciBERT的模型相同，用于手工设计特征的逻辑回归与DoesMR相似。所有比较方法都使用相同的训练数据进行训练，即，历史回顾与决策，新回顾与工人评分，通过多数投票汇总5.1.7参数设置对于所有的比较方法，我们调整验证集上的超参数。这包括在{1 e-5，1 e-4，1 e-3，1 e-2，1 e-1}中搜索的学习率和{8，16，32，64}中的批量大小。对于RAHP和PCNN，我们在{50，100，200，300}中改变嵌入向量的维数我们对模型进行了最多500个epoch的训练，为了衡量PGPR的性能和我们的基线，我们使用准确率，精确率，召回率和F1得分超过正类。值越高表示性能越好。5.2浅析同伴评分我们通过专家评审员和群众工作者验证了同行评分对评审一致性的有效性在评分聚合中，我们使用评分来衡量评论者的推荐分数，并与其他聚合方法进行比较。我们计算的精度近似元决策的聚合结果。5.2.1专家评分对于我们的第一个实验，我们分别从SEM和DSW中选择了七篇和五篇边缘论文。我们只考虑那些评论者对他们的建议有不同意见的边缘论文来自DSW 论文的评论通过OpenReview公开提供对于SEM，由于评论不公开，我们在与同行分享之前联系了评论者以获得他们的同意。在这两个地点，我们要求同一篇论文的原始评论者对彼此SEM涉及21名评审员，每人提供1篇评审，DSW论文涉及12名评审员，共提供16篇评审。结果示于表3中。我们观察到，评分加权平均值的评论的建议是更好地近似元决策比其他手段汇总审查分数。结果证实，同行评分是一个更好的指标审查一致性比自我报告的信心分数，可以利用更好地近似元决策比现有的聚合方法。5.2.2由Crowd Workers进行评分在这个实验中，我们使用DSW和ICLR数据集。我们不考虑来自SEM的评论，因为这些评论不是公开的。结果示时间分析）。2）SciBERT [6]，一种基于自我注意力的神经语言模型，对由出版物组成的科学文本进行预训练sR=方法SEMDSWICLR平均0.330.600.69置信加权0.50NA0.70职等加权（专家）0.830.80NA职等加权（工人）NA0.800.73同行评分：一种减轻学术论文评审过程的双重角色方法WWW1925表4：与基线方法的性能（准确度、精密

下载后可阅读完整内容，剩余1页未读，立即下载