没有合适的资源?快使用搜索试试~ 我知道了~
editors only in the English Wikipedia. However, only a small mi-nority, specifically 127,000 editors are active1. Due to the diversedemographics and interests of editors, to maintain the quality ofthe provided information, Wikipedia has a set of editing guidelinesand policies.One of the core policies is the Neutral Point of View (NPOV)2.It requires that for controversial topics, Wikipedia editors shouldproportionally represent all points of view. The core guidelines inNPOV are to: (i) avoid stating opinions as facts, (ii) avoid statingseriously contested assertions as facts, (iii) avoid stating facts asopinions, (iv) prefer nonjudgemental language, and (v) indicate therelative prominence of opposing views.Currently, there are approximately 40,000 Wikipedia pages thatare flagged with NPOV (or similar quality flaws) quality issues.These represent explicit cases3 marked by Wikipedia editors, wherespecific Wikipedia pages or statements (sentences in Wikipediaarticles) are deemed to be in violation with the NPOV policy. Re-casens et al. [17] analyze these cases that go against the specificpoints from the NPOV guidelines. They find common linguisticcues, such as the cases of framing bias, where subjective words orphrases are used that are linked to a particular point of view (point(iv)), and epistemological bias which focuses on the believability ofa statement, thus violating points (i) and (ii). Similarly, Martin [11]shows the cases of biases which are in violation with all guideli-nes of NPOV, an experimental study carried out on his personalWikipedia page4.Ensuring that Wikipedia pages follow the core principles in Wi-kipedia is a hard task. Firstly, due to the fact that editors provide andmaintain Wikipedia pages on a voluntarily basis, the editor effortsare not always inline with the demand by the general viewershipof Wikipedia [21] and as such they cannot be redirected to pagesthat have quality issues. Furthermore, there are documented cases,where Wikipedia admins are responsible for policy violations andpushing forward specific points of view on Wikipedia pages [2, 5],thus, going directly against the NPOV policy.In this work, we address quality issues that deal with languagebias in Wikipedia statements that are in violation with the points (i)– (iv). We classify statements as being biased or unbiased. A statementin our case corresponds to a sentence in Wikipedia. We address oneof the main deficiencies of related work [17], which focuses ondetecting bias words. In our work, we show that similar to [13],words that introduce bias or violate NPOV are dependent on thecontext in which they appear and furthermore the topic at hand.1https://en.wikipedia.org/wiki/Wikipedia:Wikipedians#Number_of_editors2https://en.wikipedia.org/wiki/Wikipedia:Neutral_point_of_view3This number may as well be much higher for cases that are not spotted by theWikipedia editors.4https://en.wikipedia.org/wiki/Brian_Martin_(social_scientist)Track: Track: Wiki Workshop WWW 2018, April 23-27, 2018, Lyon, France17790在维基百科中检测有偏见的陈述0Christoph Hube和Besnik Fetahu0L3S研究中心,汉诺威莱布尼兹大学,汉诺威,德国{hube,fetahu}@L3S.de0摘要0维基百科的质量是通过一系列编辑政策和指南来保证的,这些政策和指南是为维基百科编辑者推荐的。中立的观点(NPOV)是维基百科的主要原则之一,它确保在有争议的信息中,所有可能的观点都得到相应的代表。此外,维基百科中使用的语言应该是中立的,不带有观点。然而,由于维基百科文章的数量庞大,以及其基于维基百科编辑者自愿原则的运作方式,质量保证和维基百科指南并不总是能够得到执行。目前,有超过40,000篇文章被标记为NPOV或类似质量问题。此外,这些文章仅代表维基百科编辑者明确标记的具有此类质量问题的文章的一部分,然而,考虑到只有很小一部分文章被维基百科分类为高质量或特色文章,实际数量可能更高。在这项工作中,我们关注维基百科中句子级别的语言偏见。语言偏见是一个难题,因为它代表了一个主观的任务,通常只能通过其上下文来确定语言线索。我们提出了一种监督分类方法,该方法依赖于自动创建的偏见词汇表以及偏见陈述的其他句法和语义特征。我们在一个包含有偏见和无偏见陈述的数据集上对我们的方法进行了实验评估,并表明我们能够以74%的准确率检测出有偏见的陈述。此外,我们还表明,确定偏见词汇的竞争方法不适合检测有偏见的陈述,我们的方法相对改进超过20%。0关键词0语言偏见;维基百科质量;NPOV0ACM参考格式:Christoph Hube和BesnikFetahu。2018年。在维基百科中检测有偏见的陈述。在WWW '18Companion:2018年网络会议伴侣,2018年4月23日至27日,法国里昂。ACM,美国纽约,8页。https://doi.org/10.1145/3184558.319164001 引言0本文发表在知识共享署名4.0国际许可证(CC BY4.0)下。作者保留在其个人和公司网站上传播作品的权利,并附上适当的归属。WWW '18Companion,2018年4月23日至27日,法国里昂,© 2018IW3C2(国际万维网会议委员会),根据知识共享CC BY 4.0许可证发布。ACM ISBN978-1-4503-5640-4 / 18/04。https://doi.org/10.1145/3184558.319164017800因此,我们的方法依赖于针对考虑中的一组维基百科页面自动生成的偏见词汇表,以及从分类陈述中提取的语义和句法特征。作为语言偏见的一个例子,考虑以下陈述:0• Sanders在他的参议院办公室里悬挂了苏联国旗,令他的自由派同僚感到震惊。0词语“shocked”在这个陈述中引入了偏见,因为它暗示“在他的办公室里悬挂苏联国旗”是一个令人震惊的行为。为此,我们在这项工作中做出了以下贡献:0•提出了一种从一组维基百科文章中自动生成偏见词汇表的自动化方法,•提出了一种将维基百科陈述分类为有偏见或无偏见的自动化方法,• 提供了一个由有偏见和无偏见陈述组成的人工标记数据集。02 相关工作0关于维基百科中的偏见的研究主要集中在不同的主题,如文化、性别和政治[ 1 , 8 , 20],其中一些现有研究涉及语言偏见。Greenstein和Zhu[ 4]分析了维基百科中的政治偏见,重点关注美国政治。他们使用Gentzkow和Shapiro[ 3]引入的方法来确定报纸倾向。该方法依赖于一个包含1000个术语和短语的列表,这些术语和短语通常由共和党或民主党国会议员使用。Greenstein和Zhu在维基百科关于美国政治的文章中搜索这些术语和短语,以衡量这些文章在哪个光谱(左倾或右倾政治)上。他们发现维基百科文章在平均上显示出更加自由的倾向,但随着维基百科的增长和更多编辑者参与文章的编辑,这种倾向已经减少。对于我们在本文中提出的方法的种子提取部分,我们也使用与美国政治相关的文章,但我们的方法不是测量政治偏见,而是使用与政治领域无直接关系的特征来检测有偏见的陈述,因此也可以在该领域之外使用。我们提取的偏见词汇表主要包含与政治无直接关系的词汇。Iyyer等人[ 8]引入了一种基于递归神经网络的方法,将美国国会辩论中的政治家陈述和意识形态书籍中的陈述分类为自由派或保守派。该方法首先将句子分割为短语,并分别对每个短语进行分类,然后逐步组合它们。这样可以更加复杂地处理语义组合。例如,句子“They dubbed it the"death tax" and created a big lie about its adverse effects onsmall businesses”即使包含了更具保守倾向的短语“deathtax”,也引入了自由派偏见。对于句子选择,他们使用一个具有手动选择的党派单词作为特征的分类器。他们的模型达到了70%的准确率。Yano等人[ 22]使用众包和政治博客中的陈述创建了一个数据集,其中给出了每个陈述的偏见程度和偏见类型(自由派或保守派)。对于句子选择,他们使用了诸如“sticky bigrams”和情感词汇等特征。0[ 15],并杀死动词。他们还询问工人的政治身份,并发现保守派工人更有可能将陈述标记为有偏见。Wagner等人[ 20]使用词汇偏见,即通常用于描述女性和男性的词汇,作为分析维基百科性别偏见的维度之一。Recasens等人[ 17]解决了与我们问题类似的语言偏见问题。给定一个已知偏见的句子,他们尝试使用基于逻辑回归和大多数语言特征的机器学习方法来识别最具偏见的词汇,即包含避免使用的词汇、事实性动词、肯定动词、暗示动词、报告动词、蕴涵和主观词汇的词汇列表。他们还使用词性和一个包含通过比较维基百科文章的前后形式提取的具有偏见的词汇表,其中包含654个词汇,包括许多不直接引入偏见的词汇,如美国、人和历史。相比之下,本文提出的提取偏见词汇的方法与他们的方法有很大不同,我们的偏见词汇表更全面,包括近万个词汇。Recasens等人报告了找到最具偏见词汇的准确率为0.34,找到前3个最具偏见词汇的准确率为0.59。他们还使用众包方法为给定问题创建了一个基准。结果显示,在给定句子中识别偏见词汇的任务对于人类注释者来说并不是一件简单的事情。人类注释者的准确率为30%。在维基百科的背景下,另一个重要的主题是破坏行为检测[ 16]。虽然破坏行为检测使用了一些与偏见检测相关的方法(例如黑名单),但需要注意的是,偏见检测和破坏行为检测是两个不同的问题。破坏行为是指编辑者故意降低文章质量的情况,通常更加明显。在偏见的情况下,编辑者可能没有意识到他们的贡献违反了中立的观点。03 语言偏见检测方法0在本节中,我们介绍了我们的语言偏见检测方法。我们的方法包括两个主要步骤:(i)首先,在第3.1节中构建偏见词汇表,(ii)然后,在第3.2节中,基于偏见词汇表和其他在句法和语义层面分析陈述的特征,训练一个监督模型来确定一个陈述是偏见还是无偏见的。03.1 偏见词汇表构建0在我们的方法的第一步中,我们描述了自动构建偏见词汇表的过程。偏见词在不同的主题和语言体裁中有所不同,因此自动生成这样的词汇表并不容易。然而,对于一组已知可能引起争议或已知具有煽动性的词语,像word2vec这样的词表示的最新进展在揭示在给定文本语料库中使用类似词语或在类似上下文中使用的词语方面非常高效。构建偏见词汇表的过程包括两个步骤:(i)种子词提取,和(ii)偏见词汇表构建。0Track: Track: Wiki Workshop WWW 2018, April 23-27, 2018, Lyon, France17810种子词。为了构建一个高质量的偏见词汇表,以某个领域(例如政治)为例,一个重要的方面是从中找到一组种子词,从这些词中我们可以在相应的词向量空间中扩展并提取表明偏见的词语。在这一步骤中,需要最少的人工工作,我们的想法是使用那些预计在偏见词密度较高的词向量中的词语。通过这种方式,我们以高效的方式识别种子词。因此,我们使用一个语料库,其中我们预计偏见词的密度比维基百科要高。Conservapedia5是一个根据右倾保守思想塑造的维基,特别是对美国民主党和自由派政治成员进行强烈批评和攻击。由于没有公共数据集可用,我们爬取了“政治”类别(及其所有子类别)下的所有Conservapedia文章。该数据集包括共11,793篇文章,我们通过word2vec方法计算出这些文章的词表示。为了扩展种子词列表并获得高质量的偏见词汇表,我们使用了一小组与美国左右两派之间的强烈政治意识形态相关的种子词(例如媒体,移民,堕胎)。对于每个词,我们手动查看其词表示中最接近的词语列表,并提取似乎传达强烈观点的词语。例如,对于词语“媒体”,其前100个最接近的词语包括“傲慢”、“抱怨”、“鄙视”和“明目张胆”。我们将所有提取出的词语合并到一个列表中。最终的种子词列表包含100个偏见词。0偏见词提取。给定种子词列表,我们使用维基百科的最新文章数据集提取更多的偏见词,通过使用skip-gram模型的word2Vec计算词嵌入。在下一步中,我们利用词向量的语义关系自动提取偏见词,给定种子词和词向量之间的距离度量。Mikolov等人[12]表明,在word2Vec向量空间中,相似的词语会被聚集在一起,因为它们经常出现在相似的上下文中。一个简单的方法是仅提取每个种子词的最接近词语。在这种情况下,如果种子词是偏见词,我们可能会检索到偏见词,但也会检索到与给定种子词相关但不是偏见词的词语。例如,对于种子词“charismatic”,我们在向量空间中的最接近词语中找到了“preacher”。为了改进提取过程,我们利用了word2Vec的另一个特性。我们不仅提取一个词语的最接近词语,而是计算向量空间中多个种子词的平均值,并提取结果向量的最接近词语。这有助于我们识别偏见词的聚类。表1显示了单个种子词“indoctrinate”和包含“indoctrinate”和其他9个种子词的批次的前20个最接近词语的示例。我们的观察表明,使用批次种子词可以得到更高质量的偏见词汇表。我们将种子词列表随机分成n =10个相等大小的批次。对于每个批次的种子词,我们计算批次中所有词语的词向量的平均值。接下来,我们提取05 http://www.conservapedia.com 6我们使用维基标记清理器对数据进行预处理。我们还用相应的书面形式替换所有数字,删除所有标点符号,并将大写字母替换为小写字母。7https://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz20表1:单个种子词 in- doctrinate和包含种子词的批次的前20个最接近的词: indoctri- nate,resentment, defying, irreligious, renounce, slurs, ridicu- ling,disgust, annoyance, misguided0排名 单个种子词 种子词批次01 cajole hypocritical 2 emigratesindifference 3 ingratiate ardently 4endear professing 5 abscondhomophobic 6 americanize mocking 7reenlist complacent 8 overawe recant 9disobey hatred 10 reconnoiter vilify 11outmaneuver scorn 12 helmswomandownplaying 13 outflank discrediting14 renditioned demeaning 15 redeployprejudices 16 seregil humiliate 17unnerve determinedly 18 titzikanfrustration 19 unbeknown ridicule 20terrorise disrespect0表2:提取的偏见词词汇的统计数据0名词4101个(42%)动词2376个(24%)形容词2172个(22%)副词997个(10%)其他96个(1%)0总共9742个0根据组合向量的余弦相似度,提取前1000个最接近的词。我们使用提取的偏见词作为新的种子词,使用相同的过程提取更多的偏见词(只进行一次迭代)。然后我们删除任何重复的词。表2显示了我们提取的偏见词词汇的统计数据。该词汇表包含9742个词,其中42%标记为名词,24%标记为动词,22%标记为形容词,10%标记为副词。名词的数量之多并不令人惊讶,因为名词是英语中最常见的词类。我们在论文网址8上提供最终的偏见词词汇。03.2 检测有偏见陈述0尽管偏见词词汇是从有偏见的种子词及其在词表示中相似的词中提取的,但它们只能作为标记有偏见陈述的弱代理。图1显示了我们的偏见词的出现情况。08 https://git.l3s.uni-hannover.de/hube/Bias_Word_Lists0Track: Track: Wiki Workshop WWW 2018, April 23-27, 2018, Lyon, France0.00.20.40.60.817820我们的众包数据集中有偏见和无偏见陈述中的有偏见和无偏见词汇。我们将在第4.1节中解释众包过程。近20%的偏见词汇不出现在有偏见陈述中,而且在有偏见和无偏见陈述中出现的比例相似。这些统计数据揭示了需要更强大的特征来编码它们所出现陈述的句法和语义表示的需求。列表1显示了我们的词汇表中一个偏见词在有偏见和非有偏见陈述中的例子。0列表1:词“decried”的偏见词歧义0这个想法被普遍谴责为非法,并且被福音派基督教徒、部落传教士和辉格党人所反对。0科伯恩在2008年3月和11月都对该法案行使了拖延权,并谴责了需要1000万美元进行测量和绘图的要求是浪费的。0表3显示了我们用于训练监督模型以检测有偏见陈述的完整特征列表。接下来我们将描述各个特征以及使用它们的直觉。0无偏见0<=50%有偏见0<=70%有偏见0> 70%有偏见0有偏见词的百分比0偏见词在有偏见和无偏见陈述之间的歧义0图1:偏见词的歧义性,表示它们在有偏见和无偏见陈述中的出现情况。x轴表示按照它们在有偏见陈述中出现的比例分组的偏见词,表示70%的出现转化为无偏见陈述中的30%的出现。0偏见词比率。在这个特征中,我们考虑陈述中属于偏见词词典的单词的百分比。将单词作为特征会导致稀疏的特征表示,这对我们的分类任务可能导致过拟合的风险。因此,比率可以作为判断陈述是否有偏见的指标。比率越高,陈述有偏见的可能性就越大。然而,如列表1所示,偏见词只能作为检测有偏见陈述的弱代理,因此仅凭其本身可能导致误报。偏见词上下文。对于有偏见的陈述,一个常见的模式是在其上下文中特定地使用偏见词。在这种情况下,上下文是区分无偏见和包含偏见词的陈述的关键因素。因此,我们将偏见词出现的上下文作为特征,对于每个偏见词出现,我们考虑窗口中的单词,该窗口由前一个和后一个单词组成。0此外,我们提取陈述中偏见词旁边的前一个和后一个单词的词性标记。在这种情况下,特征类似于提取三元组,但限制条件是其中一个单词存在于我们的偏见词词典中。此外,在这一组中,我们还包括陈述中不同偏见词之间的距离。LIWC特征。语言查询词计数[15]是一种常用的分析包含主观内容的文本的工具。通过使用特定的语言线索,它分析心理和心理测量线索,如愤怒、悲伤、社交词的比率。此外,样式词和内容词之间的差异可以揭示有趣的见解。例如,使用助动词可以揭示陈述可能包含情感词。助动词是被认为是功能词的一部分,从功能词中可以提取的其他心理线索包括语言中的礼貌、正式性。这些都与维基百科的NPOV政策相违背,对我们来说都很有趣。我们考虑LIWC的所有特征类别,对于所有类别的详细解释,我们参考原始论文[15]。词性标记分布。我们考虑陈述中词性标记的分布以及相邻词性标记序列(例如�NN,NNP�)。这里的直觉是我们可以利用在有偏见和无偏见陈述中可能出现的句法规律。这些特征对应于陈述中各个词性标记的比率,或者词性标记的二元组。基线特征。作为基线特征,我们考虑Recasens等人在一个略微类似的任务中提出的特征[17]。这些特征旨在检测陈述中的有偏见词,并考虑了两种主要的语言偏见,即(i)认识论偏见和(ii)框架偏见。在第一种情况下,通过调整特定单词和特定词性标记的单词,使陈述的可信度发生变化。例如,使用主观词、暗示动词、避免词可以改变可信度,即将观点表述为事实,或者反之亦然。对于第二种情况的框架偏见,有一种倾向使用倾斜词。与偏见词上下文的情况类似,我们在这里也考虑这些词出现的上一个/下一个单词及其相应的词性标记作为特征。有关特定特征分配的值的其他详细信息在表3中报告。04 评估0在本节中,我们解释了我们的评估设置。首先,我们通过众包构建了基准数据,并讨论了其局限性。其次,我们展示了我们方法的评估结果以及与竞争对手的效果。最后,我们展示了对维基百科陈述的随机样本的评估结果以及其中的结果。04.1 众包真实数据构建0为了验证我们在维基百科中检测偏见陈述的方法,我们需要构建一个具有类似特征的真实数据集。据我们所知,目前还没有这样的数据集。0Track: Wiki Workshop WWW 2018, 2018年4月23日至27日,法国里昂17830表3:我们用于检测偏见陈述的完整特征集。0特征 值 描述0偏见词比例 百分比 陈述中出现在偏见词词典中的词的数量(归一化)。偏见词上下文标记从我们的词典中选择的偏见词的相邻词,此外,我们还考虑它们各自的词性标记作为上下文。此外,在这里,我们还包括陈述中偏见词之间的距离。词性标记一元/二元分布百分比 陈述中词性标记或词性标记二元组(例如 � JJ NNS �)的比例。情感{中性,负面,正面} 由斯坦福的CoreNLP工具包标记的情感值。报告动词布尔值陈述中是否包含报告动词列表[17]中的至少一个词。暗示动词布尔值陈述中是否包含暗示动词列表[9]中的至少一个词。断言动词布尔值陈述中是否包含断言动词列表[6]中的至少一个词。事实动词布尔值 陈述中是否包含事实动词列表[6]中的至少一个词。积极词布尔值陈述中是否包含积极词列表[10]中的至少一个词。消极词布尔值 陈述中是否包含消极词列表[10]中的至少一个词。弱主观词布尔值陈述中是否包含弱主观词列表[18]中的至少一个词。强主观词布尔值陈述中是否包含强主观词列表[18]中的至少一个词。避免词布尔值陈述中是否包含避免词列表[7]中的至少一个词。基线词上下文标记与“认识论”和“框架偏见”词典[17]中的词相关的相邻词,此外还包括与词性标记相关的上下文。同样,在这里,我们还包括陈述中来自词典的不同词之间的距离。LIWC特征百分比 基于心理学和心理测量分析的LIWC特征[15]。0这样的真实数据,我们可以在我们的评估环境中使用。构建的真实数据已经在提供的论文URL上发布。我们从Conservapedia数据集中提取的陈述构建了我们的真实数据,我们在第3节中进行了描述。我们之所以使用Conservapedia而不是维基百科,有两个原因:(i)Conservapedia具有类似的文本体裁,并且涵盖了与维基百科类似的文章,(ii)偏见陈述的预期数量比维基百科要高得多。关于(ii),这具有实际的影响。从维基百科中获得的误报(即无偏见的陈述)数量对于众包环境中的评估来说太高,这将在金钱和时间方面造成成本。我们通过众包来构建我们的真实数据。我们从类别“民主党”中随机选择了70篇文章,该类别指的是“美国民主党”,以及从类别“共和党”中选择了30篇文章,该类别指的是“美国共和党”。从得到的文章集合中,我们将它们的内容分成陈述,其中一个陈述由一个句子组成。从相应的陈述集合中,我们随机抽样1000个陈述进行众包评估。图2显示了我们在CrowdFlower平台上托管的众包任务预览。对于每个陈述,我们要求众包工作者评估该陈述是否有偏见,并提供该陈述所在的部分作为上下文信息,以便他们能够做出更好和更明智的判断。09 https://crowdflower.com0判断。选项允许工作者选择具体类型的偏见,例如“观点”或“偏见词”或“无偏见”。众包工作者可以选择以下选项之一:a)偏见词-陈述中包含偏见词。b)观点-陈述反映了一个观点。c)其他偏见-陈述可能是事实的,但将其添加到部分中会引入偏见。d)无偏见-陈述在讨论的主题上是客观的。0工作者只能选择一个选项。在两个选项(a)和(b)都适用的情况下,我们要求工作者选择选项(a)。除了选项之外,我们还提供了一个可选字段,工作者可以在其中指示他们在陈述中发现的偏见词。为了考虑众包工作者提供的判断的质量,我们设置了明确的测试问题,用于过滤掉未通过其中50%的众包工作者。此外,我们限制为2级的众包工作者(由CrowdFlower提供,具有先前任务的高准确性的工作人员)。最后,对于每个陈述,我们收集3个判断,并为每个判断支付2美分,如果众包工作者在可选字段中提供了偏见词,我们支付额外的3美分。这总共有358个贡献者,其中239个通过了我们的质量控制测试。对于每个陈述,我们测量了评审者间的一致性,将判断转换为有偏见(及其所有子类)和无偏见的二进制类。根据Fleiss的Kappa测量的结果一致性率为:0Track: Track: Wiki Workshop WWW 2018,2018年4月23日至27日,法国里昂17840图2:用于评估陈述是否有偏见的众包工作设置。0表4:众包评估的真实统计数据,在过滤之前和之后。0陈述总数1000个,偏见词383个,观点105个,其他偏见82个,无偏见430个。0陈述(经过过滤):685个有偏见,323个无偏见,362个0κ =0.35。由于任务的主观性,我们认为这个值是可以接受的。根据最终的真实情况,我们决定排除被分类为其他偏见的陈述。这个类别与门户和报道偏见更相关,而不是语言偏见。我们还排除了被分类为观点的陈述,因为观点检测是一个不同的研究领域。被排除的类别将对未来的工作有所帮助,我们计划确定陈述的偏见类型。此外,我们删除了判断的置信度得分小于0.6的陈述,这是由CrowdFlower提供的,它基于工作者的一致性和每个工作者通过的测试问题的数量。表4显示了最终真实情况的统计数据。其中包含了总共685个陈述,其中323个被分类为有偏见,362个被分类为无偏见。04.2 检测有偏见的陈述评估0在本节中,我们提供了检测有偏见陈述的评估结果。首先,我们提供了在前一节中描述的众包真实情况的评估结果,然后分析了我们的分类器在维基百科环境中的性能。0学习设置。我们根据表3中的特征集训练分类器。我们使用了一个随机森林分类器,其实现如下:0[14]。为了避免过拟合并获得更好的可推广模型,我们执行特征排序,并根据χ2特征选择算法选择了前100个最重要的特征。这100个特征作为论文数据集的一部分提供,然而,在我们的情况下,最有信息量的特征与陈述中的偏见词比例及其上下文、LIWC特征以及出现在表3中的编码框架和认识论偏见的词(特别是来自词汇表的词)相关。我们将我们的算法称为DBWS。我们根据众包真实情况(参见第4.1节)评估我们的分类器,并执行5折交叉验证方法。有偏见和无偏见的陈述分布几乎均匀,有47%的有偏见和53%的无偏见。0基准模型。我们将我们的方法与两个基准模型进行比较。0(B1)第一个基准模型是一个简单的情感分类方法。我们使用Rocher等人提出的情感分类器[19]。我们做出了一个简单的假设,即负面情感表示有偏见的陈述,而正面情感则表示没有偏见。(B2)第二个基准模型是Recasens等人提出的偏见词分类器[17],我们使用了类似于他们原始设置的逻辑回归。第二个基准模型的特征被纳入到我们的方法中。如果分类器在陈述中检测到有偏见的词汇,则将该陈述标记为有偏见。0性能。表5显示了不同方法在检测有偏见陈述方面的性能,这些陈述来自我们的众包标注数据集。正如预期的那样,第一个竞争对手B1,根据陈述的情感来判断其是否有偏见,表现非常差,几乎等同于随机猜测。准确度为52%。这显示了这个任务的困难程度,其中陈述遵循使用客观语言的原则,因此基于情感的方法不起作用。接下来,第二个基准模型B2,其原始任务是检测有偏见的词汇,相比情感分类器有所改进。改进主要来自使用编码陈述中的认识论和框架偏见的特定词汇表。准确度为65%,而在精确度方面,第二个0Track: Track: Wiki Workshop WWW 2018, April 23-27, 2018, Lyon, FranceDBWS0.73 (▲12%)0.74 (▲20%)0.66 (▲5%)0.69 (▲10%)B10.520.480.030.06B20.650.620.630.6317850基准模型的精确度得分为P =0.62,召回率得分类似。然而,正如前面提到的,决定一个陈述是否有偏见的一个重要因素在于特定词汇(如我们的偏见词汇表或语言偏见词汇表[17])与其出现的上下文的组合。最后,我们的分类器DBWS在准确性方面达到了最高水平,为73%。在分类有偏见的陈述方面,我们实现了P = 0.74的精确度得分和P =0.66的召回率得分。与在精确度方面表现最好的竞争对手相比,这相对提高了近20%,而在召回率方面提高了5%。0表5:基于众包标注数据集的评估结果。精确度、召回率和F1分数是针对有偏见类别的。0方法 精确度 召回率 F1值0鲁棒性 -维基百科评估。尽管在文本类型和主题覆盖方面,Conservapedia和Wikipedia之间存在显著的相似之处,但在质量控制和执行此类政策的政策方面存在根本差异。因此,我们对一组随机抽取的Wikipedia文章进行了第二次评估,这些文章与我们从Conservapedia爬取的数据集属于相同的类别。为了获得可比较的文章,我们寻找文章名称的完全匹配,结果得到1713个等效文章。从这些文章中,我们提取了它们的整个修订历史,总共得到了220万个修订版本。最后,我们从中抽取了1000个修订版本,从中提取了8302个陈述(过滤掉长度小于50个字符的陈述)。接下来,我们运行我们在第4.1节中训练的分类器DBWS。从8302个陈述中,有36%被标记为有偏见。然而,由于我们没有Wikipedia陈述的真实标签,我们有兴趣评估一部分有偏见的Wikipedia陈述。因此,我们随机抽取了100个有偏见的陈述,其分类置信度大于0.8,并且我们手动评估这些陈述以确定它们是否有偏见。将分类置信度提高到大于0.8后,从36%中剩下了近4%的有偏见的陈述。0表6:维基百科陈述样本的评估结果。0文章 1,000 陈述8,302 有偏见2,988 无偏见5,3140从维基百科的100个有偏见陈述样本的评估结果显示,我们的分类器能够准确标记。0以66%的精度检测有偏见的陈述。这里需要注意的是,我们的分类器是在众包生成的真实数据集上进行预训练的,因此在这种情况下,语言偏见信号更强,而与维基百科中微妙的语言偏见相比。然而,在维基百科中,有偏见的陈述占总编辑数量的4%,这在大量的维基百科编辑中是一个重要的结果。这些结果非常有价值,具有重要的影响。首先,它表明我们的模型可以很好地推广到维基百科陈述,其中的语言偏见要比Conservapedia微妙得多。其次,尽管我们从一个已知具有高度偏见和偏向特定意识形态的百科全书中生成了众包真实数据集,但由于其内容相对相似,它使我们能够设计可以在更中立的环境(如维基百科)中高效应用的偏见词汇表。05 结论和未来工作0在这项工作中,我们提出了一种新颖的方法来检测维基百科中的有偏见陈述。我们专注于语言偏见的情况,为此我们提出了一种半自动化的方法(最小监督)来构建一个感兴趣领域的偏见词汇表,并且通过从偏见词所在的陈述中提取的句法和语义特征,我们可以准确地识别出有偏见的陈述。我们的方法在准确性方面达到了合理的精度,P =0.74,相对于只检测陈述中有偏见词的词级方法,提高了20%。此外,我们提供了一个新的有偏见和无偏见陈述的真实数据集,可以用于进一步改进检测语言偏见的研究。最后,我们展示了我们的方法在更明显有偏见的内容(如Conservapedia)上训练后可以很好地推广到维基百科,维基百科被认为质量更高,语言偏见更加微妙。在对维基百科陈述的小规模评估中,我们使用我们在Conservapedia构建的真实数据集中的预训练分类器实现了66%的精度。作为未来的工作,我们计划进一步改进分类结果。一个有希望的方向是考虑来自讨论页面的维基百科文章的信息,维基
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- StarModAPI: StarMade 模组开发的Java API工具包
- PHP疫情上报管理系统开发与数据库实现详解
- 中秋节特献:明月祝福Flash动画素材
- Java GUI界面RPi-kee_Pilot:RPi-kee专用控制工具
- 电脑端APK信息提取工具APK Messenger功能介绍
- 探索矩阵连乘算法在C++中的应用
- Airflow教程:入门到工作流程创建
- MIP在Matlab中实现黑白图像处理的开源解决方案
- 图像切割感知分组框架:Matlab中的PG-framework实现
- 计算机科学中的经典算法与应用场景解析
- MiniZinc 编译器:高效解决离散优化问题
- MATLAB工具用于测量静态接触角的开源代码解析
- Python网络服务器项目合作指南
- 使用Matlab实现基础水族馆鱼类跟踪的代码解析
- vagga:基于Rust的用户空间容器化开发工具
- PPAP: 多语言支持的PHP邮政地址解析器项目
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功