没有合适的资源?快使用搜索试试~ 我知道了~
大英百科全书与维基百科民族史条目的比较
主题:Web与社会WWW 2018,2018年4月23日至27日,法国里昂843(不要)提及战争:维基百科与大英百科民族史条目之比较Anna Samoilenko1,2,Florian Lemmerich1,3,Maria Zens1,MohsenJadidi1,2,Mathieu Génois1,Markus Strohmaier1,31GESIS-firstname. gesis.org,firstname. humtec.rwth-aachen.de摘要在本文中,我们提出了一个大规模的定量比较之间的专家和众包的历史写作的文章,分析从英文维基百科和大英百科全书。 为了量化对特定时期的关注,我们提取了提到的年份数字,并利用它们来研究过去一千年来国家的历史时间表。通过结合这两个百科全书语料库的词法分析的时间分析,我们可以确定在每个百科全书独特的史学观点。我们发现大英百科全书关注的是社会和文化现象。维基百科侧重于政治方面,集中于战争和暴力冲突,以及受欢迎的事件。最后,根据几个可读性分数,这两个百科全书都表现出英语学术散文的特征,与维基百科相比,大英百科全书的可读性略差。关键词计算历史,集体记忆,维基百科,大英百科全书,零模型,焦点,可读性,自然语言处理ACM参考格式:Anna Samoilenko1,2,Florian Lemmerich1,3,Maria Zens1,MohsenJadidi1 , 2,Mathieu Génois1,Markus Strohmaier1 , 3.2018年。( 在WWW 2018:2018年网络会议,2018年4月23日至27日,里昂,法国。ACM,New York,NY,USA,10页。https://doi.org/10.1145/3178876.31861321介绍《大英百科全书》是一部重要的权威性参考文献,涉及众多的主题和课题。由专家撰写,它还提供了有关国家历史的广泛信息随着万维网和协作技术的出现,维基百科已经成为传统百科全书(如大英百科全书)的众包替代品。截至2017年,维基百科是全球五大访问网站之一,而大英百科全书的受欢迎程度排名为2,153 1。多年来,维基百科也积累了丰富的合作撰写的历史文章,这些文章是其访问量最高的主题之一只是1http://www.alexa.com/siteinfo/britannica.com和wikipedia.org(2017年10月16日访问)本文在知识共享署名4.0国际(CC BY 4.0)许可下发布。作者保留在其个人和公司网站上以适当的归属方式传播作品的权利WWW 2018,2018年4月23日©2018 IW3C2(国际万维网会议委员会),在知识共享CC BY 4.0许可下发布。ACM ISBN 978-1-4503-5639-8/18/04。https://doi.org/10.1145/3178876.3186132由于对历史的认识对于发展民族、文化和个人认同感至关重要,因此理解各种历史相关来源提供的差异是重要的。在本文中,我们调查的方式,在维基百科上的国家历史的文章不同于他们在大英百科全书。因此,我们迈出了重要的第一步,比较了专家和众包来源提供的过去的观点。研究问题:我们问,如何描述国家英文维基百科中的历史与大英百科全书中的相应条目相比?特别是,我们研究的时间和主题方面的覆盖面,和语言的材料介绍。方法:我们的目标是提供第一个大规模的定量调查,比较大英百科全书专家撰写的历史文章与维基人合作撰写的历史文章。我们从读者的角度出发,调查所有联合国成员国的国家历史是如何在这些百科全书中呈现准确地说,我们量化的时间,主题和语言的差异,在文章中。我们专注于年提到的时间覆盖的可访问的表示。我们从文章文本中检索所有提到的日期(以1000-1999之间的4位数的形式),并将它们作为数据集之间的比较单位[45]。为了评估时间覆盖差异,我们应用基于随机化的过滤方法[46],随后应用统计推断。我们的实证结果得到了历史专家的验证为了比较语言特征,我们计算文本统计数据,应用一系列成熟的可读性测试,并运行词性分析。研究结果:我们发现,大英百科全书和维基百科展示不同的方法来史学,大英百科全书倾向于一个更空间和领土的国家的历史概念,和维基百科-呈现他们的历史作为一个序列的政治事件。准确地说,维基百科对冲突和战争时期的强调不成比例,对公众熟知的事件的偏好。相比之下,《大英百科全书》的文章强调了与潜在的文化和宗教紧张关系的冲突。从语义上讲,大英百科全书依赖于具有宗教内涵的词汇和地理术语,而维基百科则侧重于政治和军事词汇。最后,两者都体现了英语学术散文的特点尽管维基百科贡献和影响:我们的调查是广泛的,第一次提供大规模的定量见解如何专家撰写的大英百科全书的史学不同于维基百科的流行观点的过去。 我们结合计算和语言分析,以达到全面的结构(覆盖面,时间线,和他们的焦点),内容(这些焦点的历史参考,语义差异),和两个百科全书的介绍(可读性)。我们的动机是像维基百科这样的合作来源挑战权威主题:Web与社会WWW 2018,2018年4月23日至27日,法国里昂844无论是在普及程度还是内容呈现方式上,维基百科都超越了传统百科全书,并已成为知识的全球促进者我们首先在第2节中概述相关工作,并在第3节中详细介绍数据收集和预处理。我们的分析(第4节)分为几个小节,详细研究每个研究问题。 我们继续讨论研究结果(第5节)和研究的局限性(第6节),最后,在第7节提出结论性意见。2相关工作我们的工作借鉴了几个理论领域。它直接关系到文化史研究,集体/公共记忆[14],以及作为想象共同体的民族分析[2]。众包和传统百科全书的比较与数字化转型和大众媒体文化的兴起如何挑战传统专业知识概念的理论研究有关[9,23,40]。维基百科vs.Britannica比较:近年来,大英百科全书和维基百科之间的比较引起了学术界的浓厚兴趣。大多数研究都集中在通过将维基百科与权威来源进行比较来验证其内容的质量和准确性。对维基百科可信度的怀疑专家制作的内容的传统百科全书[23,40]。 虽然早期的研究表明,在质量上几乎没有差异。由于大英百科全书和维基百科之间的内容的完整性、广度和有效性[21],维基百科的可信度受到了批评[16,34],并激发了一系列后续研究,检查了一系列主题领域。例如,维基百科上关于精神障碍[41]、军事历史[27]和顶级财富公司[36]的文章已经过领域专家的审查,并且在每一种情况下都被发现至少与大英百科全书或其他权威的同行评审来源一样准确和广泛,甚至更新。然而,其他研究表明,维基百科文章的质量可能会因所选领域而异[12],甚至在一个领域内的文章之间也会有所不同[24]。不幸的是,大多数关于维基百科可靠性的几项研究调查了百科全书之间内容呈现的差异 Messner [36]报告说,当涉及到大公司的文章时,维基百科使用了比大英百科全书更积极/消极的语言。Greenstein等人 [16]计算了4K大英百科全书和维基百科关于美国政治的文章中的政治倾向和偏见,并发现维基百科更偏向民主党的观点。不过,他们的结果因文章的长度和计算方法而异最后,百科全书在内容可读性方面进行了比较,但结果也有争议[17,26,31]。虽然维基百科和Bri- tannica在内容质量和可靠性方面的实际差异并不大,但维基百科的可信度和文章选择受到影响-群众与专家撰写的历史:虽然大英百科全书提供了一个可信的,专家撰写的历史资源,维基百科提供了一个无人监督的,自我形成的,多方面的过去观点。在社会科学和历史文献中,维基百科在开源历史,参与/业余历史制作[42],集体记忆[14,43]和合作重新解释过去[40]的范式中进行研究。虽然专业历史学家对过去的理解不一定与维基百科的人相同[14],但维基百科作为参考来源的巨大受欢迎程度,特别是在历史方面[51],使其成为一个有吸引力的研究对象。当涉及到历史领域时,大众和专家撰写的百科全书文章之间可能存在的差异在很大程度上仍然是一个未知领域。据我们所知,只有几项研究将大英百科全书和维基百科中历史文章的准确性,广度和深度并列。Holman [24]将九篇维基百科文章的内容与大英百科全书、美国历史词典和美国国家传记在线中的内容进行了比较,发现维基百科的准确性不太可靠(80%,而其他来源的准确性为95%)。Luyt [33]发现这个弱点是由于维基百科中的许多声明没有通过引用来验证对这两部百科全书中“1812年战争”的定性分析[27]表明,《大英百科全书》的文章更简短,更多地关注战争的原因,而缺乏军事和海军方面的内容。文章还总结道,维基百科上有关军事历史的文章更多详细和更容易阅读比他们的大英百科全书同行。除了定性研究之外,还使用了几种方法来大规模量化历史,包括网络科学[25,38,48,50],数学建模和预测[28,52],文本挖掘和主题检测[5,37]以及时间事件提取[5,46]。然而,他们都没有被应用到比较在线百科全书的历史内容。 在本文中,我们结合计算方法,以检查,如何协同制作的维基百科文章的国家历史相比,相当于大英百科全书的文章,无论是在时间和专题报道的事件,以及语言特征。3方法在本节中,我们将描述收集、预处理和验证数据的过程,并概述方法细节。3.1数据收集我们专注于193个国家的历史,这些国家是目前的联合国成员国。 虽然维基百科是一个多语种的百科全书,在这个分析中,我们只关注它的英文版。这是因为大英百科全书只有英文版,因此无法进行多语言比较。维基百科语料库。对于每个国家,我们在维基百科的英文版中找到一篇文章,标题为“X的历史”,其中X是国家名称。我们检索文章我们关注外链是因为它们为读者提供了sues [11,32,47],特别是当与大英百科全书[18,30]对比总而言之,大多数比较研究只关注一个维度(通常是内容效度),而没有提供百科全书之间结构差异的整体图景[2]在整篇文章中,我们把“民族”、“国家”和“州”作为同义词使用,并意识到它们之间的区别。3联合国成员国名单,http://www.un.org/en/member-states/index.html(ac-2017年5月16日主题:Web与社会WWW 2018,2018年4月23日至27日,法国里昂845D公司100图1:时间信息提取。 我们展示了2017年出现在大英百科全书和英文维基百科网站上的英国历史文章的部分内容。 我们从每篇文章的正文以及所有外链文章的文本中收集所有4位数,并分析结果分布(图的底部)。这些数据提供了对百科全书式文章的时间焦点和注意力的见解用户可以有机会跟进和探索主题相关的材料,从而在塑造用户跨历史主题的导航中发挥作用。大英百科全书。在线大英百科全书4有一种类似于维基百科的格式:文章被分成主题部分,一些包含信息框,正文包含到其他大英百科全书文章的超链接。与维基百科不同,这里没有关于国家历史的独特文章相反,这些信息作为单独的部分嵌入在关于每个国家的主要文章中。通常,这一部分有多个小节,重点是各种重要事件和时期,包括前国家的历史。对于这个分析,我们确定大英百科全书上的所有联合国成员国的文章标题为对于每篇文章,我们检索标题为“历史”的部分的文本其他部分,如“经济”、“土地”和“文化生活”因不相关而被排除在外。维基百科中关于国家X的文本长度可能与大英百科全书的长度显著不同。我们创造和附加c)基于种子文章的文本的(主均衡)语料库,但在维基百科和大英百科全书文章之间的大小匹配。 为了做到这一点,对于每个国家,我们比较两个百科全书之间的文章长度(以单词为单位)。我们保留较短的文章,并随机删除较长文章中的句子,直到字数等于或低于较小文章的大小因此,每个国家的字数在维基百科和大英百科全书中是相同的,四舍五入到句子边界。提取时态表达式。 为了评估历史时期的覆盖率,我们统计了文章文本中提及的年份。由于我们对上个千年的历史事件感兴趣,因此我们检索1000到1999之间的所有4位数我们使用相同的程序(如图1所示)从两个数据集提取时间表达式在维基百科中,我们遇到了一些段落的例子,这些段落大部分(超过50%的单词)由超链接组成。由于这些段落中没有什么叙述,我们没有记录它们的日期。我们在2017 年 2月使用Wikipedia API6提供的访问权限和Britannica的HTML抓取脚本对这两个数据集进行了数据收集因此,对于大英百科全书数据集,我们从27,045篇文章中提取了326K日期,包括外链文章。在维基百科的情况下,我们处理了54,401页,检索了大约300万个日期。 对于这两个数据集,我们只关注文章的正文,不包括信息框、章节标题和图说明。3.2验证提取的时间表达式为了确保我们的提取方法的内部可靠性,我们检查提取的数字是否是年份,而不是表示例如身高的数字。 对于每个数据集,我们创建了一个随机样本,其中包含1,000个提取的4位数,平均分布在10个世纪,并要求3个独立的人类编码器将每个数字评估为日期或假阳性。 每个世纪有100个评估任务,包括潜在日期(4位数字)和围绕它的文本(数字前后40个字符)。如果编码器不确定某个数字,我们将其视为误报。每个案件都是以多数票解决的我们计算几个世纪的预期错误率为公司简介1个 .. nerr,cDcorp,cΣ,(1)C在HTML格式,并清理它与BeautifulSoup解析器,以排除文本和相关的标签,例如。参考文献、章节标题和副标题、标题,使得两个数据集仅由主要文章文本组成。对于Wikipedia,我们额外删除(使用正则表达式)引用参考文献的所有实例(格式为[n],其中n是参考文献在文章参考书目中的位置)。为了分析语言的复杂性,我们准备了几个语料库。首先,我们创建一个)(main + outlinks)语料库,其中包含每个国家的所有收集文本,包括种子文章及其外链。它的简化版本b)(main)由种子文章的文本组成,不包括外链的文本。在这些语料库中其中Dcorp和Dcorp,c是每个语料库corp和世纪c收集的(潜在)日期的总数,并且nerr,c是世纪c的随机样本中的假阳性计数。评定者间一致性显著(Fleiss两个数据集均显示出非常低的预期错误率(每个数据集0.01)。对于维基百科,我们估计11世纪的错误率最高(0.24),因为大量提取的数字原来是与身高,人口计数等有关的数字。其他误报,无论是对不列颠和维基百科,大多是日期从前基督时代。在最近几个世纪,我们的提取方法非常精确(20世纪的预期误差为0.001<)。4The Encyclopedia Britannica,https://www.britannica.com/(2017年5月16日5一个例外是关于摩纳哥的条款,该条没有分成几节。 在这种情况下,我们使用了文章的整个文本及其所有外链进行分析。6Wikipedia API for Python,https://pypi.python.org/pypi/wikipedia/(2017年5月16日)语料库的预处理。对于这两个数据集,我们提取数据主题:Web与社会WWW 2018,2018年4月23日至27日,法国里昂846.-()的方式图2:收集日期的归一化分布 所有收集的年份都被划分为十年,并通过每个数据集收集的日期总数进行归一化。维基百科和Bri- tannica都表现出对过去100年的强烈偏好维基百科在二战前后的十年4分析和结果我们提出我们的结果在几个部分。首先,我们比较了大英百科全书和维基百科在最覆盖的年份和历史时期(第4.1节)。 在第4.3节和第4.4节中,我们将分析范围缩小到选定的国家,并计算数据集中覆盖最不同的十年,以及提取和比较国家的时间焦点。最后,我们报告的文章的语言介绍。在第4.5节中,我们比较了每个数据集最具特色的主题。 我们通过在4.6节中对百科全书的可读性和语言复杂性进行全面比较来总结分析。4.1一般覆盖模式在深入计算分析之前,我们比较了收集日期的数量及其在国家时间轴上的分布。我们观察到从两个百科全书收集的日期数量有惊人的差异:虽然Bri-tannica在1000和1999之间总共有326,021年的数字,但维基百科是3,325,946年日期的十倍。这两个百科全书中覆盖最多的一些国家是欧洲大型经济体(例如欧洲)。英国、德国、法国),以及澳大利亚和美国。维基百科覆盖最少的尾部由非洲国家和大洋洲的岛屿国家主导。 这种趋势在大英百科全书中也很明显,尽管它也包括一些亚洲国家。总的来说,只有98个国家,我们从大英百科全书的文章中提取了超过1,000个日期。在维基百科的数据集中,即使是覆盖最少的国家也有大约1,500个日期。为了比较语料库中日期的分布我们将所有收集的日期分为十年,并通过每个数据集收集的日期总数对其进行归一化维基百科和大英百科全书都显示了时间覆盖的不均匀分布(图1)。2)在1500年(可能与发现时代有关)和1800年(拿破仑战争)左右有小高峰一个特别强烈的高峰落在20世纪,在那里第一次和第二次世界大战时期是最明显的。总的来说,对于这两个百科全书,我们观察到一个强烈的偏见,涵盖上个世纪。此外,维基百科在二战前的十年中呈现出明显的更高的覆盖率。4.2国家时间分布我们首先探讨维基百科和Bri- tannica时间表之间的整体相似性为每个国家。 为此,我们将每个国家表示为100个值的向量(等于检查的十年数),每个值都是标准化的日期计数。然后,我们计算维基百科和大英百科全书国家向量之间的余弦相似性。总体而言,相似性值在.59(圣马力诺)和.98(博茨瓦纳、卢旺达、澳大利亚)之间,平均值为.88。因此,时间线平均非常相似。为了继续,我们探讨了国家时间表如何集中在覆盖特定时期,而不是以类似的程度覆盖每十年。我们采用信息论的方法:我们将国家时间轴的每个十年箱视为一个单独的信息通道,并计算所有通道的熵因此,在每十年中具有相同日期数的国家将具有最大熵。显然,最小熵值对应于所有国家的日期都集中在一个十年内的情况。我们将国家熵计算为Sc=pilnpi,其中pi是十年i中日期的归一化频率。图3展示了熵分数的分布基于质心的位置,我们的结论是,在这两个百科全书的欧洲国家的时间表是在最均衡的方式,而非洲和大洋洲的国家,维基百科和大英百科全书的文章更偏向于覆盖有限的几十年。这种倾向于覆盖特定年代的倾向在《大英百科全书》中更为典型(所有质心都在对角线上方)。这条规则的一些例外是欧洲大国(英国,德国,意大利,西班牙,法国),与维基百科相比,大英百科全书上的历史时间表更加平等在下一小节中,我们将继续研究不同百科全书的时间覆盖范围差异很大的情况。4.3最不同的覆盖期如前一节和图中所示2,大英百科全书和维基百科中的国家时间表的形状平均非常相似。然而,也存在差异 在本节中,我们自动提取并突出显示百科全书所涵盖的不同年代。特别是,我们探索在一个数据集中的日期的数量明显高于(或低于)一个固定的预期基线的几十年。 将基线Rc定义为给定国家c的大英百科全书与维基百科总日期的比率是直观的。 我们假设这个比率在一个国家的时间轴上每十年保持不变。因此,我们测试的假设,无论十年,大英百科全书将始终有Rc倍少的日期相比,维基百科。结果:我们可视化了这个模拟的结果。图中国家的选择四、 可以看出,百科全书存在数据稀疏问题,在前几十年和非欧洲国家尤其明显。这个问题对大英百科全书的影响比维基百科大得多尽管如此,基于这两部百科全书都有足够的年代,《大英百科全书》按比例更关注更早的时期。确切地说,在20世纪之前的大多数几十年里,不列颠与维基百科的日期计数之比超过了该国的预期Rc比率。另一方面,维基百科对最近的事件有很强的偏见我们也注意到过度强调主题:Web与社会WWW 2018,2018年4月23日至27日,法国里昂847我我D其中,Ni是为国家i收集的日期数。这建立了一个随机的国家时间轴。我们重复这个过程一千次。对于每一个十年,我们可以在时间上随机分布的事件的零假设内建立预期日期的分布 这使我们能够将该分布的平均值E[wd]与同一个十年中该国的经验数据计数wd进行比较,并将差值转换为z分数。z分数因此,由下式给出:wd−E[wd]zd=我我、(二)D我图3:国家熵值分布 分数标准化为0(一个十年中的所有国家日期)到1(所有十年的日期数量相等)。 根据质心(恒星)的位置,在两个百科全书中,欧洲国家的时间轴以最均衡的方式呈现,而对于非洲和大洋洲的国家,维基百科和大英百科全书的文章更倾向于覆盖有限的几十年。平均而言,这种倾向于覆盖某些年代的倾向在大英百科全书中更为明显(所有质心都在对角线上方)。维基百科上的红色细胞在冲突和战争时期是真实的,这不仅适用于20世纪的第一次和第二次世界大战,而且可能也增加了早期维基百科的红色细胞(如图4所示)。我们发现的一些例子包括:法意战争(1490年代至1550年代),法荷战争(1670年代),法国权力下放战争(1667-68),西班牙王位继承战争(1701-14),加拿大入侵(1775)和1812年战争之间的历史,希腊奥托的起义(1843),以及克里米亚战争(1853- 1856)。维基百科写作的另一个焦点似乎落在所谓的流行时期:不仅为历史专家所熟知的时代,也为更广泛的受众所熟知,例如。路易十四统治时期或法国大革命时期,宗教改革时期或启蒙时代,以及德国魏玛古典主义时期。相比之下,《大英百科全书》对冲突时期的强调要小得多:法国的宗教战争(16世纪60年代,1598年由南特敕令解决)、葡萄牙的复辟战争(1640- 1648年)或希腊的独立战争(19世纪20年代)。它还显示了对非洲(去)殖民化时期的明显关注。4.4历史焦点为了继续我们的调查大英百科全书和维基百科的时间覆盖模式,我们提取和比较国家时间轴的焦点,即。与零模型的预期相比,提及的年代明显更多(或更少)。方法:焦点的零模型 为了提取焦点,我们采用了[ 46 ]中介绍的随机化技术来适应我们的数据集。我们首先创建所有收集的日期的池M然后,我们从池中随机抽取每个国家Ni个日期其中σd是十进制i的模拟日期计数的标准差。通过此过程,我们可以确定其使观察到的日期wd的数量与给定i零假设的日期的预期数量提取的焦点的比较。 的结果模拟,我们得到两个时间表的焦点(维基百科和大英百科全书版本)为每个国家。我们通过计算余弦相似度来总结它们之间的余弦相似度的值在阿根廷的.92(两个百科全书提供几乎相同的时间线)和摩洛哥的-0.55(一个时间线中的焦点在另一个时间线中的兴趣很低)之间,并且集中在.45. 因此,就焦点而言,百科全书提供了相当不同的国家历史版本。显然,低平均相似性部分地与大英百科全书中的缺失数据有关(例如,摩洛哥的时间轴不到20年,至少有30个日期。然而,我们也发现数据稀疏不是问题的几十年之间的差异 为了说明它们,我们绘制了从每个百科全书中获得的焦点分布,一个在另一个下面,覆盖10个最高的国家(图1)。(五)。两种类型的信号是明显的。 尽管我们在每个数据集上独立地应用该方法,但在一些焦点上的一致性是明显的。对于墨西哥,这两部百科全书都关注墨西哥独立战争(19世纪20年代)。在美国时间轴上,焦点事件是美国革命(1760- 90年代)和美国内战(1860年代)。 关于加拿大历史的文章突出了与法国和英国在北美的统治权(七年战争,1756年至1763年)之间的斗争有关的几十年。这两部百科全书中的南非历史大多突出了殖民时期(19世纪末争夺非洲 对于荷兰来说,1660年代至1670年代之间的特定时期可能与八十年战争有关,或者也被称为荷兰反对西班牙霸权的独立战争。葡萄牙的历史集中在王朝危机:葡萄牙的跨统治(13世纪80年代)和16世纪80年代的继承危机。类似的趋势也出现在有关中国历史的文章中,这两篇文章都强调了金(11世纪30年代)、元(12世纪70年代)、明(13世纪60年代)和清(17世纪40年代)王朝的形成。也许更有趣的是,我们在数据中看到的另一个信号是百科全书之间的分歧。这一点在关于德国历史的文章中得到了最有力的宣扬。 虽然维基百科的叙述强烈关注二战,但大英百科全书对1930- 40年代不感兴趣。同样令人惊讶的是,法国革命(18世纪80年代)在维基百科的时间轴上是明显的,但它并没有出现在大英百科全书的法国历史时间轴上。相反,《大英百科全书》聚焦于法国的宗教战争(胡格诺派σ主题:Web与社会WWW 2018,2018年4月23日至27日,法国里昂848图4:维基百科和大英百科全书时间线的比较 对于每一行,我们计算Rc,这是基于该国家收集的日期数量的比率BR/WP。然后,我们将这个国家的比率与每个十年中每个BR与WP的数据计数比率进行单元格颜色显示十年比率与国家比率相差多少倍 大英百科全书的年代比国家比例预测的年代多的单元格用蓝色表示,否则用红色表示。在任一BR或WP中具有少于30个日期的单元格被遮蔽(灰色)。当国家和十年比率相等时,单元格为白色。该图显示,在有足够数据的几十年中,大英百科全书按比例更多地关注前几十年,维基百科则关注与政治不稳定有关的最近时期,例如。二战。16世纪的战争),以及法国王室土地的扩张(1180年代至14世纪初),这与天主教会对Cathards的十字军东征相吻合。《大英百科全书》关于意大利历史的文章集中在12世纪至13世纪的中世纪时期,其特点是圭尔夫派和吉贝林派的竞争,支持教皇和神圣罗马帝国皇帝。维基百科,另一方面,显示没有这样的重点。4.5最独特的主题和词汇。在研究了数据集的一些时间覆盖特征之后,我们转向对文章的文本分析,以便对文章中所涵盖的主题有一个初步的了解我们首先提取在一个数据集中使用最明显的单词,与它们在另一个数据集中的使用情况进行比较 为此,我们从维基百科和大英百科全书(主语料库)(1219个单词)中提取前1000个最频繁的单词之间的联合,并使用列联表中变量独立性的χ 2检验来比较单词频率。 我们在表1中报告了结果。根据χ 2统计量的值对单词进行排名,χ 2统计量的值反映了单词的使用对大英百科全书(左列)或维基百科(右列)的显著偏向程度。在分析的词汇中,《大英百科全书》最明显地依赖于具有宗教或哲学内涵的词汇,如基督、信仰、耶稣、上帝、精神、神圣;思想、教义、系统和地理术语(河流、平原、盆地、山脉、岩石)。 另一方面,维基百科严重依赖政治和军事词汇,如战争,被杀,殖民地,士兵,军队,帝国,船只,武装,被俘。4.6文本复杂性和可读性这两种百科全书都以广泛的读者为目标,因此应该以一种不同的读者可以接触到的方式编写。在本节中,我们通过计算各种语言复杂性度量来探索这个直观的假设。下面我们将报告两个语料库在简单文本统计、文章可读性和词性使用方面的比较根据分析,我们使用整个维基百科和大英百科全书语料库(main+外链),或它们的简化版本(主)和(均衡主)。我们将在3.1节中描述如何构建这些语料库。文本统计。我们报告的(主要)语料库的描述性文本统计。分别计算每个国家文章的平均值,每个数据集的平均值总结见表2。我们使用Welsch t检验来比较平均值。平均而言,维基百科关于历史的文章使用较长的句子(21.6个单词,而不是21.6个单词)。 19.9 in Britannica,p<. 001)和稍长的单词(5.2个字符vs.5.1,p =. 005);差异具有统计学显著性。为了正确看待这些数字,请注意口语(平均18个单词)和学术写作(24个单词)的平均句子长度[10]。较长的文本单位表明维基百科使用了稍微正式的书写寄存器。 基于平均单词长度,这两种百科全书的得分都高于学术散文(4.8个字符[6]),因此属于最正式的文本类型。最后,我们报告了平均文章长度,以每篇文章的句子和单词数来衡量(见表2)。 比较显示无显著差异。然而,我们发现有趣的特殊性,这两个数据集引用时间信息的方式。准确地说,维基百科文本引用日期(年份)的频率要高得多。差异是显着的,无论是测量每100个单词的日期数量(维基百科与维基百科的1.7个日期) 1.3在不列颠-尼卡,p<。001)和每100个字符。 这可能表明维基百科倾向于事实,而不是描述性的叙述。可读性。 文本可读性通常被估计为在第一次阅读时理解文本所需的最小教育年数,并且通常使用美国等级系统来解释。可读性分数通常基于文本的表面特征,诸如其单元(音节、单词和句子)的数量。一些测试还包括语义特征,例如通过单词长度(字符[13,49]或音节[19,22,35])估计的单词难度,或通过与易于理解的单词的预先计算的字典进行比较[15]。 为了从各种方法中受益,我们计算了几个已建立的可读性分数。我们在(均衡的主)语料库上执行分析主题:Web与社会WWW 2018,2018年4月23日至27日,法国里昂849--[-][-]图5:选定国家的临时联络点:维基百科和大英百科的比较低于4和高于4的z分数对应于Bonferroni校正的p值<0.01,这意味着所有有色细胞中的结果都是统计学显著的。较高的z分数(橙色)对应于每十年观察到的和预期的日期计数之间的正差异,并且可以被解释为时间线的焦点。具有少于30个日期的单元格被遮蔽(灰色)。大英百科全书的z-分数在50:50之间变化,维基百科的z-分数在70:70之间变化。这些注释是由历史专家编写的 虽然总体而言,维基百科中的大英百科全书中的焦点分布之间的相似性是显而易见的,但差异表明了不同的史学方法。以补偿制品长度的差异。结果总结于表3中,所有差异均具有统计学显著性(Welsch<’s t检验,p. 001)的情况下。FRE7的范围在0(很难理解)和100(五年级学生可以理解)之间。维基百科和大英百科全书的得分都在40左右,或者说对于一个普通的高中毕业生来说是合适的。 虽然分数之间的实际差异并不大,但维基百科似乎更容易理解。其他措施同意这一结果,总是映射大英百科全书的可读性,以更高的要求美国等级水平(因此,缺乏可读性)。虽然关于映射每个百科全书的研究生水平在分数上存在变化,但是在数据集之间,信号是清楚的。维基百科的可读性得分始终低于大英百科全书,即它的文章是用一种更广泛的受众可以理解的语言注意,这些等级分数不应被视为精确值。 根据读者的社会经济和文化背景以及他们阅读文本的动机,可读性公式被称为高估和低估理解难度[29]。词性分析。 我们使用(均衡的主)语料库来比较词性(POS)频率的分布为了标记文本,我们应用了PennTreebank POS标记器[1]。它错误地把多词专有名词当作独立的实体7 缩 略 语 缩 写 如 下 : FRE-Flesch reading easy; FKG-Flesch- Kincaid grade; CLI-Coleman-Liauindex;ARI-Automatedreadabilityindex;DCRS-Dale-Challreadability score; G-FOG-Gunning FOG index; HS-High school。(例如: New York结果是两个单个专有名词标记,而不是一个多词专有名词标记)。因此,我们添加了一层后处理,将相邻专有名词的所有实例合并到一个标记中,这些实例没有被标点符号或其他POS分开。最频繁的POS8的分析结果总结在图1B中。六、这两个百科全书显示出令人难以置信的相似性(余弦相似性=0.99),在他们的模式的POS使用。 最常用的词性是名词和形容词,这是书面学术英语的一般属性[7]。由于两个语料库都描述过去,所以动词的过去时态很常见。我们发现有趣的统计差异,例如,在使用专有名词和数字。平均而言,维基百科提到专有名词和名称(例如独特的实体、人物、知名事件)的频率显著高于大英百科全书。 它还以更高的频率使用数字(包括日期)。这暗示维基百科可能更关注著名事件、实体和传记。另一方面,《大英百科全书》中名词和WH限定词的使用频率非常高8POS定义如下:NN:名词、普通、单数或大量; IN:介词或连词; DT:限定词;NNP:名词、专有、单数; JJ:形容词或数字、序数; NNS:名词、普通、复数;VBD:动词、过去式; CC:连词、坐标; VBN:动词、过去分词; CD:数字、基数词; RB:副词; TO:to; VB:动词、基础形式; VBG:动词、过去分词; VBD:动词、过去式; CC:连词、坐标; VBN:动词、过去分词; CD:数字、基数词; RB:副词; TO:to; VB:动词、基础形式; VBG:动词、过去式; VBD:动词、过去式;CC:连词、坐标; VBN:动词、过去式; VBG:动词、过去式; VBN:现在分词或动名词; PRP$:代词,所有格; VBZ:动词,现在时,第三人称单数; PRP:代词,人称; VBP:动词,现在时,不是第三人称单数; WDT:WH-限定词; NNPS:名词,专有名词,复数; WP:WH-代词; JJR:形容词,比较级; JJS:形容词,最高级; WRB:WH-副词; MD:情态助动词; RP:助词; EX:存在句。主题:Web与社会WWW 2018,2018年4月23日至27日,法国里昂850(that,what,which)和并列连词(therefore,and,but,so)。因此,它可能会表现出一种更说教和客观的风格,以及一种有组织和逻辑的叙事流,重点是解释实体之间的结构联系。5讨论我们的研究结果表明,这两个百科全书都偏向于涵盖最近的时期,而不是遥远的过去。 这种近因偏见在维基百科中更为明显,它强烈强调了第一次和第二次世界大战。先前的研究表明,这在其他维基百科语言版本中也存在[46]。作者将其归因于将最近的事件视为更重要的一般心理倾向[44]。这种现象在集体/社会记忆的文献中被广泛讨论[3,4,8,53]。但是,它主要与公共的、非专业的叙述相关联这是新的,以证明在专家制作的大英百科全书相同的偏见的迹象我们观察到对大型经济体的覆盖率更高,其中大部分是欧洲经济体偏向大英百科全书偏向维基百科词BRWP词BRWP英尺1847422由于53107590英里1661553英国22766377875米1596017战争47661599373基督1456512政府44254561361信仰1385557杀27584039耶稣1333017日本24079731上帝3535036828殖民地28877958朝向11615151士兵17873302平方988462开始8065504精神975744抗18666960神936916军队17024260246河流8706107竞选30165399足球84107部队13409219442平原844054帝国25631342131想法818397船舶9360593主义798648总统11871202456山772870警察17157468系统770869朝向154365超出736798葡萄牙20157368复杂723493武装29658780岩石70298法国23496310546盆地708178捕获22255474游戏682612抵达14554157广泛6698154周围9159162148重要性6590120邮政15552273表1:维基百科和大英百科全书主要条目中的热门词汇使用情况。 在左侧,与维基百科相比,在大英百科全书中出现最明显的前25个单词(通过χ 2值排名),并且在右侧-维基百科中最明显的单词。这些值对应于(主)语料库中的词频。虽然大不列颠在使用宗教、哲学和地理词汇方面与众不同,但维基百科却大量使用政治和军事术语。国家(英国、德国、法国)、美国和澳大利亚。平均而言,欧洲地区的历史在其整个时间线上相对详细和均衡,而非洲国家和大洋洲的小岛屿国家的时间线只涵盖有限的几十年。 这种以欧洲为中心的偏见在专业历史编纂中受到了历史学家的批评[20],但尚未在大英百科全书的背景下进行讨论。在语言方面,这两部百科全书都表现出学术英语散文的一般属性[7]。在文本可读性方面,维基百科可以被更广泛的受众访问 我们的研究结果与2009年比较分析的结果相似[17],但两者都应谨慎解释[29]。此外,我们的POS使用分析表明,大英百科全书可能会提供一个整体更说教,客观的风格,更有组织和逻辑的写作流程。并列的特
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功