没有合适的资源?快使用搜索试试~ 我知道了~
640→→使用通用和特定指标评估健康相关维基百科条目的质量路易斯·库托波尔图大学工程学院葡萄牙波尔图mieic1204994@fe.up.pt摘要维基百科是一个在线的、免费的、多语言的、协作的百科全书,目前是网络上维基百科贡献的开放性质引起了对其信息质量的以前的研究已经解决了这个问题,使用人工评估,并提出了通用的质量评估措施。在这项工作中,我们专注于健康相关内容的质量为此,我们使用维基百科文章中的一般和健康特定功能来提出健康特定指标。我们使用一组以前由WikiProject Medicine评估过的维基百科条目来评估这些指标。 我们的结论是,它是可能的通用和特定的指标相结合,以确定健康相关的内容的信息质量。这些指标是自动计算的,可以由策展人用来识别质量问题。 除了探索的功能外,这些指标还可以用于自动分类维基百科健康相关文章的质量的方法。CCS概念• 信息系统维基;·应用计算消费者健康;健康信息学。关键词信息质量,维基百科,健康相关内容ACM参考格式:路易斯·库托和卡拉·特谢拉·洛佩斯2021年用通用和特定指标评估健康相关维基百科文章的质量在2021年网络会议(WWW '21Companion)的配套程序中,2021年4月19日至23日,斯洛文尼亚卢布尔雅那。ACM,美国纽约州纽约市,8页。http://doi.org/10.1145/3442442.34523551引言维基百科是一个众所周知的百科全书,任何人都可以编辑。这使得它成为一个强大的信息来源,因为任何人都可以用他们的知识来扩展它,但同时也有可能故意或错误地添加错误的信息。为了减少用户插入不准确信息的可能性,维基百科依靠策展人修改发布的内容,并确保其符合事实。本文在知识共享署名4.0国际(CC-BY 4.0)许可下发布。作者保留在其个人和公司网站上以适当的署名传播作品的权利WWW©2021 IW 3C 2(国际万维网大会委员会),在知识共享CC-BY 4.0许可下发布。ACM ISBN 978-1-4503-8313-4/21/04。https://doi.org/10.1145/3442442.3452355卡拉·特谢拉·洛佩斯INESC TEC波尔图大学工程学院葡萄牙波尔图ctl@fe.up.pt信息的质量在医疗保健领域尤为重要在网上搜索与健康相关的信息往往会把人们带到维基百科[15]。2021年,英文维基百科有超过4万篇与健康相关的文章[8]。目前,维基百科上访问量最大的医学文章的年访问量超过20亿,而最受欢迎的文章,现在的“COVID-19 pandemic”,平均每天的访问量超过4万[ 29 ]。与健康相关的信息是授权,帮助用户更好地生活与他们的健康问题,但同时可能是危险的,因为错误或误导性的信息可能会导致不必要的结果[7]。因此,确保维基百科中与健康有关的信息的质量至关重要已经提出了通用指标来评估维基百科信息在不同维度上的质量,例如其完整性,信息量和准确性[26,30]。这些指标建立在较低级别的功能之上,例如一篇文章中涉及的编辑人数。 现有的衡量标准没有考虑可能有助于改善卫生领域评价的具体特征。在这项工作中,我们提出了特定于健康的功能,如医学信息框,以捕捉维基百科在这一领域的文章的质量 在调查功能和质量之间的相关性,我们提出了健康的具体指标,并评估其有效性,在健康领域的维基百科文章的质量捕获。第2节概述了与维基百科信息质量相关的工作在第3节中,我们描述了我们的方法,然后分别在第4节和第5节中提出了功能和健康特定指标的建议。最后,第6节结束了工作。2维基百科信息质量质量一直是维基百科关注的问题,自成立以来,维基百科已经定义了确保一定质量水平的机制。英文维基百科目前有超过600万篇文章[9]。 评估如此多信息的质量成为一项挑战,需要一定程度的自动化。 几位作者在一般情况下和在健康领域都探讨了这个问题。2.1维基百科内部质量机制考虑到对维基百科信息质量的质疑随着信息技术的发展和增长,从一开始就需要建立内部机制,以保证可接受的质量水平。考虑到任何人都可以轻松快速地编辑内容的优势,维基百科将用户视为质量的保证者,同时纠正使用时发现的错误。641∗∗∗∗∗ ∗∗∗∗∗∗ ∗∗WWW信息. 此外,考虑到质量,维基百科定义了一套政策和指导方针,由特定部门组织的志愿者团队使用,以分析添加的材料。此外,还有自动持续监控内容的机器人,寻找错误。此外,还有自动和连续监视内容的机器人,寻找错误。维基百科也有一个网络服务ORES [12],通过机器学习预测编辑和文章然而,此工具仅支持有限的维基媒体维基1。维基百科有一个系统2,用于对文章的质量进行分类。维基专题的成员进行质量评估,以确定特定领域信息的质量,并根据预期确定工作的优先级在健康相关领域,维基百科医学专题3负责这项工作。该项目始于2004年,旨在促进医学文章的改进,这是维基医学项目基金会的一部分。 它汇集了专家管理员,以提高与保健有关的信息质量。这个项目定义了维基百科之外的政策。 随着时间的推移,一套工具已经放在一起,以帮助其成员实现目标。维基医学质量量表4的主要等级见表1。表1:医学专题条目质量主要等级级描述评分最高的文章,由独立评审员进行详尽评估。这是一篇文笔优美的文章2.2评估质量的通用指标2010年,Wu et al. [30]使用了28个指标,分为四组:语言-例如,可读性;结构性-例如链接;历史-例如文章年龄和声誉-例如编辑的数量。Li等人[16] De La Robertie et al. [4]基于文章与编辑的关系提出解决方案。2019年,Marrese-Taylor et al. [18]使用基于文章版本的指标,但也考虑每个版本附带的描述。Stvilia等人 [26]定义七个指标:权威性、完整性、复杂性、信息性、一致性、通用性和波动性。这些指标使用了维基百科文章及其历史中的19个特征鉴于这些指标对我们工作的重要性,我们将在以下段落中对其进行描述作者将权威定义为= 0.2 μ m。独特的编辑器+0,2.编辑+0,1连接性+0,3连接性。回复+0.2秒。外部链接+0,1.注册用户编辑+0,2。匿名用户编辑。唯一编辑者的数量是从历史中提取的文章版本中涉及的不同作者的数量连接性对应于通过联合编辑器链接到文章的文章数量。它是通过提取每个arti- cle的编辑和由他们编辑的文章,使用的历史提供的文章这种方法的局限性在于它只能根据数据库中现有的文章进行计算,因此需要一个大的数据集才能可靠。回复对应于根据以下内容对文章的以前版本所做的回复:全面,具有良好的基础研究,观点中立,稳定,遵循风格规范,转移了多媒体元素,并具有适当的编辑历史。外部链接指的是贯穿条目的指向维基百科以外内容的链接。注册或匿名编辑可以制作版本。扩展到其内容。由一名或多名公正的评审员分析的文章公完整性被定义为"根据某些标准,信息对象的模型或内容值的粒度或精度"。书面的,参考的,没有未发表的研究,它有全面覆盖的主题,它是从中立的角度来看,稳定,并说明时方便。由一名或多名公正的评审员分析的文章它是很好的参考,合理地涵盖了主题,没有遗漏B和明显的错误,有明确的结构,写得相当好,包含不适当的多媒体元素,其内容是可以理解的。缺少重要内容或包含许多不相关内容的文章。它引用了可靠的来源,它是结构化的,遵循风格规范,但它缺乏一些通用IS-A本体,如WordNet 它的计算公式为:完整性= 0.4。内部断开的链接+0,4。内部链接+0,2文章长度. 断开的链接是指那些指向当前不可用的页面的链接。内部链接是指指向维基百科其他页面的链接。文章的长度反映了文字的大小。作者将复杂性定义为其公式定义为:复杂度= 0.5“轻松[10]第10话,B级的必要标准。这是一篇不完整的文章,仍在开发中。它金凯德等级水平[13]是使用文本中短语、单词和音节的数量来评估可读性的工具Flesch开始小作品列表可能不包含来自可靠来源的参考资料,可能质量不高,但必须符合维基百科的一般政策。主题的基本描述 它可能写得不好,内容本身有问题,它通常很短,并且有可能不再被认为是一篇文章。符合自治列表的标准主要由列表组成的文章,通常由特定主题领域的文章链接组成。Reading Ease基于0-100的评分范围,分数低表示文本理解复杂。金凯德等级水平评估美国学校的成绩需要理解的文本。它们呈负相关--阅读轻松测试的高分对应着较低的年级水平。“信息性”的定义 其计算为:信息性= 0.6信息噪声-0.6多样性+0.3信息噪声。图像. InfoNoise基于以前的工作[31],并参考了1https://ores-support-checklist.toolforge.org2https://en.wikipedia.org/wiki/Wikipedia:Content_assessment3https://en.wikipedia.org/wiki/Wikipedia:WikiProject_Medicine4https://en.wikipedia.org/wiki/Wikipedia:WikiProject_Medicine/Assessment文章中存在的信息与其总大小之间的比率,其中存在所谓的噪声。它指的是词干提取后信息内容的大小FAGAC642∗∗评估健康相关的维基百科文章的质量与通用和具体指标WWW停止,以及物体多样性对应于一篇文章的独特编辑数量与总编辑数量之间的比率图像的数量是通过在存在的不同媒体对象中的每篇文章中对它们进行计数来获得的。一致性被定义为计算公式为:一致性= 0,6管理员编辑共享+ 0.5年龄。管理员编辑的比率对应于管理员所做的版本占总版本的比例。为了获得更可靠的数据,应考虑所有语文管理员,不论其活动状况如何。项目的期限以天为单位货币对应于最后,波动性被定义为 它对应于内容可见的中位小时数,直到后来的版本恢复它,可以定义为:挥发性=中位恢复时间。2.3保健内容的质量鉴于健康相关主题的重要性以及维基百科在该领域的高使用率,维基百科健康信息的质量 工作已经在几个医学专业进行,如肿瘤学[23],肾脏学[28],神经外科[19]和解剖学[17,27]。作为一个不断发展的科学领域,文章的年龄可以揭示过时的信息 。 这 是 孔 蒂 等 人 的 作 品 中 使 用 的 措 施 之 一 。 [3]Suwannakhan et al. [27]第10段。另一个可以反映文章根据科学最新更新的指标是版本数,由几位作者使用[3,23,27]。可靠性是健康相关信息的另一个基本特征,通常通过文章中引用的数量进行评估[3,23,28]。完整性也被期望从健康相关的信息,并经常通过文章的大小进行评估,例如,字数[3,27]。大量的研究[3,19,23,27,28]认为可读性对理解至关重要一个非常多样化的公众寻求健康相关的信息,从卫生专业人员,在其涵盖的各个领域,以奠定公众或多或少的知识,关于健康主题。当然,外行观众可能难以理解健康领域中通常与较低可读性水平相关的信息[1]。 除了上述章节中提到的用于评估可读性的指标外,还有其他指标,如简单的Gobbledygook指标(SMOG)[14]、Gunning Fog指标[11]、Coleman-Liau指标[2]或自动可读性指标(ARI)[24]。结论各不相同,但一般来说,研究表明维基百科上的信息质量良好,与其他科学认可的来源相当。然而,作者指出,内容的手动分析和一般研究使用更自动的方法。与健康有关的研究人员缺乏技术技能可能是造成这种差异的原因。这两种类型的研究中使用的数据集的大小也因所涉及的自动化水平而异。3方法我们的方法基于五个主要任务,如图1所示。数字标识执行顺序,箭头表示信息流。图1:方法我们首先探索维基百科文章中与健康相关的特征,如第4.1小节所述。然后,我们收集这些文章的内容和获取所需特征所需的元数据。 我们在3.1节中描述了这项任务。 之后,我们分析了第4节所述评估文章的通用和拟定健康特异性特征的质量。在此基础上,我们提出了我们在5.2小节中详细介绍的健康特定指标。最后,我们分析了拟议的健康特定指标的质量相比,通用指标,他们的能力,以评估维基百科健康相关的文章的质量。这些结果见第5.3小节。我们解决以下研究问题:(1) 哪些特定特征可以用来评估维基百科健康相关条目的质量(2) 哪些特征在捕获质量方面最重要(3) 哪些具体指标可以用来评估维基百科健康相关条目的质量(4) 在卫生领域,具体指标是否优于通用指标3.1数据收集为了获得相关和更新文章的数据集,我们收集了前1000个最受欢迎的健康相关页面5。维基医学专题维护这个列表,数据来自Wikimedia Pageview API。 我们预计将包括当前的相关文章,如COVID-19大流行,与此列表。此列表中的文章质量上的一些缺陷,特别是在可读性方面关于方法论,我们注意到,健康特定的研究往往涉及5https://en.wikipedia.org/wiki/Wikipedia:WikiProject_Medicine/Popular_pages643WWW按WikiProject Medicine的质量水平分布如下:FA(2.9%),GA(8.2%),B(42.8%),C(35%),Start(2.5%)。(8.6%),Stub(0.4%)和List(1.4%)。现有的作品[25,26]通常不认为文章被评估为存根,我们遵循了同样的方法。 我们还丢弃了评价为列表(数据集的1.4%)的文章,因为它们的性质和与其余文章的差异。除了按质量对条目进行分类外,维基百科还按重要性对条目进行 它评估条目在每个专题中的优先级。 在维基医学专题中,“重要性评级的目的是将项目的条目改进工作导向最重要的条目,顺便为对医学感兴趣的读者提供一个方便的重要主题的候选名单”6。 在我们的数据集中,文章的重要性被评为:7.2%最高重要性; 25.4%高重要性;43.3%中等重要性; 23.4%低重要性; 0.7%的文章不重要。遵 循 Domingues 和 Teixeira Lopes [6] 的 方 法 , 我 们 使 用MediaWiki API收集文章内容的当前状态及其元数据、修订历史、语言链接、内部wiki链接和外部链接。 通过API无法获得的数据是从文章的标记中获得的。 图像就是一个很好的例子,因为API会返回完整的图像集,包括那些与文章内容无关的图像,比如维基媒体徽标。 从文章的标记中,还可以提取模板、信息框和引用。 一些测量,如可读性分数,“InfoNoise”和文章的长度,需要纯文本。为了实现这一点,我们从文章的内容中删除了所有标记。4质量特征为了回答前两个研究问题,我们提出并分析了健康特定功能,以评估维基百科中与健康相关的文章。 考虑到Stvilia等人提出的指标和各自特征的相关性,[26]为了评估维基百科的内容,在第2.2节中描述,我们决定在这项工作中使用它们作为通用功能。在本节的最后,我们将比较健康领域中的一般和特定功能4.1维基百科健康专题为了确定可用于评估健康相关维基百科文章质量的特定特征,我们分析了来自不同健康和医学领域的几篇文章。我们登记了这些页面的共同的特定元素,并试图了解它们如何有助于质量评估。4.1.1Num. 健康模板。 模板是用于在维基百科上构建信息的元素,允许多个页面重用同一元素。同时,模板使用户能够快速、方便和有组织地访问信息。模板可以包含在维基百科条目的任何区域,并根据其主题进行分类,在模板类别和子类别中。我们只考虑与健康相关的模板。图26https://en.wikipedia.org/wiki/Wikipedia:WikiProject_Medicine/Assessment显示了一个健康相关模板的例子-医学图2:冠状病毒疾病的医疗资源模板2019维基百科页面4.1.2Num. 健康信息框值。信息框是一种特定类型的模板,也是最常见的模板类型之一。 它们通常用于与健康相关的文章。收件箱是一种固定格式的表格,通常位于页面的右上角。这些包含与此相关的文章相关的事实和统计数据,并改善它们之间的导航。信息框还可以包括元数据。它们是一种以简单快速的格式为用户阅读总结重要方面的方法。 图3是一个信息框,也是从2019年冠状病毒病页面中提取的。我们只收集与健康有关的信息框。信息框包含键/值对,每个信息框的键都是预先定义的,每个信息框的值都可以变化。也有可能包括或不包括每个键/值对,因此计数对的数量可以指示开发的程度,因此,文章的质量。在与健康相关的文章中,这些对通常包括疾病的症状、并发症、治疗和药物,或者药物的药代动力学数据。图 3 : Infobox present in Coronavirus disease 2019Wikipedia page4.1.3Num. health infobox images. 图像也可以包含在信息框中,如图3所示。作为一种多媒体元素,图像丰富了向用户提供的内容,在健康等某些主题中具有特别的相关性,例如,它们寻找疾病的迹象,而这些迹象通常是视觉的。 在这种情况下,他们在信息框中的数量,只分类在健康相关的主题中,被计算在内。4.1.4WPM编辑共享。在医学专题中,对成员没有培训要求。尽管如此,他们中的大多数是医生,医学生,护士,科学家和外行人与特定的医学主题的特定兴趣。因此,维基百科医学专题管理员的版本可能是健康相关条目质量的一个指标,可能比他们只是一般维基百科管理员的事实更可靠。我们收集了活动和非活动管理员的列表。随后,我们将此列表与负责编辑的用户列表合并,以确定维基百科医学管理员所做编辑的份额。644评估健康相关的维基百科文章的质量与通用和具体指标WWW4.1.5TF翻译 医疗保健翻译工作组7是由维基医学项目、维基医学项目基金会和无国界翻译者共同创建的。 这是一个基于志愿服务的项目,自2019年以来,在翻译工具的帮助下进行计数。截至2021年初,该网站已将1,900多篇文章翻译成90多种语言。选择要翻译的文章可以是这些文章质量更高的指标。 我们收集了已经由Task Force Translation翻译的文章列表,并将其与我们的数据集进行了对比。4.1.6Num. 医学密码与健康有关的文章的一个特点是与医学分类的链接。医学分类旨在对医学诊断或程序进行疾病和相关健康问题国际统计分类(ICD)就是其中的一个例子收集并计数了每篇文章的代码,这些代码可能存在于不同的模板中,例如图2中的示例维基百科收集了一个可能包含在模板中的代码列表8.4.1.7Num. 著名的左外部链接是评估维基百科信息质量的一个常用指标,以保证信息的可靠性。然而,这些链接的数量本身并不能保证这种可靠性,因为权威性并没有得到保证。因此,我们建议使用信息源的声誉来估计这些链接的可靠性。为了分析这种声誉,我们放弃了美国国家卫生研究院9的卫生与公众服务部我们后来将其与每篇文章的外部链接列表4.1.8Num. 推荐章节 文章长度通常是作者用来评估文章质量的一种方法[3,26,27]。然而,数量并不是质量的同义词为了评估文本的语义质量,通常需要进行手动验证,或者使用工具进行验证 作为一种自动评估语义的方法,尽管是轻微的,同时也是文本的正确结构,我们建议评估文章的不同部分,检查这些部分中的哪些部分在维基百科医学专题指南10的推荐部分列表中。4.2一般特征为了分析哪些通用功能是最重要的捕获质量,我们计算了Stvilia等人使用的功能。[26]在我们的数据库中。由于数据集不遵循正态分布,我们计算了数据集中每个特征然后,我们分析了每个特征与质量水平的相关性。 为了这个目的,我们使用斯皮尔曼等级相关,因为数据是有序的。我们将每个质量级别转换为数值,从1-Start到5-FA。表2显示了每个特征我们将Bonferroni校正应用于p值,以解释多个7https://en.wikipedia.org/wiki/Wikipedia:WikiProject_Medicine/Translation_task_force8 https://en.wikipedia.org/wiki/Template:Medical_resources9https://www.nlm.nih.gov10https://en.wikipedia.org/wiki/Wikipedia:Manual_of_Style/Medicine-相关_文章假设检验并显示统计显著性。我们提出的功能与质量的相关性降序。表2:通用特征的中值及其与质量的中位数相关性p值Num. Reg. 编辑1115.00.53<2.2e-16**Num. 编辑1729.00.52<2.2e-16**连接131.50.50<2.2e-16**Num. 独特的编辑802.00.49<2.2e-16**Num.分机链接141.00.49<2.2e-16**Num. Anon. 编辑550.50.47<2.2e-16**Num. 恢复148.50.47<2.2e-16**制品长度24291.50.43<2.2e-16**年龄6726.50.38<2.2e-16**Num. 图像13.00.37<2.2e-16**多样性0.5-0.32<2.2e-16**管理共享0.20.31<2.2e-16**Num.内链节388.00.29<2.2e-16**中位版本时间11.0-0.28<2.2e-16**金凯德17.5-0.258.473e-15**Flesch27.00.207.241e-10**Num.断开的链接1.00.132.471e-5**InfoNoise0.880.135.989e-5*货币6.0-0.040.21* 显著性水平p2.6e-3,** 显著性水平p5.3e-5。(Bonferroni校正自p=0.05和p =0.001,19次检验)从表2中给出的值,我们得出结论,相关性值从货币特征的可忽略相关性-0.04变化到注册用户编辑次数的中等相关性(0.53)。为了描述相关性值的强度,我们采用Prion和Haer-ling [22]使用的尺度和术语。除货币外的所有特征的相关性值均显著不同于0。 其中,除InfoNoise外的所有数据均显著,p=0.001。正如预期的那样,金凯德年级水平和多样性有负相关,因为它们是减法对。货币和中值回复时间也具有负相关性,因为较低的值应该对应于较高的质量。与货币功能相关的结果可能与我们正在处理浏览量最高的文章的事实有关,中位数为6天。 注意,在Stvilia et al. [25]具有等级水平FA的文章的中位数为3天,而一组随机文章的中位数为46天。从中位值的角度分析,可以看出《红楼梦》的一些特殊性,如登记版在总版数中所占比例较高。另一个值得一提的特殊性是唯一编辑器的数量。 Stvilia等人 [25]计算了FA等级水平集的108个唯一编辑器的中位数,而随机集只有5个;在我们的数据集中,我们计算了802个唯一编辑器的中位数。4.3健康特有特征分析为了研究第4.1节中提出的特定特征在捕获质量方面的重要性,我们进行了与第4.2节中描述的分析类似的分析,计算每个特征的中位数及其与质量的斯皮尔曼相关性。结果如表3所示,按相关性降序排列此外,委员会认为,645复杂性WWW我们通过评估水平对每个特征的分布进行了分析这些分布以箱形图的形式显示在图4中,其中“X”表示平均值。表3:特定特征的中值及其与质量的每个度量与其特征之间的相关性,以确定每个特征 表4显示了按度量组织的特征,以及在零假设相关性为零的标准检验中获得的相关性值和p值。表4:指标与其特征中位数相关性p值Ricrity* 显著性水平p6.3e-3,** 显著性水平p1.3e-4。(Bonferroni校正自p=0.05和p =0.001,8次检验)相关性分析表明,这些值相对均匀,从最小的0.19(信息框图像数量)到最大的0.52(知名图像数量)不等。文章长度1.00<2.2e-16**Num. 内部链接0.31<2.2e-16**Num. 断链0.02 0.49Flesch1.00<2.2e-16**金凯德-0.95<2. 2 e-16**Num. 图像1.00<2.2e-16**完整性链接,意味着适度的相关性。 知名链接的数量具有与第二最相关的特征(num. 编辑),如表2所述。请注意,翻译和医学代码的中位数为0,因为大多数文章不在翻译的考虑列表中,并且没有医学代码。所有要素都具有相关性值多样性-0.27< 2. 2 e-16**信息含量InfoNoise0.081.1e-2*年龄1.00<2.2e-16**一致性管理共享0.177.31e-8**货币1.00<2.2e-16** 货币在p=0.001时与0显著不同箱形图允许更仔细地查看质量水平的差异一般来说,箱形图中显示的平均值往往会随着质量的提高而降低。这种情况有时会发生,就像WPM编辑共享的情况一样,在前两个级别之间-FA和GA。这可能表明这两类物品非常相似,因此很难区分。另一方面,我们可以注意到这样一个事实,即质量的最后一个级别-开始- 是一个通常区别于其他人。 在箱形图的分析中,其中两个与其余的不同,与其他有关。 健康信息框图像和TF翻译。第一种情况是由于值的微小变化-从零到两个图像的最大值,第二种情况是由变量的二进制性质引起的-如果转换为1,如果不转换为0。在这些情况下,图中表示的平均值提供了更清晰的趋势图像。我们可以看到,在最后两个级别C和Start中存在很大差异-关于这些方面,影响这些结果。5健康特定指标的建议我们提出了具体的指标,可用于评估与健康相关的维基百科文章的质量,后来,我们评估了它们,并将其与Stvilia等人提出的通用指标进行了比较。[26]在卫生领域。5.1Stvilia等人提出的通用度量的特征重要性。[26]根据第2.2节中列出的公式计算。 我们计算了皮尔逊系数* 各自的显著性水平:p[7.1e-3,1.6e-2,2.5e-2,1.6e-2,2.5e-2,5e-2,5e-2],** 各自的显著性水平p[1.4e-4,3.3e-4,5e-4,3.3e-4,5e-4,1e-3,1 e-3]。(Bonferroni校正自p=0.05和p=0.001,[7,3,2,3,2,1,1]各自的测试)我们可以在相关值中看到显著的异质性存在具有非常强的相关性的特征,包括值1,显示对度量最终值的高贡献 在这些强相关性中,只有回复时间中位数与波动率的相关性与0无显著差异。另一方面,存在可忽略的相关性,例如断开链接的数量(0.02)和InfoNoise(0.08)。 第一个与0无显著差异,但在p值为0.05时,InfoNoise与0有显著差异。一致性代表了一个值得注意的情况,因为两个构成特征实现了不同的结果;年龄特征具有非常强的相关性(1),而管理员份额具有可忽略的0.17值。 对于货币和波动性,特征的值为1,可能受到只有一个特征的影响。然而,恢复时间的中位数与波动性的相关性并没有显着不同0。5.2特定于健康的指标为了提出可用于评估健康相关维基百科文章质量的具体指标,我们采用了Stvilia[26]的通用指标,添加或替换功能。在确定各特征我们还考虑了每个通用度量中包含的特征的权重,并根据以下公式分配了每个建议的特征权重:Num. 知名链接460.52<2.2e-16**相关性P值符合Num. rec. 部分50.40<2.2e-16**Num. 编辑0.99<2.2e-16**TF翻译00.32<2.2e-16**Num. Un. 编辑0.95<2.2e-16**WPM编辑共享0.050.251.9e-15**Num. Reg. 编辑0.93<2.2e-16**Num.健康模板30.234.2e-13**Num. Anon. 编辑0.92<2.2e-16** AuthoNum. 医典00.231.1e-12**Num. 恢复0.89<2.2e-16**Num. 健康资讯值80.218.2e-11**Num.分机链接0.60<2.2e-16**Num.健康资讯图像10.199.6e-10**连接0.28<2.2e-16**中位版本时间1.005.3e-2波动646评估健康相关的维基百科文章的质量与通用和具体指标WWW图4:按质量水平分列的健康特定特征分布计算的中值,使得该度量的最终结果与现有的值的范围相同例如,管理员的编辑共享的中值为0.2,权重为0.6;替换WPM编辑共享的中值较低-0.05,因此权重提高到1.9。这些价值观也受益于一个健康专业人士的意见-这项工作的作者之一-护士。复杂性,货币和波动性保持不变,因为没有一个拟议的功能属于这些指标。再-建议如下:健康权威= 0.2千克。Unique Editors +0,2位编辑。编辑+0.1兆连接+0.3兆。回复+0.6秒。推荐链接+0.1秒。注册用户编辑+0,2评论。匿名用户编辑+200转TF翻译HealthCompleteness= 0,4。内部断开链接+0,4编辑共享已被WPM编辑共享取代,代表健康相关的管理员。5.3评价为了评估特定的指标并将其与健康领域的通用指标进行比较,我们计算了这两种类型的指标与维基百科在每个分析维度(权威性,完整性,信息性和一致性)的质量水平的相关性。我们还进行了统计检验,以比较每个维度的两种相关性[5]。与比较相关的相关值和p值见表5。表5:通用和特定指标与质量的相关性好吧 内部链接+0,2千文章长度+970千。建议-已修改的章节+4850页。医典健康信息性= 0.6信息噪声-0.6多样性+0.3好吧图片+图片。Health Infobox Values + Health InfoboxImages+0,08图片.健康模板健康一致性=1,9WPM编辑共享+ 0,5年龄我们在HealthAuthority中添加了翻译的TF,因为工作组选择翻译可能会加强该文章的权威性。声誉链接取代了外部链接,以通过其在健康领域的声誉来过滤外部链接 在HealthCompleteness中,我们增加了推荐章节的数量和医疗代码的数量,因为这两个特征可能表明信息的满意程度。在HealthInformativity中,我们添加了与健康相关的信息框中的图像和值的数量以及医疗模板的数量,因为它解决了文章中的信息量。对于HealthConsistency,管理员通用特定p值(卫生)权威0.430.46 0**(健康)完整性(健康)信息性(健康)一致性0.30 0.30 1.0* 显著性水平p0.05,** 显著性水平p0.001。从 表 格 显 示 最 轻 微 改 善 ( 四 舍 五 入 为 零 ) 的 指 标 是HealthConsistency。这一结果很可能与以下事实有关:已更改的功能的权重-WPM编辑份额-在公式的总数中太微不足道,如第4.2节所述。 在另一个极端,健康信息,代表了一个非常显着的改进,揭示了模板及其特征在评估维基百科条目质量方面的重要性。结果表明,在健康领域的具体指标可以优于通用指标647WWW6结论我们描述了一个正在进行的工作,在健康领域的质量指标为了回答我们的第一个研究问题,我们探索了哪些特定功能可以用来评估与健康相关的维基百科文章的质量。 在这方面,我们提出了八个特征:健康模板的数量,健康信息框值的数量,健康信息框图像的数量,WikiProject Medicine编辑共享,Task Forcetranslated articles,医学代码的数量,知名链接的数量和推荐部分的数量。在此之后,我们分析了哪些功能在捕获质量中最重要,这是我们的第二个研究问题。 我们的结论是,注册用户的版本数,连接性和总版本是评估文章质量的三大通用特征。这些位置由知名链接的数量、推荐章节和工作组翻译的文章占据,用于特定功能。基于这一分析,我们探索了哪些具体的指标可以用来评估维基百科上与健康相关的文章的质量。 在通用度量的基础上,我们提出了四个度量:健康完整性、健康完整性、健康信息性和健康一致性.最后,我们评估了所提出的指标,并将它们与通用指标进行了比较。 我们的结论是,有可能提高维基百科上的医学文章的质量评估使用特定的指标。 HealthInformativity和HealthAuthority代表了两项统计上的重大改进。更深入的分析可能会导致对拟议指标的调整,包括新功能或为功能分配不同的权重。在未来的工作中,我们计划使用这里提出的健康特定特征和指标来自动分类健康领域中维基百科文章的质量。引用[1] H. Antunes和C.T. 洛佩斯2019年。网页内容的可读性2019年第14届伊比利亚信息系统和技术会议(CISTI)。一比四http://doi.org/10.23919/CISTI.2019.8760889[2] Meri Coleman和T.廖一九七五年一个为机器评分设计的计算机可读公式。Journal of Applied Psychology60(04 1975),283http://doi.org/10.1037/h0076540[3] Riccardo Conti,Emanuel Marzini,Angelo Spognardi,Ilaria Matteucci,Paolo Mori,and Marinella Petrocchi.2014年。维基百科医学条目的成熟度评估 Proceedings-IEEE Symposium on Computer-Based Medical Systems(2014),281-286。https://doi.org/10.1109/CBMS.2014.69[4] Baptiste de La Robertie,Yoann Pitarch和Olivier Teste。2015年。使用协作网络衡量维基百科的条目质量。 Proceedings of the 2015 IEEE/ACM InternationalConference on Advances in 社 交 网 络 Analysis andMining , ASONAM 2015(2015),464-471. https://doi.org/10.1145/2808797.2808895[5] Birk Diedenhofen和Jochen Musch。2015年。cocor:相关性统计比较的综合解决方案PLoSONE10(042015),e0121945。https://doi.org/10.1371/journal.pone.0121945[6] 吉尔·多明格斯和卡拉·特谢拉·洛佩斯2019年。 描述和比较葡萄牙语和英语维基百科医学相关的文章。Web Conference2019-Companion of the World Wide WebConference,WWW2019(2019),1203-1207。https://doi.org/10.1145/3308560.3316758[7] ^Wikipedia.org. [n.d.]. Wikipedia:使用维基百科进行研究。2021年1月26日检索自https://en.wikipedia.org/wiki/Wikipedia:Researching_with_Wikipedia[8] En.Wikipedia.org. [n.d.]。 Wikipedia : 维 基 百 科 的2021 年1月26 日 检 索 自https://wp1.openzim.org/#/project/Medicine/articles[9] En.Wikipedia.org. [n.d.]。 Wikipedia : 维 基 百 科 的2021 年1月26 日 检 索 自https://en.wikipedia.org/wiki/Wikipedia:Size_of_Wikipedia[10] R·弗莱舍。一九四八年一个新的可读性标准。应用心理学杂志32,3(June 1948),221-233.https://doi.org/10.1037/h0057532[11] R. 开枪2021年清晰写作的技巧(022021年)。[12] 亚伦·哈法克和R·斯图尔特·盖格。2019.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功