没有合适的资源?快使用搜索试试~ 我知道了~
18010Wikidata中的属性标签稳定性0协作知识库中模式的演变和收敛0Thomas Pellissier Tanon �0LTCI,TélécomParisTech巴黎,法国ttanon@enst.fr0Lucie-Aimée Kaffee �0南安普敦大学,南安普敦,英国kaffee@soton.ac.uk0摘要0Wikidata的模式稳定性对于其数据的重用至关重要。在本文中,我们通过分析六种语言中属性标签的变化来分析数据的稳定性。我们发现模式总体上是稳定的,使其成为可靠的外部资源。0ACM参考格式:Thomas Pellissier Tanon和Lucie-AiméeKaffee。2018年。Wikidata中的属性标签稳定性:协作知识库中模式的演变和收敛。在WWW '18Companion:2018年Web会议伴侣,2018年4月23日至27日,法国里昂。ACM,纽约,美国,3页。https://doi.org/10.1145/3184558.319164301 引言0Wikidata[10]最初是作为维基百科信息的中央存储而创建的,已经发展成为广泛使用的开放知识库。它已成为大规模链接数据的来源。不仅在维基媒体宇宙内,而且在维基媒体宇宙之外,其链接数据也被使用。Wikidata中的所有数据都是由用户社区的贡献汇集而成的,没有像政府开放数据[8]或从第三方(例如YAGO[9])中提取的集中过程。Wikidata中的所有数据都是由志愿者贡献的,包括其模式。我们将Wikidata的模式定义为三元组中给出结构的属性部分。Wikidata的三元组通常包含两个项目和连接它们的属性,例如 ,其中是属性。知识库(KB)可靠性的主要因素之一是其模式。如果模式稳定,数据对第三方来说容易重用,知识库也变得有吸引力,可以进行重用和进一步编辑。Wikidata的模式不受软件等限制,可以根据社区的需求进行调整。在本文中,我们想要调查协作模式的可持续性。因此,我们量化属性更改的方式。这不仅让我们了解现在是否有效,还让我们了解在未来5年内假设模式仍然可用是否合理。我们在调查中重点关注标签。Wikidata中的URI是不透明的,因为它们的功能与标签的功能不同[5]。这意味着,每个实体都由一个唯一标识符表示,该标识符与标签的功能不同。例如,项目AdaLovelace的ID是Q7259,属性capital的ID是P36。标签用于描述实体的内容,由这样一个不透明的URI标识。例如,属性P31在英语中的标签是“instanceof”,在法语中的标签是“nature del'élément”。标签不仅是人类访问数据的入口[2],而且通常也是第三方应用程序重用数据的方式。例如,问答系统[1,3]或本体建模[6]依赖于实体的自然语言描述。量化模式标签的稳定性给我们留下了一个印象,即Wikidata数据在长期时间上的可重用性有多现实。Wikidata本质上是多语言的。这意味着编辑者在400多种语言中添加标签。然而,不同语言的标签覆盖范围差异巨大[4]。这可以归因于不同社区的规模不同。然而,在所有语言中,属性的稳定性都是一个重要因素。因此,我们在我们的分析中包括五种语言:英语(en),法语(fr),德语(de),荷兰语(nl),阿拉伯语(ar)和约鲁巴语(yo)。如图所示0� 两位作者对本文做出了相同的贡献0本论文发表在知识共享署名4.0国际许可证(CC BY4.0)下。作者保留在个人和公司网站上传播作品的权利,并附上适当的归属。WWW '18Companion,2018年4月23日至27日,法国里昂,© 2018IW3C2(国际万维网会议委员会),根据知识共享CC BY 4.0许可证发布。ACM ISBN978-1-4503-5640-4/18/04。https://doi.org/10.1145/3184558.31916430不会对实体描述的概念提出任何建议。例如,项目AdaLovelace被标识为ID Q7259,属性capital被标识为IDP36。标签用于描述实体的内容,由这样一个不透明的URI标识。例如,属性P31在英语中的标签是“instanceof”,在法语中的标签是“nature del'élément”。标签不仅是人类访问数据的入口[2],而且通常也是第三方应用程序重用数据的方式。例如,问答系统[1,3]或本体建模[6]依赖于实体的自然语言描述。量化模式标签的稳定性给我们留下了一个印象,即Wikidata数据在长期时间上的可重用性有多现实。Wikidata本质上是多语言的。这意味着编辑者在400多种语言中添加标签。然而,不同语言的标签覆盖范围差异巨大[4]。这可以归因于不同社区的规模不同。然而,在所有语言中,属性的稳定性都是一个重要因素。因此,我们在我们的分析中包括五种语言:英语(en),法语(fr),德语(de),荷兰语(nl),阿拉伯语(ar)和约鲁巴语(yo)。如图所示0WD标签 WP页面 说话者0英语 14,867,057 5,559,376 365法语 8,104,878 1,951,294 75 德语6,842,263 2,147,568 92 荷兰语8,710,608 1,922,135 21 阿拉伯语829,672 556,464 280 约鲁巴语39,389 31,608 280表1:维基数据标签(WD)、维基百科文章(WP)和2007年的母语使用者的语言统计数据(以百万为单位)0表1中,这些语言在所涵盖的语言信息和母语使用者方面大小不一。鉴于维基百科和维基数据及其编辑者之间的密切联系[7],我们包括维基百科的规模以了解社区规模。我们得出结论,除了可能存在的知识库协作编辑的担忧外,其模式可以是稳定和可靠的。我们的结论基于我们对维基数据的例子。在所调查的六种语言的不同覆盖范围下,这一假设得到了支持。02 方法0追踪:Wiki Workshop WWW 2018,2018年4月23日至27日,法国里昂history of Wikidata for each property. For each revision we retrievethe labels and aliases of the property at this revision and the times-tamp of the revision. Based on this data we can display timelinesof changes in the property label1. We analyze the property labelchanges in four different metrics to get a comprehensive overviewon the stability of the schema in Wikidata.We define Lifetime as the time a property has the same label asthe current one over the time this property existed.The metric Shared Labels measures how many properties sharea label with any other property, making a lookup based on name achallenging task.Stability describes the probability, that a label of a propertypicked at a randomly chosen (with uniform distribution) point intime where such label exists will still be this property label or analias now. In Wikidata, an alias is an alternative label to the mainlabel of an entity, indicated by the property skos:altLabel. Theintuition is that moving a label to the alias, the property is stilldiscoverable by the same name. There might just happen slightchanges to the actual label, while the concept the property refersto stays the same.Furthermore, we measure Quick Changes. As editing of labels isopen for any user2, registered or anonymously, non-usable editingoccurs. To count these edits, vandalism or good faith errors, wecomputed the number of quick changes.We define quick changes as labels that stayed less than a week.Not included in this definition are changes at the beginning of theproperty life, when often the property semantic is still discussed.A change is only quick change if there has been a label beforewhich stayed more than a week without being changed earlier inthe property life.18020英语 法语 德语 荷兰语 阿拉伯语 约鲁巴语0属性 3982 3910 2976 3710 3287 148 存在性 1 0.97 0.94 0.960.31 0.20 生命周期 0.89 0.88 0.88 0.87 0.29 0.20 稳定性 0.96 0.940.96 0.92 0.97 0.99 变化次数 2.38 1.50 1.47 1.43 1.17 1.28主要变化次数 1.77 1.41 1.37 1.38 1.14 1.25 快速变化次数 0.3670.063 0.067 0.031 0.020 0.027 快速变化持续时间(以小时计)1.79 0.94 1.12 0.89 1.48 0.00090表2:针对每种语言进行的分析结果。属性(具有标签的属性数量),存在性(存在标签的时间跨度的平均比率),生命周期(最后一个标签的平均存在时间),稳定性(仍然存在的主要值的比率,按持续时间加权),变化次数(平均变化次数),主要变化次数(平均主要变化次数),快速变化次数(平均快速变化的持续时间,以小时计)。301类似于https://thomas.pellissier-tanon.fr/wikidata/labels-timeline.html上提供的一个。2只有20个属性的编辑受限于注册用户:https://quarry.wmflabs.org/query/24202(查询于2018年1月17日执行)。03 结果和讨论0我们对六种不同语言的属性标签进行了对模式稳定性的分析。0生命周期。当前的英语标签平均占据了属性生命周期的87%。对于德语和法语,这个数字为88%,对于荷兰语为86%。属性标签也很少发生重大变化。相比于“大”语言(英语的平均值为1.77),“中等”或“小”语言(阿拉伯语的平均值为1.14)的这个数字会下降,这表明一旦设置了属性标签,它就不太可能改变。这个趋势在拥有较小社区的语言中更为明显,可能是由于该语言的编辑者数量较少。阿拉伯语和约鲁巴语标签的生命周期较短,可能是因为它们的大部分标签相对较新,与已建立的语言相比。当我们将这些度量标准除以属性的生命周期时,它们会受到不利影响。例如,平均而言,属性只有在其生命周期的31%时间内具有阿拉伯语标签,这表明相比于德语或法语,阿拉伯语的添加更为近期(见表2中的存在度量标准)。0共享标签。在英语中,没有属性与其他属性共享标签(参见http://tinyurl.com/yazxc5xq)。然而,有66个属性的英语标签是其他属性的别名(参见http://tinyurl.com/yawtoudt)。0稳定性。对于英语而言,稳定性的概率为96%,对于这里分析的所有语言而言,概率都高于90%。这意味着,通过在任何时间点使用的标签查找属性,很有可能在当前的Wikidata状态中找到属性ID。这是在假设之下的,即以前用于属性PX的标签现在不太可能用于属性PY。这个假设得到了“共享标签”指标的结果的支持。0快速更改。标签的破坏行为非常低。在英语中,平均每个属性的快速更改次数(即在不到一周内跟随其他更改的标签更改)为0.36次。语言社区越小,这个数字越低。它们相对较快地被发现并相应地进行更改,如表2所示。这使我们得出结论,破坏行为即使在像Wikidata这样的协作和开放贡献的知识库中也是一个次要因素,与语言无关。04 结论0我们对Wikidata的模式进行了六种语言的标签稳定性分析。总体而言,结果非常有希望。模式是稳定的,因此易于重复使用。属性的标签很少更改,也不会在不同的属性之间共享,使得基于名称的查找变得容易。这使得Wikidata成为一个多语言的稳定模式来源,可以在各种应用中重复使用。0致谢0这项研究部分得到了ANR-16-CE23-0007-01(“DICOS”)和Horizon 2020 Marie Skłodowska-Curie资助协议No.642795(WDAqua ITN)的支持。0跟踪:Wiki Workshop WWW 2018,2018年4月23日至27日,法国里昂18030参考文献0[1] Dennis Diefenbach, Vanessa Lopez, Kamal Singh, and Pierre Maret. 2017.知识库问答系统的核心技术:一项调查。知识与信息系统(2017),1-41。https://doi.org/10.1007/s10115-017-1100-y [2] Basil Ell, Denny Vrandecic, and Elena PaslaruBontas Simperl. 2011.数据网络中的标签。第10届国际语义网会议,ISWC,第I部分。162-176。https://doi.org/10.1007/978-3-642-25073-6_11 [3] Konrad Höffner, Sebastian Walter, EdgardMarx, Ricardo Usbeck, Jens Lehmann, and Axel-Cyrille Ngonga Ngomo. 2017.语义网问答挑战调查。语义网8,6(2017),895-920。https://doi.org/10.3233/SW-160247 [4] Lucie-Aimée Kaffee, Alessandro Piscopo, PavlosVougiouklis, Elena Simperl, Leslie Carr, and Lydia Pintscher. 2017.对Babel的一瞥:Wikidata中的多语言分析。第13届开放协作国际研讨会,OpenSym。14:1-14:5。https://doi.org/10.1145/3125433.3125465 [5] Elena Montiel-Ponsoda,Daniel Vila-Suero, Boris Villazón-Terrazas, Gordon Dun- sire, Elena EscolanoRodriguez, and Asunción Gómez-Pérez. 2011.多语言Web中命名和标记本体的样式指南。会议论文集02011年国际都柏林核心和元数据应用会议, DC . 105–115. [6] Silvio Peroni, David M.Shotton, and Fabio Vitali. 2013. 用于本体文档自动生成的工具: 基于任务的评估.语义Web信息系统国际期刊 9, 1 (2013), 21–44.https://doi.org/10.4018/jswis.2013010102 [7] Alessandro Piscopo, Chris Phethean,and Elena Simperl. 2017. 什么构成了一个好的协作知识图谱:维基数据中的群组组成和质量. 在 社会信息学 - 第9届国际会议, SocInfo, 第I部分 . 305–322. https://doi.org/10.1007/978-3-319-67217-5_19 [8] Nigel Shadbolt, KieronO’Hara, Tim Berners-Lee, Nicholas Gibbins, Hugh Glaser, Wendy Hall, and m. c.schraefel. 2012. 开放链接政府数据: 来自Data.gov.uk的经验教训. IEEE智能系统 27, 3(2012), 16–24. https://doi.org/10. 1109/MIS.2012.23 [9] Fabian M. Suchanek, GjergjiKasneci, and Gerhard Weikum. 2007. Yago: 一个语义知识的核心. 在第16届国际万维网会议, WWW . 697–706. https://doi.org/10.1145/1242572.1242667[10] Denny Vrandecic and Markus Krötzsch. 2014. 维基数据: 一个免费的协作知识库.通信ACM 57, 10 (2014), 78–85. https://doi.org/10.1145/ 26294890追踪: Wiki Workshop WWW 2018, 2018年4月23日至27日, 法国里昂
下载后可阅读完整内容,剩余1页未读,立即下载
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![gz](https://img-home.csdnimg.cn/images/20210720083447.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://profile-avatar.csdnimg.cn/default.jpg!1)
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
我的内容管理 收起
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助
![](https://csdnimg.cn/release/wenkucmsfe/public/img/voice.245cc511.png)
会员权益专享
最新资源
- BSC绩效考核指标汇总 (2).docx
- BSC资料.pdf
- BSC绩效考核指标汇总 (3).pdf
- C5000W常见问题解决方案.docx
- BSC概念 (2).pdf
- ESP8266智能家居.docx
- ESP8266智能家居.pdf
- BSC概念 HR猫猫.docx
- C5000W常见问题解决方案.pdf
- BSC模板:关键绩效指标示例(财务、客户、内部运营、学习成长四个方面).docx
- BSC概念.docx
- BSC模板:关键绩效指标示例(财务、客户、内部运营、学习成长四个方面).pdf
- BSC概念.pdf
- 各种智能算法的总结汇总.docx
- BSC概念 HR猫猫.pdf
- bsc概念hr猫猫.pdf
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
![](https://img-home.csdnimg.cn/images/20220527035711.png)
![](https://img-home.csdnimg.cn/images/20220527035711.png)
![](https://img-home.csdnimg.cn/images/20220527035111.png)
安全验证
文档复制为VIP权益,开通VIP直接复制
![](https://csdnimg.cn/release/wenkucmsfe/public/img/green-success.6a4acb44.png)