维基百科文章类别的轻量级检测方法

96 浏览量更新于2023-10-16 收藏 12.94MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12670在百科全书中找到一根草堆中的针：检测维基百科文章中的类别0Marius Paşca GoogleMountain View,Californiamars@google.com0摘要0一种轻量级方法可以区分维基百科中的类别文章（“小说”，“书”）和其他文章（“三个男人在一条船上”，“朝圣日记”）。它利用了维基百科中的文章文本和与文章相关的类别中可用的线索，同时不需要任何语言预处理工具，如词性标注器，命名实体识别器或句法解析器。实验结果表明，可以在多种语言的维基百科文章中识别出类别，其总体精确度和召回率通常分别高于0.9和0.6。0CCS概念0•信息系统→内容分析和特征选择；•计算方法→信息提取；词汇语义学；0关键词0知识获取，概念，类别，非结构化文本，主题分类，开放领域信息提取0ACM参考格式：MariusPaşca。2018。在百科全书中找到一根草堆中的针：检测维基百科文章中的类别。在WWW2018：2018年Web会议上，2018年4月23日至27日，法国里昂。ACM，纽约，纽约，美国，10页。https：/ /doi.org/10.1145/3178876.318602501 引言0动机：概念是开放领域人类知识资源中的构建块，从词典（WordNet[10]）到半结构化百科全书（维基百科[26]）再到结构化知识库（Freebase[4]）。概念可以是实例或类。后者（“国际机场”）实际上是一组共享共同属性的实例（“戴高乐机场”，“仁川国际机场”）的占位符。实例和类在逻辑上属于包含IsA关系的概念层次结构，该关系将实例（“戴高乐机场”）向上连接到类（“国际机场”），而后者又向上连接到迭代更一般的类（“机场”）。概念层次结构可以明确可用（例如，WordNet中的上位词关系）或不可用0本文根据知识共享署名-非商业性-禁止演绎4.0国际（CC BY-NC-ND4.0）许可证发表。作者保留在个人和公司网站上传播作品的权利，并附上适当的归属。WWW 2018，2018年4月23日至27日，法国里昂©2018IW3C2（国际万维网会议委员会），根据知识共享CC BY-NC-ND 4.0许可证发表。ACMISBN 978-1-4503-5639-8/18/04。https://doi.org/10.1145/3178876.31860250（例如，维基百科）。WordNet通过将实例与更一般的概念通过实例而不是上位词关系[18]链接起来来区分概念，伴随着这样的假设：通过上位词关系链接起来的任何概念都是类，而任何其他概念的上位词也都是类。维基百科不区分类别文章和其他文章。旨在将维基百科中的类别[22，23]和文章[11]组织成概念层次结构的研究努力隐含地区分了在层次结构中连接到更具体概念的任何文章作为类。但这些断言是隐含的而不是明确的。更重要的是，它们的质量受到形成提取的层次结构的IsA关系的质量的限制。实际上，错误提取的IsA关系（例如IsA（“Sur Kamod”，“Sur（杂志）”）和IsA（“JackMurnighan”，“NickTuzzolino”））导致类似的错误隐含断言，即相应的更一般的概念（“Sur（杂志）”，“NickTuzzolino”）是类。贡献：本文提出了一种自动识别维基百科中的类别文章子集的方法。识别类别对维基百科以及由此派生的其他存储库（包括DBpedia [1]，Yago [14]，Wikidata [32]，Freebase[4]，Knowledge Graph [29]或Concept Graph[35]）以及在维基百科数据上操作的信息提取技术具有益处。该方法利用了文章文本中和维基百科中与文章相关的类别中可用的线索。它不需要语言预处理工具，如词性标注器，命名实体识别器，句法或语义解析器等，因此具有鲁棒性，廉价且简单易于移植到其他语言。实验结果表明，可以在多种语言的维基百科文章中识别出类别，其总体精确度和召回率通常分别高于0.9和0.6。02 相关工作0类别与实例的可用性：由少数专家开发，WordNet通过手动将实例概念（synsets）通过（Instance）关系与更一般的概念连接起来，而不是通过通用的上位词关系来区分类别。通过上位词关系而不是（Instance）关系连接起来的WordNet概念也是类别，就像是其他概念的上位词也是类别一样。同样由专家创建，这次是通过多年的人力努力[16]，Cyc区分个体或实例和集合或类别。由于维护和添加概念的困难和成本，Cyc的人力投入巨大。0跟踪：Web内容分析、语义和知识 WWW 2018年4月23日至27日，法国里昂12680承诺仍然无法转化为足够的概念覆盖范围：即使考虑到实例和类，只有数千个Cyc概念等同于任何维基百科文章[37]。相比之下，非专家人类编辑者的协作贡献使维基百科更容易扩展。维基百科不区分类别文章。它将文章组织成细粒度的类别，这些类别又组织成迭代粗粒度的类别。但是，仅仅将维基百科类别收集为类别远非是解决在维基百科中识别类别问题的充分解决方案，原因有几个。首先，维基百科类别通常不对应类别（“Category: U2”，“Category: Dublin(city)”）。其次，许多看似对应有用类别的类别（“Category: Irishalternative rockgroups”）没有相应的同名文章。第三，没有相应的文章，维基百科类别几乎没有用处。事实上，从维基百科衍生的资源[4，29]试图包含与大多数维基百科文章等效的概念，但不包括类别；当维基百科作为参考资源时，例如在概念消歧和链接[2，6，12，21，25]中，文本中出现的概念提及被消歧为相应的维基百科文章，而不是任何类别。其他更大的知识库，包括维基百科的衍生品，也不区分类别。提取类别与实例：很少有先前的方法，具体是[37]和[20]，解决了在维基百科中区分类别的问题。它们需要访问词性标注器和句法分析器的一部分，还需要命名实体识别器，严重依赖于单词的大写形式，并且仅适用于英文数据。相比之下，我们的方法避免使用大写形式，并且不需要访问任何语言处理工具。它更加稳健，成本更低，并且可以生成多种语言的类别。[37]中的方法在维基百科类别上操作，并要求它们已经被组织成IsA关系的概念层次结构。虽然存在一些提取维基百科类别层次结构的方法[11，22，23]，但这个要求不仅是一个非平凡的先决条件，而且还使得结果中的类别提取受到已经影响输入类别层次结构的额外噪声的影响。由于大多数维基百科类别既不对应类别，也没有相应的维基百科文章，所以生成的注释相对没有太多用处。相比之下，作为我们方法输入的维基百科文章不需要预过滤或预组织到中间结构中。开放领域信息提取：通过对开放领域概念（维基百科文章）进行断言，所提出的方法属于开放领域信息提取的更大范畴[8，9，14，17]。在这个范畴中，先前的工作提出了在维基百科数据上操作的提取方法[8，14，31，33，34]；或者说明了维基百科在知识获取[14，19，34，36]、信息检索[5，15，27]和结构化知识库构建[1，14，32，35]中的作用。03 找到类别主题0问题定义：所要解决的任务是获取（即选择）一部分维基百科文章，这些文章是类别。获取相当于为维基百科文章附加注释，只要它们是类别。0直觉：类别是一组共享共同属性的实例的占位符。由于维基百科是一部百科全书，假设其文章满足以下假设。假设1a：关于类别的文章很可能会明确提及类别，因为它至少介绍了一些，如果不是全部，定义属性。假设2a：与类别的定义相关的属性很可能在文章中与类别的提及一起引入，这些提及要么是对其实例集的引用，要么是对实例集的通用实例的引用。这些假设可以进一步具体化为：假设1b：作为类别属性的介绍，关于类别的文章很可能以类别以单数形式出现，并在不定冠词之前。假设2b：关于（或对）类别的文章很可能以单数和复数形式提及类别。这两个具体假设适用于名词在单数和复数形式上有所不同，并接受不定或定冠词的语言。这适用于超过6000种已知语言中的200多种语言[7]，包括罗曼语和日耳曼语，其中包括英语。这些语言在当前维基百科的288种语言版本中得到很好的代表，其中包括宿务语、俄语或日语等其他语言。根据第一个假设，在文章“Inn”和“Steel building”的文本中出现“aninn”或“a steelbuilding”表明这些文章是类别。在第二个假设中，“inn”与“inns”，以及“steel building”与“steelbuildings”的存在也表明这是类别。在这两个假设中，文章的标题很可能是可数名词。目标证据类型：根据上述两个假设，判断维基百科文章是否是类别依赖于文章中或与文章相关的三种证据类型：词汇模式（Lex）：如果文章中的任何句子片段与以下模式之一匹配（不区分大小写），每个模式都针对特定语言的文章，则该文章是类别：（英文）：[a | an] T [was | is]（葡萄牙文）：[um| uma] T [foi | é]（法文）：[un | une] T [était | est]（德文）：[ein | eine] T[war | ist]（西班牙文）：[un | una] T [fue | es]（瑞典文）：[en | ett] T [war| är]（意大利文）：[uno | una | un’] T [fu | è stato | è]（荷兰文）：[een] T[was | is]0其中T与文章标题相同，经过归一化后为：a)删除括号内的片段（“Teddy (garment)” → “Teddy”）；b)在提及文章标题后，删除可能是析取的第一个元素之外的所有元素（“[..] canonical visitation or apostolic visitation [..]” →“canonicalvisitation”），并使用指示析取的关键词（英文中的“or”）进行检测；c)转换为小写。这些词汇模式是第一个假设的简单、精确的体现。由于要求be动词紧跟标题提及之后，与模式匹配的句子片段（“a cityis”）更有可能（但不是必需）是较长定义（“A city is a large andpermanent humansettlement”）的一部分，该定义描述了文章中所描述的概念（“City”）。与[13]中介绍的流行词汇模式类似，并且在从中提取IsA关系方面仍然广泛使用。0跟踪：Web内容分析、语义和知识WWW 2018年4月23日至27日，法国里昂12690文本[11, 28, 30,35]，这里提出的模式集旨在指示提取类别，尽管不是详尽无遗的。形态学（Mph）：如果文章标题在规范化后的文章文本中以单数和复数形式同时出现，则文章是一个类别。形态变化，如“inn”与“inns”和“steel building”与“steelbuildings”，提取类别如“Inn”和“Steelbuilding”。检测形态变化的实际近似可以包括验证文章标题和文章文本中的ngram是否不同，但在完全词形还原、简单地添加或删除常见的复数后缀或词干化后变得相同。类别（Ctg）：如果文章标题是单数形式，与文章相关联的维基百科类别之一是复数形式，并且在规范化后文章标题和类别相同，则文章是一个类别。与形态学一样，使用类别作为证据体现了第二个假设，但是基于与文章相关联的数据（即类别），而不是文章文本中可用的数据。文章“Bishop ofNewcastle (Australia)”和“Double actingship”通过它们的类别“Category: Bishops of Newcastle(Australia)”和“Category: Double actingships”被提取为类别。从维基百科获取：目标证据类型需要满足并集而不是交集，才能将文章提取为类别。换句话说，结合多种证据类型意味着提取由各个证据类型提取的类别的并集。04实验设置0数据来源：实验依赖于维基百科多个语言版本的快照，快照是在2017年2月可用的。在丢弃消歧义或重定向页面等条目后，快照分别包含了510万（英语）、170万（法语）、120万（西班牙语）、130万（意大利语）、90万（葡萄牙语）、180万（德语）、350万（瑞典语）和180万（荷兰语）篇文章。提取参数：当形态变化（Mph）作为证据时，复数形式的近似包括简单地从两侧添加或删除一小部分流行的复数后缀，如英语中的“-s”、“-es”。标题必须在每个单数和复数形式的文章文本中至少出现三次，通过形态学（Mph）进行提取；通过模式（Lex）提取时可以以任何频率出现。评估集：三个评估集（表1）用于评估特定运行识别的文章类别。评估集SW：连接WordNet中同义词集（“synsets”）的IsA关系（“hypernymy”关系）是通用的IsA关系。较少的关系在WordNet中标记为InstanceOf关系（或Instance关系，或者相反方向的HasInstance关系）。例如，更具体的同义词集{“Netscape”}与短语“Netscape”的第一个意义相对应，在WordNet中通过一个Instance关系与短语“browser”的第二个意义相对应，即{“browser”，“webbrowser”}。第一个评估集SW的构建正是依赖于WordNet中可用的Instance关系。对于WordNet版本3.0中的成千上万个Instance关系，收集关系的第一个参数（即更具体的同义词集）。0类别或非类别（计数）：文章示例评估集：SW（总计数：5735）：C（计数：547）：Admiral，Biochemist，Coach（棒球），Computerscientist，Dependent territory，Federaldistrict，Goldsmith，Illustrator，Monk，Prince，Scribe，Webbrowser NC（计数：5188）：André Maurois，Dustin Hoffman，JanSmuts，John Glenn，Netscape（web browser），Orly，PotomacRiver，Richard J. Roberts，Saint Timothy，Sunda Islands评估集：SD（总计数：2000）：C（计数：73）：Buyer（时尚），Cavesalamander，Gnatcatcher，Master air-crew，Metropolitanmunicipality，Open-circuit voltage，Overhead crane，PatristicaSorbonensia，Prelate of the Order of St Michael and StGeorge，Referral chain，Road food，Works of authority on theUnited Kingdom constitution NC（计数：1927）：Alpine ValleyMusic Theatre，BlackTV247，Dora Carr，FultonWalker，Grimm（音乐剧），North Korea men’s national junior icehockey team，Nouzonville，Robert J. Bulkley，Robin Bain，StaraZagora Zoo 评估集：SQ（总计数：1000）：C（计数：362）：Brittlestar，Node（物理学），Pickup truck，Real estatetransaction，Stemware，Verse（诗歌），Video gamepublisher，Viscometer，Webisode，YachtNC（计数：638）：Airport（EP），Best（Chicoscialbum），Capital（小说），Closer（Travis歌曲），Justice（2006年电视剧），Supernova（Today Is the Day专辑），Teaching Philosophy0表1：评估集中黄金类（C）和非类（NC）维基百科文章的计数和示例0作为黄金非类（一个实例）；而第二个参数（即更一般的同义词集）被收集为黄金类。收集的黄金类同义词集（{“浏览器”，“网络浏览器”}）和黄金非类同义词集（{“网景”}）会自动转换为它们的等效黄金类（“网络浏览器”）和黄金非类（“网景（网络浏览器）”）维基百科文章。转换依赖于一个独立的、预先存在的约5万个手动创建的从WordNet同义词集到其等效英文维基百科文章的映射集。因此，S W评估集是自动填充的，其中包含等效于WordNet中的某些实例关系的第一和第二参数的黄金类与黄金非类维基百科文章。其他地方的评估集[3]也依赖于WordNet实例关系。由于SW评估集是从WordNet自动填充的，所以偶尔会有错误。例如，“朱庇特（神话）”和“阿波罗”，对应于WordNet中的各个短语的第二和第一意义，被错误地收集为黄金类。对SW中的黄金类进行手动检查识别出16个此类错误的黄金类应该是黄金非类。鉴于错误数量很少，并且为了最小化人为干预，SW中自动收集的黄金类与黄金非类保持不变。Eval Set SD：第二个评估集S D是通过手动注释来自维基百科的随机样本的英文文章构建的。由于维基百科首先是一本百科全书，非类文章预计比类文章更频繁。实际上，在SD评估集的2000篇文章中，只有73篇被手动注释为类（而不是非类）。0跟踪：Web内容分析，语义和知识WWW 2018年4月23日至27日，法国里昂Eval Set SQ: To increase the expected number of classes being an-notated in a sample still selected from Wikipedia, the set of allWikipedia articles in English is automatically filtered to retain onlyarticles whose titles, after normalization, are identical to some frag-ment “X” from a sample of around 400,000 Web search queries inthe form “list of X”. Normalization consists in stemming [24], low-ercasing and removal of fragments within pairs of parentheses. Forexample, the presence of the queries “list of pickup trucks” and “listof airports” would cause Wikipedia articles such as “Pickup truck”or “Airport (EP)”, “Airport (OC Transpo)”, “Airport”, “Airport (MBTAstation)” to satisfy the filter. Of these articles, only “Pickup truck”and “Airport” would be manually annotated as gold classes, whereasthe other articles would be manually annotated as gold non-classes.The manual annotation of a random sample of Wikipedia articlesthat satisfy the filter gives the third evaluation set SQ of 362 goldclasses and 638 gold non-classes.The three evaluation sets uniformly contain Wikipedia articlesin English. The sets follow different intuitions, data sources (createdby experts vs. collaboratively) and criteria (exhaustive vs. randomselection) for populating the sets and different requirements forwhether gold items do or do not require manual annotation beforethey populate the sets. As such, they serve as complementary toolsproviding a more thorough evaluation. Table 1 gives the countsand examples of articles listed in the evaluation sets as either goldclasses, which should ideally be extracted as classes by any well-performing experimental run; or gold non-classes, which shouldideally not be extracted as classes. Although in the thousands, thecardinality of the evaluation sets is a fraction of not more thanabout 0.1% of the total count of Wikipedia articles in English.Baseline Runs: The same, separate set of manually-created map-pings from a WordNet synset to its equivalent Wikipedia article,if any, already used in the construction of one of the evaluationsets, also enables the extraction of a set of Wikipedia articles asclasses in the first baseline run, denoted BEwn. Concretely, runBEwn extracts a set of classes that is the set of Wikipedia articlesknown to be equivalent to WordNet synsets that are not first ar-guments of any Instance relations within WordNet. For example,the article “Netscape (web browser)” is not extracted by run BEwn,because its equivalent WordNet synset is the first argument of anInstance relation in WordNet with the synset equivalent to “Webbrowser”. Comparatively, since the WordNet equivalent synset ofthe Wikipedia article “Web browser” is not the first argument of anyInstance relation in WordNet, “Web browser” is one of the articlesextracted by run BEwn.The method introduced in [11] extracts pairs of Wikipedia ar-ticles that are IsA relations. The second arguments (i.e., the moregeneral concepts), from the IsA relations among Wikipedia articlesin English extracted in [11], constitutes the set of classes in thesecond baseline, denoted BW ibi. For example, from the IsA rela-tions IsA(“39 Andromedae”, “Double star”) and IsA(“Doctor Spektor”,“Occult detective fiction”) produced by [11], the Wikipedia articles“Double star” and “Occult detective fiction” are extracted as outputclasses by run BW ibi.The method from [37] identifies a subset of Wikipedia categoriesthat are classes, based on a variety of heuristics (Capitalization,Named Entity, Page, Plural, Structure) computed over WikipediaBEwn: Aboriginal Australians, Bight (geography), Canker, Chordate,Galvanism(∗), Nemean lion(∗), Orbital node, Orthopedic castBW ibi: County Cork(∗), Filmography, Metro Naga(∗), Occult detectivefiction, Omnibus bill, Oscar Cove(∗), Pseudofossil, Sur (magazine)(∗)BZctд: Bicycle wheel, Industrial railway, Military Merit Order (Bavaria),New Jersey elections, Palace of Capodimonte(∗)BZ art : Genes to Cognition Project(∗), Healthcare Professionals forHealthcare Reform(∗), Slaves in Bondage(∗), Supramolecular polymersBW knt : Betel nut beauty, Bethesda station(∗), MV Regent Sky(∗)Track: Web Content Analysis, Semantics and KnowledgeWWW 2018, April 23-27, 2018, Lyon, France12700运行：描述（提取类别的来源）0B Ewn :维基百科文章等同于WordNet同义词集，但在WordNet中不列为Instance关系的下义词[10] B W ibi :在[11]中提取的IsA关系中的上义词维基百科文章 B Zctд :在[37]中被识别为类别的维基百科文章 B Z art :通过[37]的变体被识别为类别的维基百科文章 B W knt :通过大写和命名实体识别在WikiNet中被识别为类别的维基百科文章[20]0表2：基线运行的符号和简要描述0运行：提取类别的示例0表3：基线运行提取的维基百科文章的示例0数据通过投票方案进行组合（有关启发式和其组合的详细信息，请参见[ 37 ]）。将该方法应用于维基百科类别网络[ 23]，然后自动将选定的维基百科类别映射到其等效的维基百科文章（如果有的话），对应于第三个基线方法，记为 B Zctд 。对[ 37]中的方法进行调整，使其适用于维基百科文章而不仅仅是类别，得到第四个基线方法，记为 B Zart。调整包括不再应用结构和页面启发式，因为维基百科类别中存在必要的数据（即下义词），但维基百科文章中不存在；并且不再将维基百科项目（在本例中是文章）默认视为类别，作为所有其他启发式未能在类别和实例之间做出决策时的默认决策（参见[ 37]）。第五个基线方法 B W knt通过结合两个启发式（大写和命名实体）识别维基百科文章的一个子集，该方法在更大的 WikiNet项目中作为一部分被引入[20]。表2总结了实验中使用的基线运行。请注意，对于第二个和后续的基线运行，它们从[ 11 ]、[ 37 ]和[ 20]中的基础方法依赖于维基百科文章的词性标注和句法分析。表3展示了由基线运行提取的维基百科文章作为类别的示例。（右侧带有（�）的文章被手动发现是不正确的；稍后会详细介绍。）实验运行：这里提出的方法通过各种实验运行进行评估，表示为更一般的符号 E [Lanдuaдe , Evidence ] 的变体。这些运行从一个开始12710关于从哪种语言版本的维基百科中提取类别以及他们用于提取类别的证据类型，我们还有另一个参数。在运行符号的下标中，第一个参数Language 是 { En , Fr , Es , It , Pt , De , Sv , Nl }的一个或多个组合，分别表示从英语、法语、西班牙语、意大利语、葡萄牙语、德语、瑞典语和荷兰语文章中提取类别。第二个参数Evidence 是 { Lex , Mph , Ctg }的一个或多个组合，分别表示基于模式、形态变异和类别进行提取。例如，运行 E [ En + Fr , Lex ]从英语和法语文章中基于模式提取类别，而运行 E [ En , Lex + Mph]从英语文章中基于模式和形态提取类别。在启用多种语言或多种证据类型时，它们必须以任意方式（任何一种）而不是联合方式（所有一种）满足，才能将文章提取为类别。换句话说，使用多种证据类型的运行（E [ En , Lex + Mph ]）提取启用各自类型证据时提取的类别集合的并集（E [ En , Lex ] , E[ En , Mph ] ）。为了简洁起见，所有语言的组合也可以用更紧凑的AllLang 表示，例如 E [ AllLang , Lex ] 等同于 E [ En + Fr + Es + It+ Pt + De + Sv + Nl , Lex ] 。类似地，所有证据类型Lex+Mph+Ctg 也可以用更紧凑的 AllEvid 表示，例如 E [ En ,AllEvid ] 等同于 E [ En , Lex + Mph + Ctg ]。仅用于评估目的时，除非另有说明，当任何实验运行将一篇非英语维基百科中的文章（例如法语中的“Glande endocrine”）提取为类别时，它将自动映射到其在维基百科中的英语等效文章（例如“Endocrine gland”）或被丢弃。基线和实验运行统一提取英语维基百科文章的集合，这些文章被认为是需要评估其质量和覆盖范围的类别。05 评估结果0评估指标：根据特定运行提取的类别输出集，其中类别是维基百科文章，其质量和覆盖范围相对于评估集之一自动计算。精确度是提取的类别中也出现在评估集中（作为金标类别或金标非类别）的比例，这些是金标类别。召回率是来自评估集的金标类别中被提取的比例。语言选择：表4显示了仅使用模式作为证据时，从各种语言中提取的实验运行的性能影响。在表的上部，英语的覆盖范围明显高于其他任何语言。然而，除了英语之外的其他语言也对总体覆盖范围有所贡献，当它们单独添加到英语中时（表的中部）；或同时添加到英语中时（图的下部）。对于第二个评估集S D，这种影响最不明显，该评估集中不同语言的得分变化也较大。这可能是因为S D中包含的金标类别较少，正如前面在表1中所示。至于其他两个评估集，相对于仅从英语中提取（E [En, Lex]），添加法语（E [En + Fr,Lex]）使召回率分别增加了13%（对于S W 评估集）和12%（对于SQ ）；然后通过0语言分数分数分数0（X?）评估集S W 评估集S D 评估集S Q0P R F P R F P R F0英语 0.966 0.638 0.768 0.933 0.384 0.544 0.989 0.517 0.6790法语 0.981 0.396 0.564 0.800 0.055 0.103 0.985 0.182 0.3070西班牙语 0.981 0.300 0.459 0.667 0.027 0.053 1.000 0.141 0.2470意大利语 0.974 0.215 0.352 1.000 0.027 0.053 1.000 0.099 0.1800葡萄牙语 0.990 0.192 0.322 1.000 0.014 0.027 1.000 0.091 0.1670德语 1.000 0.208 0.344 1.000 0.027 0.053 0.974 0.105 0.1900瑞典语 0.976 0.249 0.397 1.000 0.041 0.079 1.000 0.099 0.1800荷兰语 0.976 0.391 0.558 0.750 0.041 0.078 0.986 0.196 0.3270英语+法语 0.967 0.723 0.827 0.909 0.411 0.566 0.986 0.580 0.7300英语+西班牙语 0.965 0.681 0.798 0.935 0.397 0.558 0.990 0.555 0.7110英语+意大利语 0.962 0.665 0.786 0.935 0.397 0.558 0.989 0.539 0.6980英语+葡萄牙语 0.967 0.660 0.785 0.935 0.397 0.558 0.989 0.530 0.6900英语+德语 0.967 0.672 0.793 0.935 0.397 0.558 0.985 0.541 0.6980英语+瑞典语 0.968 0.685 0.802 0.935 0.397 0.558 0.990 0.541 0.7000英语+荷兰语 0.964 0.706 0.815 0.906 0.397 0.552 0.986 0.580 0.7300所有语言 0.957 0.798 0.870 0.912 0.425 0.579 0.979 0.662 0.7900表4：在评估集上启用（√）或禁用（-）从特定语言（X?）（如英语（En））提取时，实验运行E [X?,Lex]的精确度和召回率（Lang=语言；P=精确度；R=召回率；F=平衡F分数）0语言（X?）：英语中等价类的示例（通过：从语言X?中提取的类别）0法语：线圈（化学）（通过：Serpentin（化学）），完全偏序（通过：Ordrepartielcomplet（计算机科学）），水果泥（通过：Compote），内分泌腺（通过：Glandeendocrine），回肠造口（通过：Iléostomie）；西班牙语：平衡臂灯（通过：Flexo），燃料气体（通过：Gascombustible），拉格朗日（场论）（通过：Lagrangian

下载后可阅读完整内容，剩余1页未读，立即下载