计算机科学概念知识库TeKnowbase构建与应用

3 浏览量更新于2023-10-15 收藏 742KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

首页>外文书>人文>历史> The Third Edition of Educational KnowledgeWWW 2018，2018年4月23日至27日，法1023⟨⟩⟨⟩⟨ ⟩ ⟨⟩⟨ ⟩⟨ ⟩⟨⟩计算机科学概念知识库TeKnowbase的构建与应用摘要般若印度理工学院新德里，德里prajna. cse.iitd.ac.in曼吉特·库马尔印度理工学院新德里，德里manjeetk9497@gmail.com阿舒托什·宾达尔印度理工学院新德里，德里ashutoshbindal@gmail.com玛雅·拉马纳特印度理工学院新德里，德里ramanath@cse.iitd.ac.in重新审视自动构建过程，利用在本文中，我们做了两个主要贡献。首先，我们描述的TeKnowbase，在计算机科学中的技术概念的知识库的建设和评价其次，我们展示了如何在各种应用中使用TeKnowbase，包括生成学习新主题的先决条件概念，技术文本的分类以及查询和排名计算机科学文章。CCS概念• 信息系统→本体;信息抽取;关键词知识库，技术概念，先决条件，排序，分类ACM参考格式：Prajna Upadhyay、Ashutosh Bindal、Manjeet Kumar和Maya Ramanath。2018.计算机科学概念知识库TeKnowbase的构建与应用在WWW '18同伴：The 2018 Web Conference Companion，2018年4月23日至27日，法国里昂。ACM，NewYork，NY，USA，8页。https://doi.org/10.1145/3184558.31915321介绍随着信息提取研究的进展，以及大量结构化和非结构化（文本）数据的可用性，知识库的自动构建不仅是可能的，而且由于它们可以提供的覆盖范围而是期望的。现在已经有许多这样的通用知识库，如Yago [22]和DBPedia[11]。此外，OpenIE等项目[2]和NELL [3]旨在从大规模的非结构化文本源中然而，有一个高质量的和专门的知识库的特定领域的匮乏。对于一些领域，例如，对于生物医学领域，存在部分解决该差距的精心策划的本体（参见例如基因本体论项目[1]）。然而，对于诸如计算机科学或一般的IT等领域来说，这样的策展工作是困难的，并且该领域本身正在迅速发展，因此，本文在知识共享署名4.0国际（CC BY 4.0）许可下发布。作者保留在其个人和公司网站上以适当的归属方式传播作品的权利。WWW©2018 IW3C2（国际万维网会议委员会），在知识共享CC BY 4.0许可下发布。ACM ISBN 978-1-4503-5640-4/18/04。https://doi.org/10.1145/3184558.3191532特定领域的资源。在本文中，我们描述了一个技术知识库（TKB）的计算机科学概念，称为TeKnowbase从维基百科，技术网站和在线教科书的建设与任何通用知识库一样，TeKnowbase可用于分类、消歧、实体链接、语义搜索等应用。计算机科学资源。然而，除了这些“标准”的应用程序，TeKnowbase可以用于教育领域的问题，这是特定的。一个这样的问题是先决条件概念的生成。简单地说，当学生想要学习一个新概念，但不确定需要什么先决条件时，就会出现这个问题。我们的目标是开发一个系统，自动生成所需的先决条件。正如我们在第3.1节中所示，使用TeKnowbase作为资源来生成这些先决条件，可以提高覆盖率和准确性。除了先决条件生成之外，TeKnowbase还可以用作自动生成问题的资源（例如，生成多项选择或填空题），以测试学生TeKnowbase在这些特定教育应用程序中的实用性使其成为一种宝贵的资源。施工方法。为了构建TeKnowbase，我们首先获得了与计算机科学相关的概念和实体的字典（第2.1节）。使用这个字典，我们提取了它们之间的关系（第2.2节）。我们使用语义Web标准RDF来表示这些关系，RDF中的信息表示为主语、谓语、宾语形式的三元组。主语和宾语是实体，谓语是代表了关系。简而言之，每个三元组都对主题进行了陈述。表1示出了我们提取的三元组的种类以及我们的知识库中的这样的三元组的数量的示例。TeKnowbase的可用性 TeKnowbase是在知识共享署名许可证3.0下提供的，可以从https://github.com/prajnaupadhyay/TeKnowbase。TeKnowbase的一些统计数据列于表2中。表2中的行1报告了独特实体的数量以及诸如复数的变化。我们与DBPedia和Freebase共同拥有的实体使用owl：sameAs关系链接。TeKnowbase中的每个实体都与一个URI相关联URI由从中提取实体的URLURL通常是专用于描述实体的页面此外，由于首页>外文书>人文>历史> The Third Edition of Educational KnowledgeWWW 2018，2018年4月23日至27日，法1024⟩⟨⟩⟨⟨⟩表1：所提取的关系的子集的统计和示例第一组5个关系是从结构化源中提取的（见第2.2.1节），第二部分3个关系是从非结构化文本源中提取的（见第2.2.2节）。关系头实体，尾实体的例子三重数类型概念子主题应用术语拓扑排序，图算法纳什均衡，博弈论hamming_code，algebraic_coding_theory‹ group_testing，coding_theory ‹Blob_detection，image_Processing27,0785952,02632427,018is_a_high-speed_form_of是的一种改编使用千兆以太网ironpython，python中文（简体）n/an/an/a表2：来自TeKnowbase的统计数据。除了70，285个独特的实体，还有32，458个变体（消歧版本和词干版本）。唯一实体数量70，285唯一关系数2，574分类关系（typeOf）总数146，657与DBPedia重叠的实体数量17，987与Freebase重叠的实体数量34，785号从维基百科提取的三元组99，357No.从非结构化源中提取的三元组3，506TeKnowbase中的每个三元组是通过一系列试探法（在2.1和2.2节中描述）导出的，我们保持三元组的整个证明这些数据可应要求提供1.1捐款和组织我们的贡献如下。(1) 我们在2.1和2.2节中描述了TeKnowbase的构造。我们对TeKnowbase的质量进行了全面评估，并在第2.3节中报告了我们的结果。TeKnowbase是一个免费的在线资源。(2) 我们描述了TeKnowbase的3个应用：i）先决条件概念的生成，ii）Stack Overflow（计算机科学论坛）中的帖子的分类，以及iii）用于关键字搜索的计算机科学研究文章的我们表明，通过我们的评估，使用TeKnowbase作为一种资源，可以提高所有3个应用程序的准确性我们的论文组织如下。我们在 2.1 和 2.2 节中描述了TeKnowbase 的构造。我们提出了三个应用程序的TeKnowbase在第3节。我们在第2.3节中对我们的知识库进行了评估。我们在第4节中简要描述了相关工作，并在第5节中总结。2TEKNOWBASE的构建2.1获取实体列表我们提取了近78，000个实体。我们使用维基百科的文章标题以及它的分类系统作为概念的来源。我们的维基百科条目主体由计算机类别下的所有条目组成。总共大约有54，000篇文章。每篇文章的标题被视为一个实体。我们发现的示例实体是Heap_Sort，Naive-Bayes_Classifier等。虽然维基百科上有许多关于技术实体和概念的文章，但它并不详尽。例如，术语average_page_depth（与Web Analytics）和fraction_ridge（与生物识别相关）在维基百科中找不到，因此，我们寻找了几个在线资源来增加我们的实体列表。我们的第二组资源是两个网站Webopedia1技术目标2每个网站都包含一些特定格式的技术术语及其定义通过为这两个网站编写适当的包装器，我们提取了大约24，000个实体。最后，我们从在线教材的索引中提取了16，500个实体（使用了8本在线教材我们使用编辑距离来解决这些源中的重叠实体，并最终保留了超过70，000个实体。2.2获取实体之间的关系我们将关系提取任务分为两部分。第一，从结构化源提取，第二，从非结构化的文本源提取。我们的目标是双重的：提取尽可能多的不同种类的关系，以及构建一个实体/概念的分类。2.2.1结构化来源。由于我们的目标是构建一个技术知识库，我们手动制作了一个我们的知识库应该包含的关系列表-这是我们的已知关系列表。这些关系包括分类关系typeOf（如jpeg typeOf file_format）和其他有趣的关系，如 algorithmFor 、 subTopicOf 、 applicationOf 、 techniqueFor等。总之，我们确定了18个我们认为有趣的关系，并制定了从维基百科中提取它们的技术。概览页。（500页）：我们使用了两种结构化页面-“列表”页面和“大纲”页面（例如，机器学习概念列表，密码学大纲等）。这些页面用标题和子标题组织实体列表提取这些信息给我们的关系typeOf和subTopicOf具有良好的准确性（见2.3节对这些关系的评估）。图1显示了数据结构的列表页面我们在标题下看到一个术语列表，可以提取doubly_linked_list typeof list形式的三元组。此外，我们能够提取两个层次的分类层次结构的标题相关的文章标题。继续前面的示例，基于文章标题提取 list typeOfdata_Structure关于特定主题的文章：这些页面涉及特定主题的讨论，例如“编码理论”。这些页面由许多结构化的信息组成，如下所示：1http://www.webopedia.com2http://www.techtarget.com/首页>外文书>人文>历史> The Third Edition of Educational KnowledgeWWW 2018，2018年4月23日至27日，法1025⟨⟩⟩⟨⟨⟩⟨⟩⟨⟩⟨⟩⟨⟩⟨⟩(a) 从“数据结构列表”页面提取typeOf关系的片段(b) “编码理论”页面中的TOC片段2.2.2非结构化来源我们的非结构化来源包括Webopedia和Techtarget中术语的文本描述以及与实体相对应的文章的维基百科文本。我们将维基百科中的文本限制在第一段。如前所述，我们获得了许多synonymOf关系。我们成功地利用“is abbreviation for”、“X（Y）”和“is short for”等模式识别了关系的同义词。我们获得了超过1000个这样的三元组。接下来，我们在每个源上运行最新版本的OpenIE [14]。虽然提取的数量相当大（大约400，000个三元组），但也有很多为了提高准确性，我们将以下过滤器应用于所提取的三元组。过滤器1：不包含来自我们实体的实体的三元组字典被删除了。仅这个过滤器就减少了近300，000个不可用的三元组。过滤器2：我们发现三元组中的实体可能太长。因此，我们的第二个过滤器只保留那些实体匹配度至少为50%的三元组，也就是说，OpenIE识别的实体中有过滤器3：尽管有这两个过滤器，我们发现(c)提取其他关系的DBMS模板图1：不同结构化源代码的片段目录（TOC）（1838个TOC）：从已知关系列表中，我们搜索TOC中的关键字。如果关键字出现在TOC的一个项目中，那么子项目很可能与之相关。例如，在图1中，Coding Theory页面在其TOC中包含以下项：“编码理论的其他应用”，这又包括两个子项目“组测试”和“模拟编码”。由于来自我们已知关系的关键词之一编码理论的模拟编码应用章节列表（1909章节列表）：接下来，文章中有几个小标题，其中包含指向其他主题的链接。例如，关于“自动化技术”的页面由副标题“流行技术”组成-该部分仅由链接到其维基百科页面的技术列表组成。由于自动定理证明文章中的列表层次结构（113个列表层次结构）：与“列表”页面和“大纲”页面的情况一样，我们使用文章中的列表层次模板（1139个模板）：图1显示了“DatabaseManagementSystems”页面中的模板示例。我们提取行标题作为潜在的关系，并添加了三元组，如query_optimization functionOf数据库管理系统然而，根据我们的评估（见2.3节），我们发现模板可以有各种各样的行标题，它们并不总是可靠的。因此，我们没有将这些关系规范化，而是将它们视为一般的 “relatedT〇 ” 关系（ relatedTo_（functionOf））。主语或宾语指的是概念术语，例如作为三元组的一部分的_algorithm（算法;生成;路径），其中实体是算法和路径。因此，我们的第三个过滤器去除了主题或对象以单词“th”开始并且长度小于3个单词的三元组。在应用所有这些过滤器之后，我们保留了3506个三元组。我们规范化的关系的一小部分，我们省略了这里缺乏空间的细节一般来说，我们能够识别实体之间的细粒度关系。表1显示了一些示例。2.2.3TeKnowbase完成。到目前为止，我们已经展示了使用启发式从不同的Web资源中获取实体和三元组的技术。在本节中，我们重点关注基于TeKnow-base中已经存在的三元组来获取实体之间的更多三元组。这个任务被称为知识库推理或知识库完成[17，21]。例如，如果我们有三元组knights_tour类型的state_space_search和state_space_search类型的graph_algorithm，则可以很容易地使用传递属性推断出knights_tour类型的graph_algorithm，即使该三元组不存在于知识库中。为了提取这样的规则，[21]引入了神经张量网络（NTN），通过其超参数对每个关系进行建模，并推广了其他几种神经网络模型。与其他神经网络不同，双线性张量积是用于在神经张量网络中使实体彼此相关的主要运算。知识库中的每个实体被表示为更高维度的向量。该向量是通过对实体名称中的组成词的向量取约化平均值而获得的。每个单词的向量使用Word 2 Vec [15]使用Skip-gram模型获得。此外，他们还表明，当使用在大型非结构化语料库上训练的向量进行初始化时，模型的准确性有所提高。我们使用了类似的方法，并对以下模型进行了实验：Word2Vec（将实体视为一个单元）在维基百科语料库和教科书上：我们使用Word2Vec为每个实体训练短语向量。训练集包括非结构化的维基百科语料库以及来自在线教科书的文本·首页>外文书>人文>历史> The Third Edition of Educational KnowledgeWWW 2018，2018年4月23日至27日，法1026⟨⟩⟨⟩⟩⟨⟩⟨ ⟩ ⟨表3：使用神经张量网络推理模型添加到TeKnowbase的一些新三元组。1.xbasic，typeOf，programming_language2.binomial_heap，typeOf，tree3.palmdos，typeOf，operating_system4.5.levenshtein_coding，typeOf，entropy_coding然后，这些向量用于初始化神经张量网络模型。Word2Vec（将实体视为一个单元）仅在维基百科语料库上训练：与上述相同，但向量仅在维基百科语料库上训练。教科书中的信息不包括在内。Word2Vec在维基百科语料库和教科书上训练：我们使用Word2Vec为每个单词训练向量，然后通过降低分量词向量的平均值来获得每个实体的向量表示与i）类似，我们使用在线教科书中的文本（除了维基百科中的非结构化文本）来训练这些向量，并使用它们来初始化神经张量网络模型。Word2Vec仅在维基百科语料库上训练：与上述相同，除了我们排除了教科书信息来训练用于初始化神经张量网络模型的向量我们发现i）表现最好，即Word2Vec，实体被视为一个单元，用教科书信息初始化使用推理模型，总共可以将428个三元组添加到TeKnowbase其中一些列在表3中。这些三元组的评价见第2.3节。2.3TeKnowbase的评价2.3.1Setup. 我们选择提取的前5个频繁关系进行评估。它们是： typeOf 、 term 、 synonymOfsubTopicOf 和conceptIn。这五个关系一起构成了我们KB中三元组的大约我们使用分层抽样从每种类型的关系中抽取样本。对于每个关系，我们抽取了2%的三元组。由于不是每一个从非结构化来源提取的三元组被规范化，我们评估这些三元组分别抽样约2%的三元组。每个三联体由两个评估者评估，只有在两个评估者都同意的情况下，我们才将三联体标记为正确。为了进行推理，我们用4种不同的模型进行了实验（如第2.2.3节所述）。为了评估这些模型，我们以下面的方式创建了测试集-我们使用typeOf关系的传递属性生成了一个真三元组列表。例如，给定训练集中的三元组 palmdos ， typeOf ， dr_dos 和三元组 palmdos ，typeOf，operating_system，我们在测试集中重新生成三元组palmdos，typeOf，operating_system，确保它在训练集中不存在。为了生成反例，我们将正三元组集合的头部实体进行我们在这个测试集上评估了这些模型的准确性2.3.2结果和分析。表4显示了每个关系的三元组的准确性。我们在95%置信度下计算了每个关系的Wilson区间在对这些结果进行更仔细的检查时，我们发现对于由缩写词的扩展组成的同义词关系，例如ALU和Arithmetic，我们获得了最好的结果表4：TKB中三元组子集的评估#关系（第1评价数量三元组精度1.typeOf515九十九。0%± 0.百分之八九十八9%±0. 占7%100%± 0. 0%的百分比91. 3% ±8。百分之二九十五4%±2. 百分之一2.术语6763.同义词704.子主题425.conceptIn3346.非结构化来源43563岁2% ±3。占7%7.使用NTN进行428六十四2%±4。百分之五逻辑单元以及替代术语，如Photoshop和Adobe Photoshop。最好的摘录来源是维基百科列表页面。在我们的前5个关系列表中，只有3个是从维基百科列表页面中提取的许多这些关系中的主要错误来源是由于TOC项目的提取（第2.2.1节）。这种试探法不能很好地识别正确的关系。例如，其中一个错误是在“游戏类型”是“游戏理论”页面的TOC中的一个项目时发生的。它列出了“对称/非对称”作为一种游戏类型，但我们提取了不正确的对称/非对称类型的游戏理论。非结构化来源发现来自非结构化文本的三元组的总体准确率为63.2%。回想一下，我们确保实体总是正确的，因为我们过滤掉了与字典中的实体不匹配因此，准确性低的主要一些不正确的提取包括：用户请求邮件，分组交换协议。我们正在更详细地分析这些错误，并在未来的工作中提高这些提取的准确性使用神经张量网络进行推理神经张量网络模型在加入了教科书语料库的情况下表现最好 . 它提高了两个Word2Vec模型的预测准确性此外，我们还观察到，将实体视为一个单元的Word2Vec优于为技术领域中的每个单词学习单独向量的我们能够使用此模型将428个三元组添加到TeKnowbase中，准确率为64。百分之二十五3TEKNOWBASE的应用在本节中，我们将展示TeKnowbase在3种应用环境中的作用-3.1确定技术概念的先决条件学习一个新的技术概念可能是具有挑战性的，因为它涉及到识别和研究其先决条件。一个先决条件是任何概念，必须先研究另一个更好地理解。尽管可以通过在搜索引擎中搜索概念来获取多个相关文档，但是在那些文档中可能存在需要被搜索的概念。···首页>外文书>人文>历史> The Third Edition of Educational KnowledgeWWW 2018，2018年4月23日至27日，法1027logitboost级联_分级器梯度升压分类回归树监督_学习提振逻辑回归决策树_学习brownboost级联_分级器逻辑斯蒂模型树梯度升压分类回归树提振逻辑回归交替决策树决策树_学习再次搜索，最终导致搜索级联和浪费大量用户的时间。在这种情况下，识别并返回先决条件的检索系统是非常有用的。例如，给定logitboost概念，我们希望系统返回如图2（a）所示的先决条件。在本节中，我们将展示如何使用TeKnowbase检索技术概念的先决条件。3.1.1问题. 先前关于寻找先决条件的工作可以分类为i）构造先决条件函数以确定一个概念是否是另一个的先决条件[7，13，24] ii）给定一组概念生成概念图[25]。所有这些技术通常依赖于来自文本源的特征、教科书的结构以及从训练示例中学习来构建或学习先决条件关系。为了以更好的精确度和召回率检索先决条件，我们需要考虑概念之间的关系。我们希望使用TeKnowbase做同样的我们使用技术知识库解决的两个关键问题是：低精度。我们已经注意到，并非所有先决条件都同样“相关”。例如，binary_search_tree和file_system都作为b树的先决条件由 [13] 中提出的先决条件函数 RefD 返回。如果binary_search_tree的优先级高于file_system，那么一个不了解b树的人肯定会获得更多，因为binary_search_tree有助于理解b树比file_system更好。file_system解决了理解b树的另一个方面-RefD将每个概念建模为相关概念的“框架”。框架的选择对于确定相关先决条件至关重要。RefD使用维基百科邻居的概念来确定框架。然而，并非所有与维基百科相邻的概念都应该包含在框架中。如前所述，file_system和b-tree在b-tree的Wikipedia页面的第一段中提到。因此，它会检索不相关的先决条件，如file_system。为了从框架中丢弃这样的概念，我们将每个概念建模为高维空间中的向量。这些向量表示或嵌入是通过在TeKnowbase上运行Node2Vec[8]来获得的，重点是typeOf关系。因此，通过typeOf相关的概念的向量表示将比其他概念更接近彼此。比如说，b树和binary_search_tree的向量表示将比file_system彼此更接近。我们使用这种直觉从框架中丢弃不相关的概念。这样做的方法之一是对邻居进行聚类，并保留b树所属的聚类作为新帧。低召回。以前的工作的另一个限制是，他们福-注重提高前提条件的查准率，忽略了查全率低我们已经观察到，相似概念的前提条件大体上是相同的。例如，图2（a）。及（b）。分别显示了logitboost和brownboost的先决条件。logitboost和brownboost都是boosting算法。很明显，这两个概念的先决条件大致相同，并且添加brownboost的先决条件（如同一图所示）可以提高logitboost的召回率。我们已经利用这个简单的观察来提高先决条件的回忆。为了确定brownboost与logitboost最相似，我们使用在我们的技术知识库上训练的实体嵌入。因为嵌入在确定“相似”词或实体方面表现得非常好我们的技术在算法1中简要描述。基本上，TeKnowbase以两种方式使用- i）通过确定更好的帧来提高精度，以及ii）通过从TeKnowbase分类中识别其先决条件可以借用的兄弟来提高召回率。请注意，尽管我们使用RefD [13]进行实验，但我们的技术包括确定更好的帧和提高召回率，可以与任何先决条件函数一起使用。(a) logitboost的先决条件(b) brownboost的先决条件图2：logitboost和 brownboost3.1.2Setup. 我们使用2015年维基百科的数据转储进行实验。我们的技术被称为OWN_KB，它使用在TeKnowbase上训练的嵌入来确定帧。对于先决条件函数，我们使用[13]中提出的RefD，它使用维基百科页面中提到的所有概念作为框架。除了RefD，我们使用了2个其他基线，描述如下：OWN_TEXT。这使用了我们的技术，但实体嵌入是通过在维基百科文本上训练生成的使用Word2Vec算法，通过以下处理针对每个实体训练短语向量：实体为一个单位。OWN_COMBINED. 这也使用了我们的技术，但实体嵌入是通过连接OWN_KB和OWN_TEXT中使用的嵌入生成的3.1.3基准。我们选择了跨越计算机科学不同领域的26个查询，并使用 RefD 、 OWN_KB 、 OWN_TEXT 和OWN_COMBINED生成了它们的先决条件。3.1.4黄金标准。每个查询的先决条件的黄金标准列表由该领域的专家生成。这个黄金标准列表用于测量精确度和召回率。3.1.5评估指标和结果。我们评估了精度，召回率和F1分数的先决条件。结果示于表5中。此外，我们还要求两个评估者对先决条件图P_G中的每条边（a，b）进行如下评级：首页>外文书>人文>历史> The Third Edition of Educational KnowledgeWWW 2018，2018年4月23日至27日，法1028（）下一页（）下一页|2|2（）下一页∪算法一：生成C i的先决条件图PG结果：先决条件图PGinti=inti（i）;P_C=使用帧Fi和先决条件函数P_F确定的C_i的先决条件;FG=improveRecall（Ci，PC）（）;构造一个图PG，其中节点属于FG;对于PG中的每对节点a，b，do使用PF确定a是否是b的先决条件;端从PG中删除边a、b，使得b是a的知识边库分类中的后代。表 5 ：在使用 RefD 、 OWN_KB 、 OWN_TEXT 和OWN_COMBINED的不同帧后获得的精确度、召回率和F1分数。修剪框架用于提高相关先决条件的精度。表示方案精度召回F1得分RefD0.290.420.34OWN_ KB0.860.340.49OWN_TEXT0.250.080.12OWN_COMBINED0.500.180.26长度2计算如下：returnPG;.e∈E I（ei）过程determineFrame（Ci）设S=Ci的Wikipedia邻居的集合。设ei是S中的第i个实体.V ei是ei的向量表示;使用凝聚聚类对S使用余弦进行聚类Acc2=我2，当reI（ei）=1时，如果边序列ei中的两个边are标记为选项1或选项2，否则I（ei）=0（2）其中E2是PG中所有长度为2的边序列的集合。使用ch-指标选择最佳聚类集，并设置框架Fi=Ci所属的聚类;returnFi;程序改进召回（Ci，PC）FG=PC;在技术知识库中查找Ci的每个同级eido确定ei与Ci的余弦相似度;端L=在技术知识库中以余弦相似性的降序排列的Ci的同胞的列表;在Ldo中foreacheiinti=getString（i）;P_D=使用帧F_E和先决条件函数P_F来确定e_i的先决条件;如果（PD-PC）不为空，则FG=PCPD;折断;端返回FG备选方案1. 当b是理解a所必需的和关键的时候备选办法2. 当b提高了对a的理解备选方案3.当b是一个研究备选方案4。当a是b的先决条件时，即负相关备选案文5. 名单中没有任何我们计算边缘的精度如下：.ei∈E1I（ei）表5比较了改进帧后RefD 、OWN_KB 、OWN_TEXT和OWN_COMBINED的精确度、召回率和F1得分。与RefD、OWN_COMBINED和OWN_TEXT分别返回29%、50%和25%的精度相比，OWN_KB返回86%的最佳精度显然，这是由于使用了由技术知识库生成的更好的框架OWN_KB的召回率为34%，低于RefD，但在F1分数方面仍然表现更好，而OWN_TEXT和OWN_COMBINED获得的召回率甚至更差。为了进一步提高分数，使用improveRecall（）函数它从知识库税收分类中找出最相似的兄弟，并使用不同的技术-OWN_KB、OWN_COMBINED和OWN_TEXT添加其先决条件表6显示了该函数提高每种技术的查全率后的查准率和查全率值。添加之前OWN_KB的精确度召回率提高到60%，几乎提高了2倍，代价是精确度仅下降了14%，F1分数从0提高。49比0 64. 因此，它表现最好。然而，该改进对于OWN_TEXT或OWN_COMBINED不是非常显著。原因是他们检索的帧质量差，返回不相关的先决条件。OWN_COMBINED的查全率从18%提高到28%，但查准率从50%下降到43%。然而，F1分数从0略微增加。26比0 29.虽然它的准确率（43%）高于RefD（29%），但在召回率或F1分数方面未能击败OWN_TEXT的性能最差。它的召回率提高了一个小幅度F1分数也从0增加了一个小范围。12比0 16.它表现不佳的原因是使用了框架中文本中彼此靠近的概念。OWN_TEXT的性能差导致OWN_COMBINED的性能低于标准，因为 OWN_COMBINED 中使用的嵌入是从OWN_TEXT嵌入构造的。叮。总体而言，OWN_KB的性能优于其他两个加速度1=|，其中r e I（e i）= 1，如果边ei| ,whe reI(ei)=1,iftheedgeei被标记为选项1或选项2，否则I（ei）=0（一）由于帧的质量更好，因此可以使用更好的技术表7列出了从用户评估中获得的精度- A c c 1和A c c 2。准确度已按照第2节所述进行计算第3.1.5节。同样，使用OWN_KB生成的先决条件图其中E1是PG中所有边的集合。我们还评估了长度为2的边缘序列的准确性。边缘序列的精度对于长度为2的边缘序列获得83%的最高准确度和60%的最高准确度。OWN_COMBINED获得的精度为首页>外文书>人文>历史> The Third Edition of Educational KnowledgeWWW 2018，2018年4月23日至27日，法1029表6：在使用0WN_KB、0WN_TEXT和0WN_COMBINED识别最相似的同胞并添加其先决条件之后获得的精确度、召回率和Fl分数。来自知识图分类法的兄弟的先决条件大致相同，并且显著提高了OWN_KB的召回率。表示方案精度召回F1得分RefD0.290.420.34OWN_ KB0.720.600.64OWN_TEXT0.210.120.16OWN_COMBINED0.430.280.29表7：用户评价结果表示方案附件1 ACC2RefD0.420.21OWN_ KB0.830.60OWN_TEXT0.480.12OWN_COMBINED0.690.4069%的边缘，这是不错的，但表现不佳的边缘序列长度为2（40%）。但是，它的性能优于RefD。这是显而易见的，因为我们之前发现OWN_COMBINED比RefD获得了更好的精度使用OWN_TEXT生成的先决条件图执行最差的边缘和长度为2的边缘序列总的来说，OWN_KB是赢家。3.2分类实验[6]表明，添加来自领域特定本体知识库的特征可以提高分类精度。将这个想法适用于我们的技术知识库的设置，属于类“数据库”的文档实际上可能不包含术语“数据库”，而只是具有与数据库相关的如果这种关系在TeKnowbase中被显式捕获，那么这是一个有用的功能。我们将这个想法应用于我们的技术知识库和StackOverflow3中的分类帖子的设置。3.2.1Setup. StackOverflow是一个技术讨论的论坛。网站中的一个页面由用户提出的一个问题和对该问题的几个答案组成。问题本身可以由用户用若干主题标签来标记。网站的管理员把这个问题归为几个技术类别之一我们的任务是将给定的问题自动分类到特定的技术类别中。我们下载了StackOverflow数据转储，并从3个不同类别中选择问题：“数据库”，“网络工作”和“数据结构”我们创建了1500个问题的语料库，包括标题（每个类别500个）。问题被Stack- Overflow站点手动分类到的类别被认为是基本事实。3.2.2特征生成。我们生成了以下一组用于训练的特征。Bagof Words（英语：Bag ofBOW+BOE：Bag of Words和Bag of Entities。实体被视为一个整体，而不是一个词袋请注意，这些实体3stackoverflow.com使用TeKnowbase的实体列表识别。BOW+BOE+TKB：除了上面的单词和实体，对于每个实体，我们添加了来自实体的1跳邻域的特征例如，如果实体run_length_encoding 出现在 post 中，那么我们添加data_compression作为特性，因为我们有三元组数据压缩的游程长度编码方法。3.2.3分类算法。我们用上面的每个特征集训练了朴素贝叶斯分类器和SVM。3.2.4结果我们对每个分类器和特征集进行了5倍交叉验证，并在表8中报告了准确度。显然，简单地从TeKnowbase添加新功能有助于提高分类器的准确性。这个结果是令人鼓舞的，我们希望优化添加的功能（例如，提出启发式来决定使用哪些关系）将导致进一步的收益。表8：平均分类准确度。弓BOW+BOEBOW +BOE+TKBSVM百分之八十二点一87.1%百分之九十二朴素贝叶斯86.3%88.4%89.6%表9：用tf-idf和BM-25排序模型获得的NDCG@20值。与NDCG分数一起列出了这些模型赢得（W）、与BOW并列（T）或失去（L）的查询的数量弓BOW + BOE +TKB，W/T/LTF-IDF0.3730.380，32/9/40BM-250.3120.326，41/9/313.3排序实验在[26]中概述了使用实体袋（BOE）模型来表示用于文档检索的查询和文档我们采用这种方法来检索计算机科学中的研究文章我们注意到知识库嵌入的使用在[27]中得到了进一步的探索（尽管他们的知识库在结构和内容上与我们的不同我们利用[27]慷慨提供的数据，用BOE模型进行了我们自己的排名实验。3.3.1Setup. 数据由100个技术查询（如语义网、自然语言接口等）组成从语义学者4的查询日志的分析以及与每个查询相关的文档的列表导出我们从这100个查询中选择了81个，其中包含我们用于排名的知识库中的实体，并在这些查询上进行了实验4https://www.semanticscholar.org首页>外文书>人文>历史> The Third Edition of Educational KnowledgeWWW 2018，2018年4月23日至27日，法10303.3.2技术. 我们对查询和文档的以下表示进行了试验。Bagof Words（英语：Bag ofBOW+BOE+TKB：单词袋和实体袋预处理步骤识别文档中出现的所有实体，并且这些实体来自TeKnowbase的实体列表。这些实体作为一个整体保留，而不是作为一个词袋处理此外，我们扩大了每个实体标记在查询/文档中的实体发生在1跳附近的TeKnowbase。3.3.3排名模型。我们使用tf-idf [18]和BM-25 [20]排名模型对候选文档进行排名。3.3.4结果我们计算了NDCG@20 [10]并在表9中报告了值。我们还使用 TeKnowbase 计算了 NDCG 得分赢得（T）、绑定（T）或丢失（L）到词袋模型

下载后可阅读完整内容，剩余1页未读，立即下载