AI搜索引擎：基于RCNN和MLP模型的算法性能提取与优势分析

72 浏览量更新于2023-10-15 收藏 1.08MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

跟踪：认知计算WWW 2018，2018年4月23日至27日，法国里昂251AI认知在学术大数据中搜索相关知识，使用多层感知器和递归卷积神经网络模型Iqra Safder信息技术大学计算机科学系巴基斯坦iqra.itu.edu.pk摘要赛义德-乌尔·哈桑信息技术大学计算机科学系巴基斯坦saeed-ul-hassan@itu.edu.pk1引言纳伊夫·拉迪·阿尔约哈尼沙特阿拉伯阿卜杜勒阿齐兹国王大学信息系统学院nraljohani@kau.edu.sa虽然，多年来，信息检索系统已经显示出巨大的改进，在搜索相关的科学文献，人类的认知仍然需要在全文出版物中搜索特定的文件元素。例如，与科学出版物中发表的算法有关的伪代码不能与用户查询正确匹配，因此该过程需要人工参与。AlgorithmSeer是一种最先进的技术，声称可以在这项任务中取代人类，但这种算法搜索引擎的局限性之一是元数据只是每个伪代码的文本描述，没有任何算法特定的信息。因此，仅通过将用户查询与文本元数据进行匹配并使用常规文本相似性技术对结果进行排名来执行搜索。在搜索算法时，自动识别特定于算法的元数据（如精度、召回率或f-度量）的能力将非常有用。在这篇文章中，我们提出了一组算法，以提取有关每个算法的性能进一步的信息。具体地，使用递归卷积神经网络（RCNN）来识别和提取文章中传达关于对应算法的效率的信息的句子。此外，我们建议通过使用15个特征训练的多层感知器（MLP）分类来提高伪码检测任务的效率最后，我们展示了AI搜索引擎（基于RCNN和MLP模型）相对于传统文本检索模型的优势。CCS概念• 信息系统-数字图书馆和档案馆ACM参考格式：萨弗德岛哈桑，S。和Aljohani，N.R.2018年。AI认知在学术大数据中搜索相关知识，使用多层感知器和递归卷积神经网络模型。In The2018 Web Conference Companion（WWW 2018），April 23-27，2018，Lyon，France，ACM，NY，NY.DOI：https://doi.org/10.1145/3184558.3186334本文在知识共享署名-非商业性-禁止衍生4.0国际（CC BY 4.0）许可下发布。作者保留在其个人和公司网站上以适当的归属方式传播作品的权利。WWW© 2018 IW3C2（国际万维网会议委员会），在知识共享CC BY 4.0许可下发布。ACM ISBN 978-1-4503-5640-4/18/04。DOI：https://doi.org/10.1145/3184558.3186334几十年来，计算机科学领域的学者已经提出了算法解决方案，通过创建，分析和应用自动化技术（如聚类，分类，解码，散列，排序，机器学习等）来解决计算问题。有趣的是，最初被提出用于解决计算机科学领域中的特定问题的各种各样的算法后来被用于为各种其他领域中的重要问题提供有效的解决方案。例如，在生物信息学中，核苷酸或氨基酸生物序列的比对通过使用字符串匹配贪婪字符串拼接算法[1]来建模，该算法最初被提出用于通过文本匹配[2]进行剽窃检测。类似地，Burrows-Wheeler的序列比对算法[3-4]广泛用于DNA序列比对。这种算法最初被提出来在匹配重复字符串的基础上进行压缩。同样地，在解决与检测洗钱[5-6]和电信中为客户提供更好服务[7]相关的问题时大量采用的算法，如FP-growth，PrefixSpan和Apriori，最初是为了在大型数据库中找到频繁模式而提出的。学术数据由成千上万的研究组成文章，其中许多包含算法。根据Bhatia et al.[8]，在2005年至2009年期间，在主要的计算机科学研究会议上发表了大约900个算法，并且研究文章中的算法数量每年都在增加。这种现象清楚地表明，研究人员正在积极地为新出现的问题发明新的算法，并有效地改进现有的部署算法。存在新的改进算法可以改善现有系统的性能的可能性。因此，软件开发人员必须熟悉与他们的技术和问题相关的新算法研究视野。在过去，已经提出了相当多的重要模型来搜索学术文献中的算法[9-10]。这些模型在传统的搜索引擎技术中使用了算法元数据，例如标题、伪代码中的行数、字体大小等[11-12]然而，这样的算法元数据不包含特定于算法特征的任何信息，诸如时间复杂度或精确度、召回率等的相关性能度量因此，简单地通过用户查询和算法元数据之间的文本匹配来执行搜索算法技术通常对一组结构化的数据，具有各种计算成本，以提供有效的解决方案和更好的评估结果的问题。该算法具有更少的计算成本，但给出了改进的跟踪：认知计算WWW 2018，2018年4月23日至27日，法国里昂252评估结果通常被认为是有效的。到目前为止，只有基于人类经验的启发式算法被用来作出决定的某个算法的选择一个给定的问题，因为没有标准的系统方法在适当的算法搜索，如计算成本或有效性的基础上，在一个算法在学术大数据中自动搜索算法及其有效性并不是一项微不足道的任务。这种自动建模不是在纯文档文本上执行的，而是在包含异构文档元素的学术文档上执行的，异构文档元素诸如伪代码、算法过程、表格和图像（诸如绘图、图表、流程图等）。这些文档元素是独立于文档的运行文本的实体，用于支持和汇总运行文本中写入的信息在运行文本中记录实验结果时，作者在顶部添加其他文档元素，以呈现论点或总结与算法相关的讨论因此，提取关于特定算法的评估结果是一项具有挑战性的任务。通常，结果以支持性文本和文档元素的形式进行总结包含对结果的讨论，或者更具体地说，对算法有效性的讨论的运行文本例如，与算法的有效性相关的文本可以如下：“我们已经通过考虑去除停用词和不去除停用词这两种情况来评估LDA-SVD多文档摘要算法。从所述计算的概要和所述模型概要中去除停用词。表2列出了ROUGE-1召回值及其95%置信区间此外，为了全面地建模这个问题，传统的技术，如词袋，潜在的Dirichlet分配[13]，或互信息无法处理文本的语义和词序。为了提取与传达关于其效率的信息的给定算法相关的文本，文本的语义和词序更重要，因为这些特征对于理解上下文是必要的尽管可以部署高阶n-gram（5-gram、6-gram等）表示来理解上下文和语义，但是它们遭受严重影响分类准确性的数据稀疏性问题。在本文中，我们提出了以下三个关键贡献。首先，设计了一种改进的基于机器学习的方法，以通过使用MLP（前馈人工神经网络模型）来提高现有基线最新算法检测方法[11]的准确性。使用与我们的基线模型相同的数据集[11]，最初从CiteseerX存储库中选择的258个手动注释的学术文档的数据集用于验证所部署技术的有效性。我们的模型实现了 96.5% 的总体 f- 测量，而我们的基线模型报告的是75.95%[11]。此外，为了利用深度学习的进步，一个算法 [14] 被部署为使用单词嵌入和递归卷积神经网络（RCNN）来创建句子表示，用于检测包含算法在其有效性方面的讨论的文档部分，例如其精度，召回率和f-度量。这种表示被馈送到执行分类的神经网络中，使我们能够准确地找到全文文档中的最后，我们对同一组258个手动注释的学术文档进行了实验，这些文档先前用于最初从CiteseerX存储库获得的基于MLP的算法检测模型。经过100次训练，我们的模型达到了76.06%的准确率。这篇文章的第三个贡献是一个支持AI的搜索引擎的原型开发，该搜索引擎实现了我们提出的一组算法的功能，以提取与算法特征有关的我们的人工智能搜索引擎的准确性与现有的最先进的模型进行了比较。最后，对该系统进行了经验评估，以比较我们的AI搜索引擎与传统搜索引擎在不需要人类认知的情况下2 文献综述虽然广泛的文献学术信息提取，我们只讨论与我们密切相关的重要作品。此外，我们讨论了最近的辩论，增强了认知计算的作用，并利用严格的语法规则，使广泛的应用，不仅在认知信息学，但在网络搜索引擎，文字处理，特别是认知系统[15]。2.1 搜索空间认知计算研究综述我们的评论表明，“认知计算”一词正在为系统（例如：IBM的Watson）智能处理在线信息，超越搜索，通过部署AI模型来放大现有工具，以识别来自更广泛科学界的相关搜索结果。具体来说，搜索引擎是一般科学界使用的最常见和最重要的工具[16]。另一类利用神经学模拟计算扩展的认知支持计算系统最近在跨学科处理非文本信息（如视频和在线图像）方面显示出潜力[17]。Wang等人[18]认为，计算相似性此外，他们强调认知模型提供了与许多搜索引擎中使用的简单的基于TF-IDF（词频-倒排文档频率）的模型相比，该模型可以提供与用户查询更高度相关的结果。最近，Analytis et al.[19]部署多属性效用模型作为认知搜索引擎，包括：（i）线性多属性模型;（ii）属性的相等权重;以及（iii）单属性启发式。他们在12个现实问题上的实验，基于正式的决策理论，展示了预测决策者将如何选择的方法，基于所呈现的排名顺序，作为商业推荐系统和搜索引擎所使用的替代品。2.2 文档元素检测从数字文章中提取文档元素，如伪代码，算法程序，表格，图形和图表，已经被广泛研究和探索[12-13] [20-22]。科学家们经常以多种方式使用这些文档元素，例如总结结果，描述分步说明和说明想法。因此，自动检测和提取这样的文档元素的能力将不仅使它们能够被索引和搜索，而且还产生依赖于这些事实和知识集中的文档实体的许多数据挖掘应用。虽然许多文档元素跟踪：认知计算WWW 2018，2018年4月23日至27日，法国里昂253虽然提取方法在基于文本的文档上起作用，但是基于光学字符识别的技术已经被设计用于文档元素的自动提取[23-24]。[25]这是一个非常重要的发现。这使用计算机视觉方法自动从图中提取结果，从而产生了从文章中自动提取结果的想法。该提取的信息可通过有效的索引进行搜索ChemxSeer上的一个专门的表格搜索系统已被设计用于从化学领域的学术文章中自动提取表格和图形[26]。另一个重要的搜索引擎，AckSeer [27]，已经被提出用于索引和搜索CiteSeerx数字图书馆中的致谢。请注意，虽然PlosOne和CiteSeerx数字图书馆都支持表格和图表的搜索功能，但这些系统都不支持文档元素的文本摘要。为了填补这一空白，Bhatia和Mitra [8]提出了一种方法，通过利用机器学习技术提取和重新排序文章中出现相应文档元素的相关句子，自动生成文档元素的摘要或文本描述。这种摘要方法有助于最终用户了解文档元素与其信息需求的相关性。图1：建议系统的高级图最近，AlgorithmSeer [11]，一个算法搜索引擎，被设计用来进行算法的自动提取、索引AlgorithmSeer还实现了一种文档元素摘要方法，从运行文本中提取算法文本元数据从算法的元数据生成概要，以使它们基于用户查询而可AlgorithmSeer假设算法可以用伪代码表示，并利用基于机器学习的方法在文本表示的文档中定位和提取算法虽然他们的伪码检测方法足够准确，可以部署在实际系统中，但它可以改进。因此，我们有使用这种方法作为基线，提出了一种改进的机器学习技术，通过使用MLP神经网络。2.3 文本挖掘的深度神经网络综述最近，深度神经网络和表示学习的发展促进了解决数据稀疏性问题和学习单词表示的新方法[28]。词嵌入通过使用两个嵌入向量之间的距离来帮助测量词的语义相关性。预训练的词嵌入和深度神经网络在许多自然语言处理（NLP）和文本分类任务中表现出色。为了找到学术文档中短语和句子的语义相关性，基于RCNN的模型对于文本分类[20]，释义检测[28]，语义角色标签[29]和递归神经张量网络[30]是最重要的。在这篇文章中，我们部署RCNN来提取文本行，在这些文本行中，我们讨论了算法的有效性，例如它们的精确度、召回率、f度量等。3 方法在本节中，我们描述我们提出的方法。图1显示了我们提取语义元数据的工作的高级别细节我们的方法有两个子模块。第一个介绍了我们对现有最先进算法（伪码或PC）检测方法[11]所做的改进，称为基线PC_ML。我们在从文档中提取的15个特征上训练了基于神经网络的模型。我们改进的PC_ML架构具有更好的准确性和精度比现有的算法。第二模块，即评估度量检测（EMD），基于评估度量提取包含算法和/或实验的讨论的文本行它采用文档分割方法[33]来提取相关部分，然后通过采用在我们手动标记的数据集上训练的RCNN来识别目标行。3.1 学术论文中的伪码检测本节讨论我们改进的方法，用于自动检测学术文章中的伪代码图图2示出了我们改进的伪码检测方法的细节。我们的技术处理PDF文档，因为在数字图书馆中的学术文章的一个大的子集首先，我们使用PDFbox库（https：//pdfbox.apache.org/）从PDF文档中提取纯文本。我们还提取了字体的对象和位置信息，使用Hassan [31]和Tiedemann [32]的工作。接下来，使用一组手工特征设计特征向量（参见表1）。最后，为了分类的目的，实现了MLP来分类文本行是否是伪代码行。我们提出的改进PC_ML方法将基线扩展到提高整体精度和f测量。由于基于机器学习的方法不依赖于基于规则的字幕检测方法[8]，因此它直接检测文章中伪代码的存在。通常，伪代码以在文档中创建稀疏区域的备用方式编写。这样的稀疏区域被称为稀疏盒。提出的改进PC_ML方法首先通过识别伪代码行来检测和提取伪代码盒。接下来，提取特征集，最后，应用基于神经网络的分类模型下面的小节包含我们改进的PC_ML方法的细节3.1.1 稀疏框提取。稀疏框是N个连续稀疏线的集合。稀疏线是满足以下规则的线跟踪：认知计算WWW 2018，2018年4月23日至27日，法国里昂254a) 非空格字符与每行平均字符数的比率必须小于阈值（0.8）;b）没有页眉或页脚;以及c）由稀疏线封装。该方法在阈值为0.8且N=4的情况下工作良好。此外，根据基线PC_ML方法，该方法显示出92.99%的高覆盖率。3.1.2 用于伪码盒分类的特征集选择。为稀疏框的每行提取四个类别中的一组15个特征。表1显示了提取的特征及其描述：基于上下文（CX）;基于内容（CN）;基于样式（ST）;和基于字体样式（FS）。CX特征捕获伪代码标题的存在，而CN通过捕获编码样式和伪代码特定的关键字来提取与伪代码的存在相关的特征。基于ST的特征捕获伪码盒和代表性符号的稀疏性。线是否是目标线。EMD将研究文章的相关部分的单词序列w1，w2，w3…wn作为输入，并输出文本的类。概率函数p（k|函数用于找到文本行属于包含目标行的类的概率。采取以下预处理步骤：3.2. 1分层节提取器。通常，文章被组织成节。为了从研究文章中提取评估结果行，我们需要将一篇文章分割成其标准部分（即摘要、介绍、背景、相关工作等）。分段的目的是只保留那些很有可能包含与结果相关的讨论的部分。我们使用基于规则的方法来分割出文章的标准章节;该技术帮助我们仅保留相关部分（即，方法、结果、实验、摘要等）并且丢弃其中靶线的机会最小或接近于零（即，介绍、相关工作、参考文献、致谢等）。之后，执行文本清理以删除页眉/页脚、文章标题、作者从属关系等。最后，将清理和相关部分的文本作为RCNN模型的输入。表1：用于伪代码（PC）分类的特征集，分类为：基于内容（CN）;基于结构（ST）;基于字体样式（FS）;基于上下文（CX）特征描述图2.改进的PC_ML算法3.1.3基于神经网络的分类模型每个伪码3.2.2基于深度学习的神经网络模型图3显示稀疏框被分类为伪代码行或不被在手工标记的数据上训练的神经网络分类。我们的神经网络由单隐层;输出层由具有S形作为激活函数的单个神经元组成。输入层的大小为15，并将表1中描述的特征作为输入。MLP分类模型在70%的实际数据上进行训练，并在30%的数据上进行测试。3.2 目标文本行检测本节包含我们部署的基于深度学习的算法的详细信息，该算法检测与学术文章中算法评估为了简单起见，我们将这种方法称为评估度量检测或EMD。利用RCNN，该模型可以捕获文本的语义进行分类RCNN [14]结构。该模型将单词和上下文作为单词的表示。我们使用双向RCNN来捕获单词的上下文。对于词wi的左上下文和右上下文，定义向量cr（wi）和cl（wi），cl（wi）使用等式（1）计算1.这里，W（1）是用于在隐藏层之间变换上下文的矩阵。W（sl）也是矩阵，并且用于将左单词的上下文与当前单词组合而e（wi-1）是单词wi-1的单词嵌入向量，具有实值元素，cl（wi-1）是前一个单词wi-1的左侧上下文类似地，以相同的方式计算cr（wi），如等式（1）所示二、cl（wi）= f（（W（l））cl（wicr（ wi） =f（（W（r））cr（ wiCNPC关键字%PC字数比。口水PC符号%PC符号与编号的比值行中的字符数词稀疏性数量比的话和avg。号中词的的线Char. 稀疏性分数不。行中的字符数和平均值。号半焦St希腊字符%希腊符号和数字的比率的字符线注释符号%注释符号与编号的比率的线功能%数量比的功能和不。的线开头是不。行是否以“否”开头FS模式字体大小文本的模式字体大小差异字体大小文本的字体大小差异字体样式%号字体样式的组合字体名称）Font-style开关号字体样式开关压痕行是否缩进Avg. 压痕前4个字符Avg. 前4个字符缩进CX 是字幕文本行是否为标题行跟踪：认知计算WWW 2018，2018年4月23日至27日，法国里昂255我（一）I=2（一）KRCNN模型的训练：首先，我们定义了用于训练的所有模型参数，如等式（1）所示。第八章：={E，b（2），b（4），cl（w1），cr（wn），W（2），W（4），W（l），W（r），W（sl），W（sr）} （八）这里，向量b（2）、b（4）是实值向量，并且E是实值词嵌入，而W（2）、W（4）、W（1）、W（r）W（sl）、W（sr）是变换矩阵，并且cl（wl）、cr（wn）是初始左上下文实值向量和右上下文实值向量。目标是最大化关于的概率（对数似然）。�� → ∑ c∈Dlog p（c类|D，��）（九）图3.带有下标的RCNN网络结构，用于表示单词在句子中的位置当量1和等式2是左和右单词的上下文向量。参照图3，cl（w/）以编码的形式包含所有左侧词的上下文和语义。网络的左上下文是“SVD算法显示高”，具有句子的所有先前单词。类似地，cr（w7）包含右上下文。接下来，通过组合左上下文和右上下文来学习单词w_i表示，如等式（1）中所示。第三章：= [c（w）; e（w）; c（w）]（3）由方程式图9中，D是文档的集合，并且类c是文本数据的正类我们使用随机梯度下降（SGD）进行训练优化。此外，我们采用基于Skip-gram模型的单词嵌入（通常用于NLP任务[33]）进行单词表示。由于我们的数据集存在类不平衡问题，为了避免模型中的偏差，我们采用了以下平衡技术：a）随机过采样（ROver），其中少数类示例被随机复制，直到两个类变得相等;以及b）随机欠采样（RUder），其中随机丢弃多数类示例，直到两个类变得相等。请注意，与PC_ML模型相同，70%的数据用于训练，30%用于测试。然而，在应用平衡技术之后，我们有4337个阳性样本;即目标行和4770个否定实例，即除了目标文本行之外的文本行，不包含关于相应算法的效率的信息。最后，我们调整了网络超参数设置，例如H（隐藏层大小）为100，学习率为0.001，V（词汇量大小）为3000，训练次数为100。i l i i r i该模型分别在前向和后向通道中获得所有cl和cr。在学习单词的xi表示之后，应用线性变换，其中tanh激活函数添加一些非线性：3.3 基于改进PC_ML和EMD模型的人工智能搜索引擎我们的AI搜索引擎有以下步骤：i）使用针对每一个的改进的PC_ML和EMD模型的概要生成y（2）=tanh（W（2）+ b（2））（4）系统中的文档;ii）数据集的标准索引ii即概要和全文文件;以及iii）最后，y（2）是一个潜在语义向量，通过分析每个语义因素，它包含了文本表示中最重要和最强大的因素。该模型还包含一个最大池化层，如网络架构中所述（见图3）。池化层将不同长度的文本转换为固定长度的向量。它有助于通过整个文本找到最重要的因此，在学习了所有单词的表示之后y（3） =mainy（2）（5）max函数被逐元素地应用，并且y（2）的第k个元素的最大值在y（3）的第k个位置。最后模型包含单个完全连接的隐藏层作为输出层，如等式2所示。第六章：中文（简体） = W⑷y ⑶+b ⑷⑹最后，将S形激活函数应用于y（4）以给出概率数，如等式（1）所示第七章：（四）部署最先进的搜索模型来针对用户查询对结果进行排名，以用于简单的基于全文的语料库和基于概要的语料库的比较分析。4 实验与评价实验包括两个模块：利用MLP的伪码检测以及使用RCNN的目标文本行检测（传达关于对应算法的效率的信息）。实验在具有2GB内存的Ubuntu、Nvidia Titan 750GPU上进行我们使用Python Chainer Library（https：//chainer.org/）实现RCNN，使用Weka（https：//cs.waikato.ac.nz/）实现MLP。该数据集包括从CiteSeerx存储库中选择的258篇学术文章请注意，我们的基线模型PC_ML使用相同的数据集，使我们的改进PC_ML与基线相当。该数据集由275个伪代码和282个唯一算法组成对于目标文本行检测，我们使用了258篇学术文章的相同数据集。请注意，在我们的数据集中总共37，000个文本行中，只有6.3%包含传达有关相应的p（i）exp（yk ）的方式1+exp（y（4））（七）算法请注意，注释由四位人类专家进行，他们将2331个文本行识别为目标行。=跟踪：认知计算WWW 2018，2018年4月23日至27日，法国里昂2564.1 一种改进的PC_ML检测算法的性能评价标准精度，召回率，f-测量和准确性指标用于评估伪码检测和目标文本行检测。表2示出了我们的基准PC_ML和用于伪码检测的改进的PC_ML的比较。我们发现改进的PC_ML（使用MLP）在所有评估指标上都优于PC_ML（基线）。我们使用基线改进的PC_ML模型实现了98.8%的f-测量，而使用我们的PC_ML模型仅为75.95%。这比基线提高了27%同样，我们在召回率（从67.17%到96.7%），准确率（从87.37%到97.4%）和整体f1测量（从75.95%到96.5%）方面分别取得了显着的改善。4.2EMD模型的评价为了在我们的数据集上评估EMD模型，我们使用以下实验设置。网络超参数分配如下：隐藏层大小（H）1000;学习率0.01;词汇量（V）3000;和训练时期100。训练计算每个类的指标，并取100个epoch的EMD方法的平均准确度，以描述我们模型在训练期间的行为。在前20个时期，模型开始学习得非常快。之后，它显示出准确性和范围的逐渐增加，高达76.06%（见图1）。（五）。接下来，我们展示了我们在精确度、召回率和f-测量方面的测试结果。基于RCNN的EMD模型达到了0.77的精确度，0.73的召回率和0.75的f-测量，这是一种非常合理的方法来检测这种类型的数据库中的目标线。请注意，我们通过计算每个类的指标并取平均值来报告加权的精确度、召回率和f-measure分数。表2：伪码检测模型的精确度、召回率和f-度量图4：所提出的支持AI的搜索引擎的系统架构5人工智能搜索引擎原型在本节中，呈现了支持AI的搜索引擎的原型。图4示出了我们提出的系统的高级架构。语料库中有30%的测试数据，即74学术文章-首先，我们丰富的概要生成的文档嵌入目标文本行，检测EMD模型。接下来，这些丰富的概要被标记和索引，使它们可搜索。采用用户查询来获得结果的排名列表最匹配的算法及其概要将呈现给最终用户。最后，将PC_ML检测算法嵌入到查询结果中，使查询结果更加全面、精细。使用Okapi BM25 [34]，计算相似性分数以对两个搜索引擎的查询搜索结果进行排名。为了根据经验评估我们提出的支持AI的搜索引擎对最先进的传统搜索引擎的性能，我们选择了一组由两个独立的人类注释器识别的查询和相关文档。图5.传统搜索引擎图5示出了使用常规搜索引擎的搜索查询“具有高性能和较低复杂性的确定性多数投票算法”的前15个文档注意，确定性多数表决算法用于N模冗余。详细的分析显示，列表中的前10个文档讨论了该算法，并对不同的算法技术进行了比较分析。我们还发现了一些讨论分类相关问题中使用的投票技术的文档，这些文档与确定性多数投票算法无关。有趣的是，最初提出该算法并提供其性能评估详细讨论的文档出现在第12位。方法模型Re%Pr%F1%PC_ML基线67.1787.3775.95PC_ML（改善）MLP96.797.496.5跟踪：认知计算WWW 2018，2018年4月23日至27日，法国里昂257图6：支持AI的搜索引擎相比之下，我们支持AI的搜索引擎的搜索结果似乎非常不同。图6显示了同一查询的前15个文档对这些文档的详细分析表明，前五个文档呈现伪代码或算法过程。有趣的是，我们想要的文件，在传统系统中出现第 12位此外，PC_ML嵌入允许用户点击相应的总的来说，这提供了很好的用户体验，使用户能够快速搜索相关信息由于索引和搜索技术的实施，以承担基于文本的文档检索任务，搜索算法是一个不平凡的问题，需要专门的知识，缩小到特定的所需的算法。因此，本节的主要目的是演示一个基本的原型搜索系统，该系统利用算法特定的元数据，包括与性能相关的特征，如精度、召回率、f-度量等，以提高搜索结果的相关性。6总结发言计算机科学是关于开发和应用适当的算法来解决计算问题的。最近，一个搜索引擎的算法表示为伪代码已经提出和原型。然而，这样的算法搜索引擎仅将用户查询与每个伪代码的提取的通用文本元数据匹配。在这篇文章中，我们提出了解决方案，以提高性能的伪代码检测任务，通过训练一个多层感知器分类器使用15个功能，专门表征学术文档中的伪代码的组成所提出的算法提高了国家的最先进的伪码检测方法的27%。此外，我们部署了最先进的单词嵌入和RCNN模型来从文档中发现和检索句子，以传达关于相应算法的效率的信息（诸如精确度、召回率和f-度量）。最后，使用我们支持AI的搜索引擎的原型，我们展示了我们部署的模型可以改善搜索结果。作为未来的工作，我们计划克服这项工作的一些局限性，如部署的技术使用相同的嵌入向量的数字和英语文本。因此，对于与算法特征相关的以下文本：“该方法的准确率和召回率分别为81.5和81.5，比基本模型高出20%。” ，我们可以采用自然语言处理和机器学习技术来提取算法性能的数字表示。该信息将使得能够与其他算法进行直接比较。此外，我们可以研究在大规模数据语料库中提取其他算法特定元数据的可能性，例如运行时复杂度、输入、输出和兼容数据结构参考文献[1]M. J. Wise，“Neweyes：一种使用Karp-Rabin Greedy String-Tiling算法比较生物序列的系统。见ISMB，1995年，第112页。393- 401[2]Z. Djuri ć 和 D. Gašević ， “A source code similarity system for plagiarismdetection，”Comput. J. ，vol.56号不行第1页。70[3]H. Li，“Aligning sequence reads，clone sequences and assembly contigs with BWA-MEM，”ArXivPrepr. ArXiv13033997，2013。[4]P. J. Ochieng，T. Djatna和W. A. Kusuma，117-122[5]Z. Chen，中国山核桃A. Nazir，E. N. Teoh，E. K. Karupiah等人，145-149[6]R. 德雷泽夫斯基湾Dziuban、Lukasz Hernik和M.Pączek，“数据挖掘技术用于洗钱检测系统的比较”，在信息技术科学（ICSITech），2015年国际会议，2015年，第10页。五比十[7]W. Verbeke，K.Dejaeger，D.Martens，J.Hur和B.Baesens，“电信行业流失预测的新见解：利润驱动的数据挖掘方法，“Eur。J. 操作员Res. ，vol.218号不行第1页。211[8]S. Bhatia和P.Mitra，“总结科学出版物中的图、表和算法以增加搜索结果”，ACMTrans. INF. 系统 TOIS，vol. 号301，第3页，2012年。[9]S. Bajracharya等人、“源者：a search engine for open source code supportingstructure-based search，”in Companion to the 21st ACM SIGPLAN symposiumon Object-oriented programming systems，languages，and applications，2006，pp. 681-682[10]C. McMillan，M. Grechanik，D.波希瓦尼克角Fu和Q. Xie，“Exemplar：用于寻找高度相关的应用的源代码搜索引擎，”IEEE Trans.Softw.2005，第100页。Eng. ，vol.38岁不第5页。1069[11]S. Tuarob，S. Bhatia，P.Mitra，和C. L. Giles，“AlgorithmSeer：A systemfor extracting and searching for algorithms in academic big data ， ”IEEETrans.BigData，vol. 号2第1页。2016年3月[12]S. Tuarob，S. Bhatia，P.Mitra，和C. L. Giles，738-742[13]S. Hingmire ，S. Chougule 、G. K. Palshikar 和S. Chakraborti，“Documentclassification by topic labeling” ， in Proceedings of the 36th international ACMSIGIR conference on Research and development in information retrieval，2013，pp. 877-880.[14]Safder，I; Sarfraz，J; Hassan，SU; Ali，M; Tuarob，S; Detecting TargetText related to Algorithmic Efficiency in Scholarly Big Data using RecurrentConvolutional Neural Network Model，19th International Conference on Asia-Pacific Digital Libraries（ICADL），曼谷，泰国.[15]Wang，Yingxu，and Robert C.贝里克认知语言学、机器学习和认知计算的英语句法的形式关系规则”《高等数学与应用》第2卷，第10期。 2（2013）：182-195。[16]Gil，Yolanda，等.“用人工智能放大科学发现“Science346.6206（2014）：171-172.跟踪：认知计算WWW 2018，2018年4月23日至27日，法国里昂258[17]M.Martialay，http://approach.rpi.edu/2014/04/25/citizen-scientist-your-safari-photos-are-the-[18]王玉，劳斯莱斯外星人Howard，N.Raskin，V.Kinsner，W.，Murtagh，F.，Bhavsar，V.C.，Patel，S.，帕特尔，D。和Shell，D.F.，2015.认知信息学和计算智能：从信息革命到智能革命。 International Journal ofSoftware Science and Computational Intelligence （ IJSSCI ）， 7 （ 2 ），pp.50-69.[19]Analytis，P.P.，Kothiyal，A.和Katsikopoulos，K.V.，2014年多属性效用模型作为认知搜索引擎。判决和决策，9（5），第403 - 419页。[20]S. 莱湖，澳-地Xu，K.Liu和J.Zhao，在AAAI，2015，vol.333，pp.2267-2273[21]T. Mikolov，W.Yih和G.Zweig，在Hlt-naacl，2013，vol.第13页。746-751[22]B. Coüasnon和A.Lemaitre，647-677[23]S. Z. Chen，M.J. Cafarella和E.阿达，前面Eng. Natl. Acad. Eng. ，页。69[24]S. Kataria，W.Browuer，P.Mitra和C.L. Giles，在AAAI，2008，vol.第8页。1169-1174年。[25]N. Siegel，Z.霍维茨河Levin，S.Divvala和A.Farhadi，664-680[26]P. Mitra，C. L.贾尔斯湾太阳，Y。Liu和A. R. Jaiswal，“Scientific Data andDocument Processing in ChemxSeer.”在AAAI春季研讨会：语义科学知识集成，2008年，pp。51比56[27]M. Khabsa山口Treeratpituk和C.L. Giles，engine for automatically extracted acknowledgments from digital libraries ，185-194。[28]R. Socher ， E.H. Huang ， J.Pennington ， A.Y. Ng 和 C.D. Manning ，见NIPS，2011年，vol.第24页。801-809[29]R. Collobert，J.韦斯顿湖Bottou，M. Karlen，K. Kavukcuoglu和P. Kuksa，“Naturallanguageprocessing（almost）fromscratch，”J. 马赫学习. Res. ，vol.12，no. Aug，pp. 2493[30]R. Socher等人，1631，p.1642年[31]T. Hassan，47比55[32]J. Tiedemann，102-112[32]S. Tuarob、P.Mitra和C. L. Giles，“Ahybridapproachtodiscoversemantichierarchicalsectionsinscholarlydocuments”，inDocumentAnalysisandRecognition（ICDAR），2015年第13届国际会议，2015年，第13页。1081-1085[33] M.巴罗尼湾Dinu和G. Kruszewski，“不要数，预测！上下文计数与上下文预测语义向量”在ACL（1），2014，pp. 238-247[34]Robertson ， S.E.Walker ， S. ， Jones ， S. ， Hancock-Beaulieu ， M.M. 和Gatford，M.，1995. TREC-3的OkapiNist Special Publication Sp，[35]Rose，S.，Engel，D.克莱默和Cowley，W.，2

下载后可阅读完整内容，剩余1页未读，立即下载