没有合适的资源?快使用搜索试试~ 我知道了~
沙特国王大学学报数学信息检索中公式的上下文嵌入与推广Pankaj Dadure,Partha Pakray,Sivaji Bandyopadhyay计算机科学与工程系,国家理工学院锡尔查尔,阿萨姆邦788010,印度阿提奇莱因福奥文章历史记录:2021年4月23日收到2021年5月6日修订2021年5月28日接受在线预订2021年保留字:数学信息检索公式嵌入公式推广位位置信息表相关性分数相似因子A B S T R A C T从科学文献中检索数学信息是一项重要的任务。数学信息检索(MIR)系统的发展主要集中在索引和检索机制的改进上,但其评价指标的不足反映了这些系统的局限性。这些改进和新的创新通过包含功能来扩大范围,可以解决MIR系统的挑战。此外,为了提高MIR系统的性能,本文提出了一种结合上下文的公式嵌入和泛化方法 ,并 创新 性地 采用 了相 关性 度量 技 术。 在该 方法 中, 文 档预 处理 器模 块对 文档 进行 预处 理, 并 提取Presentation MathML格式的公式及其上下文。所提出的方法的公式嵌入和泛化模块形成二进制向量,其中所提出的方法的创新的相关性测量技术该方法在NTCIR-12的Wikipedia MathTagArticles上进行了测试,结果验证了公式上下文和相异因子在数学信息检索版权所有©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍信息检索是自然语言处理的一个重要应用,近年来受到广泛关注。IR包括一系列与文本、图像和视频数据的存储和检索相关的技术。在过去 , 不 同 的 技 术 已 被 广 泛 使 用从 文 档 中 有 效 检 索 文 本 信 息(Carpineto和Romano,2012)。然而,这些基于文本的方法不足以检索数学信息,因为这样的信息难以编码并且具有二维符号对齐而不是字符串。科学文献中含有丰富的科学文本和数学*通讯作者。电子邮件地址:pankaj_rs@cse.nits.ac.in(Pankaj Dadure)。沙特国王大学负责同行审查表情此外,由于数学信息通常由文本补充,因此需要数学搜索引擎使用文本或使用公式来搜索数学内容。在大多数情况下,数学表达式不能详细解释,也不能用几句话来搜索,而是这些公式补充了文本的意义。这就要求数学信息检索系统具有一定的便利性。数学表达式 可以被描述为半形式化 的视觉语言(Zanibbi andBlostein,2012)。数学符号、音乐符号、化学符号都被认为是表达其意义的图形语言,并以自己的方式使用。然而,存在用于识别数学表达式的许多绊脚石(Schubotz等人, 2015年)。首先,存在各种各样的方法来表示数学公式,如LA TE X、MathML及其扩展。其次,科学文献中的公式包含许多符号,很难相互区分。第三,具有不同字体脚本和字体的大量字符集合使得符号识别更加复杂。第四,在符号中可能存在值得注意的歧义,其中相同的符号具有不同的含义。例如,点符号可以用作分数值或乘法运算符。五、基于https://doi.org/10.1016/j.jksuci.2021.05.0141319-1578/©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一个在CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。制作和主办:Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comPankaj Dadure、P.Pakray和S. Bandyopadhyay沙特国王大学学报6625B--洛x;x2或ffiffiffiffiffiffiX. 这些观察表明缺乏知识在域上,同一个符号可能扮演不同的角色。例如,λ常数可以被定义为变量、常数或绑定函数。第六,一些数学公式可能是手写的,这使得符号的分割更加复杂。第七,识别空间关联是费力的,例如P A代表条件概率或常数A除以常数B,结果乘以常数P。第八,一些数学公式有替代的表示法为例如,x的平方根可以用三种不同的形式表示p1p2数学信息检索中运算的优先级、运算之间的关系等问题,给数学信息检索带来了很大困难。数学信息的检索不同于文本信息的检索,而在文本信息检索中,用户在检索相关文档时,输入与所需信息相关的少量关键词,而不是输入所需信息的全部,检索系统根据这些关键词来检索相关文档。但在MIR中,用户输入公式,这是所需信息的完整形式。因此,MIR系统应该能够为那些包含完整形式的用户查询的文档分配优先级。例如,用户想要搜索与公式log xlogy相关的文档和结果为该查询生成的是logx_y;log x_y_z;log x_y;log xy和log x_y。在生成的结果中,第三个(log x y)是完全匹配的,其余的是子公式或父公式公式。MIR系统的这种行为表明,MIR系统仅考虑了用户查询和科学文献中包含的公式之间的相似性,用于检索和排序检索文献。但在MIR中,用户查询和文档中包含的公式之间的不相似性也是有助于有效地从用户查询中分叉精确匹配、子公式和父公式近年来,传统的IR系统在索引和搜索机制上已经经历了显著的改进,以促进MIR。此外,传统的索引机制在处理科学符号、外来术语和复合符号时效率低下。这样的符号要么被忽略,要么被误解,最终影响检索性能。数学信息的标引有规范化、标记化、结构统一化和数学表达式的不同表示等不同的规定,这些规定导致检索到相关的检索结果。规范化处理数学符号的表示,这些符号几乎相似,只是在语法上有微小的差异,因此,通过在相同的位置索引它们来减少冗余。类似地,标记化和结构统一有助于找到语义上相似的公式和子公式(Ruzicka等人,2014;Ruzicka等人,2016; Sojka and Liska,2011).本文提出了一种MIR的公式嵌入和一般化方法。在该方法中,文档预处理器对文档进行预处理,提取公式Presentation MathML格式及其周围的文本。所提出的方法的公式嵌入和泛化模块构建二进制向量,并通过索引器将其与其周围的文本进行索引。所提出的方法的创新的相关性测量技术排名第一,这是检索公式嵌入和泛化方法相比,一个单独的文件。所提出的方法的性能已经在NTCIR-12 MathIR任务的维基百科语料库上进行了测试(Zanibbi等人,2016年)。论文的其余部分组织如下:第2节描述了相关的工作。第3节详细描述了主体和系统架构。第4节描述了所提出的方法的实验结果及其比较分析. 第五部分总结全文并提出进一步研究的方向2. 相关工作许多研究工作已经完成,这已经面临着显着的增长和发展,导致高功能系统的新发明。在这方面的相关工作是EgoMath2(Mišutka和Galamboka,2011),它增强了公式的不同表示,并通过在增广公式中对操作数进行排序来获得它们的规范形式。为了简化数学表达式的检索,数学索引器和搜索器(MaaS)系统(Sojka和Liska,2011)对公式执行规范化和统一操作。为了评估文档和用户查询之间的相关性,MIaS使用了启发式加权方法。在NTCIR- 10中,MIRMU团队(Liska等人,2013)提出了一种文本和数学搜索方法,其中数学符号被视为文本。在这种方法中,数学符号被预处理(规范化,标记化和结构统一),以使它们与基于文本的搜索方法兼容。 在NTCIR-10,BRKLY团队(Larson等人,2013)提出了一种基于关键字的数学信息检索方法。这种方法的性能得出结论,数学搜索是定性和定量的不同,基于文本的搜索方法,需要显着的改进,以实现显着增长的数学信息检索领域。在NTCIR-11上,KWARC团队引入了MathWebSearch(MWS)(Hambasan等人,2014),它解析文档的内容并生成XML文件。这些XML文件包含ContentMathML格式的公式和纯文本。MWS公式索引器通过对ContentMathML树的深度优先遍历对XML文件中包含的公式进行编码和索引。Tangent系统(Pattaniyil和Zanibbi,2014)将文本检索系统与按表达式查询系统相结合。按表达式查询是一种用符号对表示表达式的词袋方法。切线系统预处理(规范化和符号对元组生成)数学数据并创建索引。ICST的WikiMir系统(Gao等人, 2016)关键字该方法考虑了公式的结构信息及其在文档中的重要性该系统提出了一种新的混合索引和匹配模型,以支持精确和模糊匹配。为了增加结果的意义,系统通过查询公式的正则表达式匹配来重新排列前k个公式。在NTCIR-12,FSE团队(Schubotz等人, 2016)使用了一种简单的方法来创建维基主任务的手动运行。其中物理学家和计算机科学家分析了查询,并在en.wikipedia.org的搜索界面中输入了相关维基百科页面的标题。对于某些查询,FSE在NTCIR-12上,MCAT团队介绍了基于Apache Solr数据库的索引技术(Kristianto等人, 2016年)。对于文本信息,MCAT搜索系统执行三个粒度步骤数学、段落和文档级别。对于数学信息,它使用数学表达式之间的依赖关系、分数归一化、冷启动权重和统一操作。依赖关系和统一大大提高了搜索精度。然而,冷启动权重并没有很好地影响搜索性能,因为他们的数据库MIRMU 团队的MIaS 系统( Ruzicka 等人, 2016 )使用NTCIR-11数学-2任务的相关性判断。除此之外,还开发了一个评估平台,以仔细评估新功能的组合,并选择最有前途的功能方式:Pankaj Dadure、P.Pakray和S. Bandyopadhyay沙特国王大学学报6626--进行NTCIR-12评估新功能的主要目的是进一步规范MathML输入,对公式进行结构统一以搜索语法相似的搜索,并扩展查询以获得更好的文本和数学组合查询结果。RITUW团队的Tangent-3系统(Davila等人,2016)使用了两个索引,一个是基于Solr的文本信息索引,另一个是自定义的数学信息倒排索引。为了高效搜索,自定义倒排索引使用了标记:符号对及其空间关系。其中文本和数学索引分别查询,并在此基础上,通过数学表达式和关键字相似性得分的线性组合对文档进行排名。在相似度计算中,关键词匹配和公式匹配的权重相等。约束统一积极影响公式检索,以及先进的相似性度量,更好地利用从索引返回的公式的高召回率。SMSG 5的数学搜索系统(Thanda等人,2016)使用弹性搜索作为主要排名机制。为了改善这一点,引入了创新的排名技术来重新排名文件和公式,即,基于Borda计数的混合排序技术,该技术基于doc2vec模型、潜在Dirichlet分配symbol2vec(Gao等人, 2017)方法已编码数学公式转换成矢量表示。在该方法中,Para- graph Vectors为了达到显着的准确性,sym-bol 2 vec结合语言模型和性能评估措施表明,symbol 2 vec+语言模型给出了一个更好的搜索结果比个人的。MathIRs系统(Pathak等人, 2017)使用了标记化和公式统一来查找子公式和相似公式,并引入了基于替换树的技术来有效地存储数学表达式。MIaS系统的扩展版本(Sojka等人,1923年)使用ApacheLucene搜索引擎进行数学和文本信息检索。在这种情况下,MIaS单独操作文本和数学信息对公式进行规范化、排序和标记化等预处理,有效地单词嵌入方法(Youssef和Miller,2019)使用基于质心的查询扩展技术研究了数学术语的相似性,类比和基本的数值概念建模。质心的方法允许用户分配或多或少的优先级特定的关键字。此外,公式嵌入方法(Pathak等人,2018)将数学公式转换为0和1的向量,其中1表示公式中存在特定实体,0表示不存在特定实体。对于从公式到向量的转换,使用了位位置信息表。 除了数学信息之外,数学公式的二进制向量变换(Binary Vector Transformation of MathFormula,BV)(Pathak等人,2019)使用文本数据提供搜索结果。公式蕴涵方法(Pathak等人,2019)发现了LSTM神经网络在数学信息检索中的作用。公式蕴涵方法识别数学用户查询和索引公式之间的蕴涵。AnnoMathTex-推荐系统(Scharpf等人,2019),其通过将含义分配给来自公式周围的文本的标识符来启用公式注释。公式嵌入模型,即,切线-CFT系统(Mandarin等人,2019),使用两个代数表示来表示数学信息,即,符号布局树(SLT)和操作树(OPTs),并考虑了元组生成的符号对之间的路径。使用fastText n-gram嵌入模型嵌入了生成的元组,为了实现最先进的结果,结合了SLT和OPTs表示的嵌入等级安全的动态修剪策略(Zhong等人, 2020年)介绍一个上界制剂结构与使用子树匹配加速公式搜索的相似性,并揭示了具有专门倒排索引的动态修剪策略不同于传统的线性文本搜索修剪方法。为了理解数学文本,系统需要分析其数学结构的语义,并将其内部元素与相应的概念或前提联系起来。例如,自然语言前提选择的方法(Ferreira和Freitas,2020)用于检索支持定义和支持命题,这些定义和命题对于生成特定语句的非正规数学证明非常有用。3. 方法3.1. 语料库描述所 提 出 的 方 法 已 经 在 NTCIR-12 的 维 基 百 科 语 料 库 的MathTagArticles(Zanibbi等人,2016年)。它包含31,839篇数学文章,构成579,608个公式。MathTagArticles中包含的文档包括文本和数学信息。所提出的方法的文档预处理器模块提取数学表达式及其周围的文本,以实现所提出的方法的最佳效果,如第3.2.1节所述。在维基百科的数学文章中,数学信息以三种不同的格式表示:表示MathML,内容MathML和LA TE X格式。3.2. 系统架构本节简要描述了拟议的系统架构。系统架构如图1所示,其中各个模块协同工作以获得相关的搜索结果。公式嵌入和公式泛化是该系统的两个重要模块。公式嵌入模块的主要任务是检索语法相似的公式,而公式泛化用于检索相对于用户输入的查询的语义相似的公式。系统架构的组成模块在以下小节中描述3.2.1. 文件预处理机维基百科语料库中的数学文章包含文本和数学内容。arti- cles中的数学公式以三种不同的形式编写:Presentation MathML,Con-tent MathML和LA TE X。图2显示了数学表达式x22 x 其中图2(a)表示呈现MathML格式的公式,图2(b)表示内容MathML格式的公式,以及图2(c)表示内容MathML格式的公式。 2(c)代表LA TE X格式的公式。所提出的体系结构的文档预处理器模块提取由“'math >“”/math >“标记的数学符号&"“其中@是1,2,3,. . n和每个公式的上下文。公式的上下文是一个小窗口,捕获每个公式的10个周围唯一的单词。图3示出了电子碰撞激发方程的维基百科文章的片段,其中以蓝色突出显示的是被认为是以黄色突出显示的方程的周围文本的关键字。在这个代码片段中,文档预处理器模块提取了包含标题、标题和10个相关词汇的数学公式。3.2.2. 公式嵌入模块系统架构的公式嵌入模块使用位位置信息表(参见表1)来生成二进制向量。此模块将公式转换为二进制Pankaj Dadure、P.Pakray和S. Bandyopadhyay沙特国王大学学报6627--þFig. 1.建议方法的系统架构。图二. 数学公式的不同表示形式。大小为202的向量,其中1表示公式中存在特定实体,0表示公式中不存在特定实体。例如,考虑一个数学公式x22y 1,它包含2个变量,即x和y,2个运算符,即-和+,1个数值和1个上标实体。公式嵌入的过程如图所示。第4(a)段。3.2.3. 公式泛化模块为了检索语义相似的公式,所提出的系统架构部署了公式泛化模块。公式泛化模块提取公式中存在的所有实体,并将其转换为大小为202的泛化向量,其中1表示公式中存在特定实体,0表示公式中不存在特定实体。广义向量形式中,位位置0-25和位位置150-201处存在的词汇实体被设置为“0”。公式一般化方法的主要任务是表示语义相似公式成统一的形式。例如,a2b2和x2y2分别表示为0 2 0 2。公式生成过程如图所示。 4(b).3.2.4. 嵌入式公式索引器公式嵌入方法的索引器模块为公式嵌入模块生成的向量创建索引。每个索引对应于四个字段:公式的向量表示、公式的上下文、公式最初构成的文档ID以及公式中的公式。Pankaj Dadure、P.Pakray和S. Bandyopadhyay沙特国王大学学报6628RVST~图三. 公式-单词上下文窗口。表1位位置信息表实体职位实体职位a/A至z/Z 0实验4Z57!89121= 26N58 Trigo。比率90-122产品27Q59R910123-28,29a61 gcd 939125+30c62 xor 94r31x63s95 lim 127@32#64g96,h128!33Var. 名称65r97>,i129电话:0531-8888888传真:0531 - 8888888(35y67#99)36:68p100u132地址:香港新界荃湾区6938N70F102K134/39/u,U71g1032014年12月24日135136演示MathML格式。索引器为从31,839个文档中提取的579,608个公式生成索引。索引的总大小为787.6 MB,占语料库大小的37%。嵌入式公式索引结构如图所示。 五、3.2.5. 广义公式索引器类似于嵌入式公式索引器,广义公式索引器生成科学文档中存在的预处理的广义公式的索引广义公式索引包含来自31,839个文档的579,608个广义向量,大小为787.6 MB,约为语料库大小的37%像嵌入式公式索引,广义公式索引由四个属性组成:广义形式的向量,公式、从中提取公式的文档ID以及Presentation MathML格式的公式。3.2.6. 查询嵌入模块用户查询是数学公式和文本关键字的组合。查询嵌入模块提取用户查询中存在的实体,并使用位位置信息表(参考表1)来生成查询向量,其中1表示存在,0表示不存在特定的=41p736105#137Ç42D742106⊂138~J43444546LRS.. .75767778½]ω,×R107108109110detP模补139140141142474849Dw,WC798081ˆP111112113P,P,J昏暗:¼143144145;<搬运工>505152531qbk82838485–(),())D114115116117ffi最大inf最小1461471481495455nQ8687e8118119a/A至z/Z以上标a/A至z/Z以下标150–175176–201Pankaj Dadure、P.Pakray和S. Bandyopadhyay沙特国王大学学报6629图四、使用公式嵌入和泛化模块的矢量生成过程图五.嵌入式公式索引的结构。用户查询中的实体。在成功生成查询向量之后,将带有关键字的查询向量馈送到查询器和运行器模块中。3.2.7. 查询泛化模块与公式泛化模块类似,查询泛化模块将用户查询转换为泛化查询向量。然后,查询向量及其关键字被发送到所提出的方法的查询和排序模块。查询生成模块将位位置0-25之间存在的所有实体和位位置150-201处存在的词汇实体替换3.2.8. 搜索器和排序器模块提出的公式相关性度量方法考虑了索引公式与用户查询的相似性和不相似性。索引公式的相似性因子描述了索引公式与用户查询的相似程度,而索引公式的相异性因子描述了索引公式与用户查询的相似程度。索引公式描述索引公式偏离用户查询的程度。相似性和相异性对检索完全匹配公式、子公式和父公式的贡献相等。查询转换的过程如第3.2.6节和第3.2.7节中所述,其中用户查询通过查询嵌入和泛化模块被转换成0和1的向量对于公式相关性分数,查询向量查找索引中存在的公式的所有向量。对于存在于索引中的每个公式向量,如等式2中所定义的那样计算相似性和相异性。(一). 所提出的公式相关性度量技术在数学信息检索的排序机制中起到了平衡因素的作用。对于上下文相关度,该方法将每个输入关键字与每个索引上下文进行匹配,计算查询和索引上下文之间的相似标记的数量。最终的相关性分数将公式和上下文相关性分数组合成如等式中定义的单个度量。并且在算法1中定义了用于相同的伪码。Pankaj Dadure、P.Pakray和S. Bandyopadhyay沙特国王大学学报6630然后然后公式相关性评分f;qb; qc;相似性评分f;qd-相异性f;q1其中f对应于文档中存在的公式,q是用户查询。相似性(f,q)和不相似性(f,q)分别计算公式中关于用户查询的相似位和不相似位的数量。最终相关性评分f;q公式相关性评分f;q公式相关性评分上下文相关性得分ð2Þ其中,公式相关性得分(f,q)计算公式向量与查询向量之间的相关性。上下文相关性得分(f,q)计算公式的索引上下文与用户查询中包含的关键字算法1相关性分数的伪码Require:formula_vector[202] ->科学文档Require:query_vector[202]->用户查询的向量表示similarity_score = 0dissimilarity_score = 0relevance_score = 0对于i¼0至201 doif查询vector1公式vector1公式如果相似度i><$00&&相似度i25相似度i><$150相似&&度i<<$201相似度_得分+=0.5<其他相似度分数++结束如果结束如果如果您正在查询vector½i]0公式vector½i]0公式然后如果用户名i><$00&&用户名i25用户名i><$150&&用户名i<<$201用户名<相关性分数的范围没有定义,它可以是正值或负值。在成功计算相关性分数之后,排名器模块将从两种方法检索到的文档进行组合,即,公式嵌入法和公式生成法。ranker模块的主要目标是根据检索方法对文档进行排名。从公式嵌入和公式泛化两种方法中检索到的文档作为对比具有更高的优先级。然后,优先考虑那些从公式嵌入方法中检索到的文档。从公式泛化方法检索的文档具有比组合和公式嵌入方法更低的优先级。作为最终的搜索结果,排名器模块返回相对于用户输入的查询的前25个检索到的文档。以下要点对于矢量生成和比特位置信息表(BBIT)的处理是重要的:1. 与内容相关的位位置0标签,位位置26位位置1502. 在语义相同的实体之间没有区别,例如大小写变量之间没有区别,相同的3. 对于向量生成,仅考虑特定实体的一次出现,即使该实体出现不止一次。4. 为了获得更一般化的结果,所有的三角函数被分配到相同的位位置。5. 位位置65被标记为多用途变量,其作用未被预定义,如log、lim等。然后dissimilarity_score+=0.5其他dissimilarity_score++结束如果结束如果端relevance_score=(similarity_score-dissimilarity_score)以下是计算文档与用户查询之间的相关性分数的重要关键点在公式相似性的计算中,存在于表1的比特位置0-25和150-201处的实体公式f中存在的关于用户查询q的相似和不相似位的数量是相同的。因此,所提出的相关性度量方法保证了平等的对称性。这个性质证明了公式和查询之间的不相似性与相似性具有相同的重要性。对于归一化的相关性分数,从相似性分数中减去公式与查询之间的相异性分数。归一化的相关性分数被认为是特定文档相对于用户查询的相关性分数。4. 实验设计和结果4.1. 查询集描述为了评估所提出的方法的性能,70数学查询已被采用的查询表示在演示MathML格式。查询集由简单和复杂的查询组成,这导致了所提出的方法的有效的per-perception评估。在上述70个查询中,30个查询是从维基百科主任务获得的,40个查询是从NTCIR-12的维基百科公式浏览任务获得的(Zanibbi等人,2016年)。每个查询都有一个唯一的ID,这有助于将查询的结果与存储在黄金数据集中的判断结果进行4.2. Gold数据集描述为了以标准的方式衡量所提出的方法的有效性,使用了黄金数据集。gold数据集的结构严格遵循文本检索会议(TREC)qrel格式(Voorhees等人,2005),并在表2中示出,其构成四个属性。第一个属性是第二个属性是第三个属性是●●●●Pankaj Dadure、P.Pakray和S. Bandyopadhyay沙特国王大学学报表66316631þ¼Gold数据集查询ID迭代文件编号相关性MathWiki-MathWiki-180道斯极限1MathWiki-MathWiki-180函数极限1MathWiki-MathWiki-180黎曼假设0MathWiki-MathWiki-180三角函数微分1MathWiki-MathWiki-180磁通限制器1MathWiki-MathWiki-180豪斯多夫测度0MathWiki-MathWiki-190霍纳法1MathWiki-MathWiki-190迭代二元运算1MathWiki-MathWiki-190壳排序0MathWiki-MathWiki-190量子电路0MathWiki-MathWiki-190俗名0其定义了人类关于用户信息需求的判断,并且该判断被给出为相关(1)或不相关(0)的二元分类。4.3. 结果集表3显示了所提出的方法生成的结果集的结构。所提出的方法检索查询集中存在70个MathML查询的1400个文档。结果集包含6个属性,其中3个(QueryID、Document和Relevance Score)已通过评估工具进行了检查,其余3个(Iteration、Rank和RunID)属性已被忽略。4.4. 评价参数信息检索系统的性能是根据系统检索到的文献数量来衡量的。对于每个用户查询,检索系统生成文档列表,然后取平均值来测量检索系统的整体性能该性能测量框架包括评估检索系统的有效性的参数在本文中,用于衡量所提出的方法的性能参数是P_K,它计算从前K个检索的文档,其中K = 5,10,15和20的 所有这些测量首先针对每个 查 询 计算, 然 后 , 结 果 在 具 有 相 等 贡 献 的 所 有 查 询 上 平 均(Baccini等人,2012; Soboroff,2006)。4.5. 比较分析所提出的方法的公式嵌入和泛化模块有效地检索语法和语义相似的公式,子公式和父公式。所提出的方法40个维基百科公式浏览任务查询的结果与现有的方法状态一致,即,使用Apache Nutch 1平台实现的基于文本的搜索引擎,MIaS(Sojka和Liska,2011),公式嵌入方法(Pathak等人, 2018),官方treeval结果(Zanibbi等人, 2016)的MCAT数学检索系统(Kristianto等人, 2016)和RITUW的Tangent-3系统(Davila等人, 2016年)。所获得的结果的图形和表格表示在图中描绘。 6和表4。同样,将30个维基百科主任务查询的结果与第1http://nutch.apache.org/NTCIR-12参与者(Zanibbi等人,2016),即FSE团队(Schubotz等人,2016)、ICST的WikiMir系统(Gao等人,2016),团队MCAT(克里斯蒂安托等人,2016),MIRMU团队的MIaS系统(Ruzicka等人,2016),RITUW团队的Tangent-3系统(Davila例如,2016)和SMSG 5团队(Thanda等人,2016年)。在图1中描绘了所获得的相同结果的图形和表格表示。 7和表5。这些现有的最先进的MIR方法的测量中的值得注意的在比较上述方法时,可以推断相异性因子在相关性分数的测量中是显著的添加剂。有趣的是,所提出的方法的结果表明,在检索到的文档的排名中,与父公式和子公式相比,精确匹配获得最高排名。在计算相关性得分时考虑公式上下文和相异性因子的方法导致定性和定性有效的搜索结果。4.6. 结果分析在本节中,讨论了对所得结果的详细分析:正如在第1节中提到的检索数学信息的八个绊脚石,所提出的方法可以充分解决第一,第二和第三个问题。然而,第四和第五个问题即将得到适当的说明,并已部分解决。第六、第七、第八个问题,现在还没有解决,在今后的工作中很快就会解决。所提出的方法首先有效地检索所有那些文档,这些文档构成关于用户查询的精确匹配公式,然后继续检索父公式或子公式(参见表6中的第一个查询的结果)。所提出的系统有效地处理的查询是语义相同,但在他们的表现不同。例如,考虑一个查询x2y2¼ z2,它在语义上是类似于a2b2c2。 该系统利用公式泛化方法成功地检索出语义相似的公式文档。从所提出的方法得到的结果推断,在公式中的用户查询的相异性是一个显着的成分在MIR的相关性得分的计算。 所提出的方法有效地处理查询,构成数学表达式以及文本关键字。该方法表明,数学表达式及其上下文提高了MIR的检索效率。●●●●●●Pankaj Dadure、P.Pakray和S. Bandyopadhyay沙特国王大学学报6632þ--我...表3结果集查询ID迭代文件编号秩相关性分数RunIDMathWiki-MathWiki-18Q0对称导数44.0演示MathWiki-MathWiki-18Q0函数极限44.0演示MathWiki-MathWiki-18Q0三角函数微分43.0演示MathWiki-MathWiki-18Q0素数计数函数43.0演示MathWiki-MathWiki-18Q0特威迪分布43.0演示MathWiki-MathWiki-18Q0黎曼假设43.0演示MathWiki-MathWiki-19Q0子群的指数43.0演示MathWiki-MathWiki-19Q0壳排序43.0演示MathWiki-MathWiki-19Q0斐波那契编码42.0演示MathWiki-MathWiki-19Q0奇偶性问题(筛子理论)41.0演示MathWiki-MathWiki-19Q0学位_(音乐)41.0演示表440个维基百科公式浏览任务查询参数基于文本MIAs公式嵌入法MCATRITUM该方法第五页0.2890.3560.3770.4900.4450.667P_100.2000.2670.3110.3900.2930.578P_150.1330.1780.2070.3320.2520.526P_200.0910.1330.1550.2830.2200.467图六、40个维基百科公式浏览任务查询评价参数的比较分析第五个查询的结果揭示了上下文在数学信息检索中的重要性。用户查询中公式和上下文的组合导致检索精确匹配的公式。此外,公式的上下文引导了替代相似公式的检索。例如,第五个查询的最后两个检索结果表明,所提出的方法能够部分检索替代相似的公式。计算结果的显著差异表明,公式的上下文和相关度的不同是影响数学信息检索的重要因素。从所提出的方法的第二个查询的结果也检索那些文档,构成复杂的公式,语义或语法上不相似的用户查询,但保留所有的实体,其中curredintheuserquery。● 所提出的方法未能制定的空间结构的公式。例如,2x和x2都被认为是一个类似的公式。这也许可以解释所提出的方法的脆弱性。为比特位置分配优先级的方法放大了相关性估计和排序过程。例如,用户输入查询x2y2,并且所提出的方法检索文档(通过分配优先级),其持有公式为x2-y2;p2q2;p2-q2,相关性得分为2,2,0。当检索的文档没有优先级时,y2;p2q2;p2q2的相关性得分为3,2,1。分配优先级的方法估计相同的相关性分数,即,2的第一和第二公式。其中第二公式在语义上类似于用户查询,而第一公式保持关于用户查询的相似实体的最大数目。另一方面,相关性得分估计●●●●Pankaj Dadure、P.Pakray和S. Bandyopadhyay沙特国王大学学报6633(c);ðÞð Þ ¼一ppp图7.第一次会议。30个维基百科主要任务查询的评估参数的比较分析表530个维基百科主任务查询参数FSE信息和通信技术MCAT米尔穆RITUMSMSG5该方法第五页0.1730.4730.3600.0600.2530.3660.501P_100.0860.3760.3230.0530.2460.2900.421P_150.0570.2970.2680.0440.2150.2400.314P_200.0430.2610.2430.0400.2010.2230.290表6从提议的方法中产生的结果。Sr.用户查询搜索结果文档编号1.A()B A()B密文不可破译性。HTMLaRb()bRaCommutative_property.htmlA$B$C()Logical_bconditional.htmlA!B()- gAB对位.html2.gx1r 1/41瓦×2-r2瓦×克鲁斯卡尔_塞克斯_坐标。没有优先级的情况下估计第一公式的最大相关性分数,其保持最大数量的相似实体,并且估计第二公式的最小相关性分数,其在语义上与用户查询相似。这种行为表明,优先级分配的方法导致更准确和相关的搜索,并有助于更珍贵的排名文件。5. 结论和今后的范围1-x2GMe1-x2x2htmlgaussian_blur.htmlGx;y2pr2e2r2本文讨论的嵌入和推广的1-x2x2Blob_detection.htmlGx;y;t2pt2eG x y te-x12T2Differential_entropy.html公式及其上下文用于检索数学信息-第 的公式嵌入和推广模块3.x2轴y2¼z2x2y2z2¼0 al_Sigualrity.htmlx4位y4¼z4Number_theory.htmlx4轴y4轴z4¼1Intersection_curve.htmlz2¼x2y2Pseudomanifold.html4.2F 1a;b;c;z 2F 1a;b;c;zHypergeometric_function.html2F1a;b;c;zK-noid.html2 F1a;b; c; wBouc_Wen_model_of_hysteresis.HTML2F10;b;c;z1Rabinovichfabrikant方程.HTML所提出的方法成功地检索语法和语义相似的公式、子公式和父公式。所提出的方法显示了相异因子的贡献,在计算的相关性得分,这导致有效的检索和排序的文件。所提出的方法的性能进行了实验上的NTCIR-12的维基百科的MathTagArticles。对所得结果的分析表明,公式和相异因子的上下文是质量和数量上的重要性,5.拉克萨德雷勒让德符号0 1 2 3... .阿德里安·玛丽·勒让德在1785ap-21是勒让德符号联系人:陈先生算法›Legendre_symbol.htmlSymbol_(number_theory).htmlSolovary_strassen_primality.HTMLFekete_polynomial.htmlical信息。在不久的将来,对矢量结构和比特位置信息表的修改将进一步提高MIR系统的性能。此外,在索引大小的简化最小化的搜索复杂度和最大化的MIR系统的性能。通过处理公式和用户查询中出现的重复实体,可以提高此系统的性能Pankaj Dadure、P.Pakray和S. B
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C++标准程序库:权威指南
- Java解惑:奇数判断误区与改进方法
- C++编程必读:20种设计模式详解与实战
- LM3S8962微控制器数据手册
- 51单片机C语言实战教程:从入门到精通
- Spring3.0权威指南:JavaEE6实战
- Win32多线程程序设计详解
- Lucene2.9.1开发全攻略:从环境配置到索引创建
- 内存虚拟硬盘技术:提升电脑速度的秘密武器
- Java操作数据库:保存与显示图片到数据库及页面
- ISO14001:2004环境管理体系要求详解
- ShopExV4.8二次开发详解
- 企业形象与产品推广一站式网站建设技术方案揭秘
- Shopex二次开发:触发器与控制器重定向技术详解
- FPGA开发实战指南:创新设计与进阶技巧
- ShopExV4.8二次开发入门:解决升级问题与功能扩展
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功