没有合适的资源?快使用搜索试试~ 我知道了~
科学文本主题相似性检测及自动关键短语提取的研究进展
科学文本中主题及其相似性的检测西蒙·大卫·埃尔南德斯·佩雷斯引用此版本:西蒙·大卫·赫尔南德斯·佩雷斯。科学文本中主题及其相似性的检测。计算机科学与语言[cs.CL]。巴黎-北巴黎第十三大学,2019年。法语。NNT:2019PA131084。电话:03280208HAL ID:电话:03280208https://theses.hal.science/tel-03280208提交日期:2021年HAL是一个多学科的开放存取档案馆,用于存放和传播科学研究论文,无论它们是否被公开。论文可以来自法国或国外的教学和研究机构,也可以来自公共或私人研究中心。L’archive ouverte pluridisciplinaire摘要如今,研究人员要找到各自研究领域的最新技术水平越来越困难,这主要是由于世界上每天产生的科学文献数量。策划和索引科学文献是具有挑战性和高度耗时的,主要是因为它需要广泛的知识和专业知识。目前,有一些 服 务 , 如ScienceDirect 、 微 软学 术图表、 Mendeley 、谷歌学 术、SpringerLink等。提供浏览大量科学出版物的界面,以促进和建议用户感兴趣的文章。这些服务主要基于文档及其元数据的词汇内容,如关键字、引用、引文和作者之间的关系。当要搜索的主题广为人知并且涉及传统概念时,使用该信息是有效的。考虑到,研究人员的工作要求在这种情况下,有不同的现象影响语义层面的结果,即,因此,需要测量文档内容的语义相似为了更容易地测量科学文献之间的语义相似性,最近有一些工作解决了自动关键短语提取(ACL RD-TEC 2.0,SemEval 2017 Task 10)的任务,使用监督和非监督方法,主要是基于启发式(如排名方法、规则、正则表 达 式 ) 、 概 率 方 法 ( 如 CRF )、分类或聚类,以及神经网络(如LSTM),这些都是提供最佳结果的最新方法。为了测量术语和文档之间的语义相似性,有统计方法(如LSA、PMI、LDA)、单词嵌入(如Word2 Vec、FastText、GloVe)以及本体资源(如WordNet、ConceptNet编号-批处理)。此外,由于科学文献的获取通常受到限制,因此在集中公共实验数据方面做出了显著努力(ArnetMiner)。在这种情况下,我们的第一个贡献是使用部分语音标签序列来过滤科学文献中的候选关键短语的实验结果。我们满意地提高了使用这些筛选候选人培训的CRF的绩效我们提取了一组部分语音标签序列,以从科学文本中过滤候选此外,我们还在公开可用的开源软件包中实施了我们的方法。我们分析了文档相似性度量的相关性,发现度量单词嵌入的相似性重心类似地使用了单词和关键短语。我们还从Arnet Miner中生成了一个包含概念(关键短语或术语)的科学摘要子集,这些概念具有不同的词汇表示-感觉。这些概念是使用我们的方法和包从维基百科重定向中提取的关键短语,ii.摘要对于研究人员来说,搜索与其领域的最新技术水平相关的科学文献 目前,ScienceDirect 、 Microsoft Aca-demic Graph 、 Mendeley 、 GoogleScholar、SpringerLink等服务提供浏览大量科学出版物的界面,以便为用户提供有趣的文章这些服务主要依赖于文档的词汇内容及其元数据,如关键字、参考文献之间的关系、引文和作者。当研究主题是众所周知的并且涉及传统概念时,使用该信息是有效的。然而,为了推动其研究领域的边界,研究者在寻求关于非传统主题或概念的信息时面临困难。系统必须能够处理语义语言现象,如一词多妻制和同义词,这就要求能够测量术语之间和文档之间的语义相似为了改进科学文献之间语义相似性的测量,最近有一些关于关键词词的Tomatic提取任务的工作这项工作使用监督和非监督方法,主要基于启发式方法(如排名方法、规则、正则表达式)、概率方法为了计算术语和文档之间的语义相似性度量,统计方法(如LSA、PMI、LDA)、WordEmbeddings(特别是Word2Vec、FastText、GloVe)通常与本体资源(如WordNet、ConceptNet)编 号 批 次 ) 。 此 外 , 还 作 出 了 重 大 努 力 , 向 公 众 提 供 实 验 数 据(ArnetMiner)。在这种情况下,我们的第一个贡献是关于使用语法类别标签序列来过滤科学论文中的关键短语候选者的实验结果我们满意地提高了接受过这些筛选候选人培训的金融情报机构的业绩因此,我们提取了一组语法类别标签序列, 此外,我们还在公开可用的自由软件中实现了我们的方法。 我们分析了文档相似性度量的相关性,发现Word Embeddings相似性质心度量在使用关键词和短语时的行为类似。我们还从ArnetMiner中生成了一个科学摘要子集,其中包含具有不同词汇这些概念是关键短语,使用我们的方法和工具提取,并与维基百科重定向的术语相对应。iv.内容物摘要I摘要三内容v图九列表表XI列表词汇表xiii命名xvI一般介绍11导言31.1动机41.2关键词提取71.2.1上一个工作81.3语义相似性101.3.1上一个工作111.4捐款121.5第14章摘要II自动关键字提取152关键词摘录172.1关键词......................................................................................的定义182.1.1示例20vi内容2.2关键词提取的定义202.2.1任务说明222.3上一篇文章关键词提取232.3.1使用PoS标签序列...............................................的候选者过滤2.3.2关键词标识242.4数据集272.4.1影响提取的因素272.4.2数据集272.4.3数据集的评价313关键词提取方法333.1PoS标签序列343.2用于候选筛选的PoS标签353.2.1PoS标签序列的选择363.2.2筛选候选人393.3关键字标识413.3.1功能413.3.2培训模型423.3.3标签候选人443.3.4初步实验444实验结果514.1基线514.1.1筛选候选人514.1.2CRF模型(基线)534.2初步实验544.2.1使用类型化关键字的JVM 544.2.2CRF 55的实验4.2.3类型分类584.3最终结果614.4摘要635结论和今后的工作655.1结论655.2讨论665.3未来工作676Kleis -Python 69软件包6.1描述706.1.1安装706.1.2数据集71内容VII6.2使用和示例726.3未来发展72III语义相似性737语义相似性的最新技术水平757.1语义相似性的定义767.2单词相似性787.2.1单词表示797.2.2措施807.3文件相似性措施827.3.1文件表示827.3.2措施837.4可用数据集838科学文献中的语义相似性898.1动机908.2挑战918.3文档相似性度量的相关性分析928.3.1方法论938.4实验结果978.4.1可视化相关性978.4.2文档相似性度量之间的相关性1008.5科学文献数据集1038.5.1维基百科重定向1049贡献和未来工作1119.1结论1119.2第112章章9.3展望和未来工作113出版物115A PerceptronTagger 119中的PoS标签B "熵"重定向列表参考书目129图列表1.1a最新技术水平搜索. . . . . . . . . . . . . . . . . . . . . . . . ...51.1b最新技术水平搜索. . . . . . . . . . . . . . . . . . . . . . . . ...61.2ACL-RD-TEC 2.0中的注释关键短语... ... ... ... ... ... ... ... ... ... ... ... ... ...91.3使用PoS标签序列过滤候选关键字短语。 . . . . . . . . . . ...132.1自动关键词短语提取任务的主要阶段。. . . . . . . . ... 232.2CRF用于自动关键字提取。. . . . . . . . . . . . . . . . . . ...252.3来自RANIS数据集的注释文档。 . . ... . . . . . . . . . . . . .292.4ACL RD-TEC 2.0数据集的示例... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...302.5SemEval 2017任务10注释文件示例。 . . . . . ...313.1我们的方法概述。 . . . . . . . . . . . . . . . . . . . . . . . . . . . ...333.2标记有部分语音的句子示例。. . . . . . . . . . . . . . ...343.3来自SemEval2017任务10的注释摘要。 . . . . . . . . . . . . . . . ...353.4来自SemEval 2017任务10. ..........................................................................................................................393.5使用PoS标记序列过滤候选以训练用于标记关键短语的CRF模型。..................... 413.6BIO符号中具有两个上下文词的关键字示例。........................................................433.7BIO表示法中具有两个上下文词的非关键短语示例 433.8BILOU表示法中具有两个上下文单词的非关键短语示例433.9SemEval 2017任务培训数据集中注释的关键短语示例10. ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...443.10 SemEval 2017任务10培训数据集中的候选人关键短语。.......................................453.11 WordNet 3.0中单词"extraction"的同义词示例通过删除一些synset)。.............................................................................................474.1使用来自训练数据集的PoS标签序列筛选候选项。.................................................524.2使用基于PoS序列的正则表达式筛选候选项。.........................................................534.3比较基线和筛选的候选项。........................................................................................544.4使用LVM、候选项和类型进行关键字提取。最大的关键词。554.5使用经过筛选的候选者训练的CRF模型评估关键短语提取。................................564.6使用经过筛选的候选者训练的CRF模型评估关键短语提取。保持最短的关键字。574.7使用经过筛选的候选者训练的CRF模型评估关键短语提取。保持最大的关键字。57x数字列表4.8使用具有过滤候选项且不具有关键短语类型的训练CRF模型来评估关键短语提取。保持最大的关键字。584.9使用按关键短语类型(过程、材料、任务)训练的CRF模型评估关键短语提取。选择最大的关键字。....................................................................................................594.10 测试的4种配置的混杂矩阵。......................................................................................604.11 基线和最终方法的比较(BIO评分)。.....................................................................614.12 基线和最终方法的比较(BILOU评分)。............................................................... 624.13 基线和最终方法的比较(BILOU评分+PoS)标签序列)。................................................................................................................628.1simbow(di,dj)和simbok(di,dj)..........................................................................的平均相似性8.2来自simbow(di,dj)和simbok(di,dj)..................................................................的最相似的文件对988.3文件相似性: SIM弓,SIMBok,SIMQW,SIMQK,SIMTW,SIMTK......................998.4模拟弓101的皮尔逊....................................................................................................8.5sim tk 102的皮尔逊....................................................................................................表列表2.1作者提供的关键短语示例。........................................................................................202.2文章内容示例。............................................................................................................212.3我们的方法中使用的功能列表。................................................................................252.42017年SemEval任务10的团队结果。........................................................................263.1匹配名词短语的正则表达式。.....................................................................................363.2人工注释关键字和筛选候选项的示例。....................................................................363.3按出现次数排序的前60个PoS标签序列3.4SemEval 2017任务10培训数据集中出现一次的PoS标签序列示例。....................383.5从训练数据中的PoS标签序列生成的正则表达式。.................................................393.6使用PoS标签序列筛选候选项。.................................................................................403.7从一段文本中提取的特征示例。................................................................................423.8使用PoS标记序列的候选关键字短语。.....................................................................423.9每个类别的前5个独特synset4.1将筛选的候选项评估为关键短语。............................................................................524.2基线。 在没有候选人过滤的情况下训练的CRF模型的结果。..............................544.3F1-每个测试配置的测量值。...................................................................................... 606.1kleis版本r0.1.2中............................................................................................................. 区分的CRF模型的特征组合和标签符号707.1语义文本相似性(STS)数据集848.1维基百科重定向示例。 . . . . . . . . . . . . . . . . . . . . . .... 1058.2标题重定向到术语"熵"的页面的示例 . . . . .... 106个8.3其他重定向到术语 . ... . . . . . . . . . . . . . . . .. 1078.4术语"逻辑回归"的重定向 . . . . . . . . . . . . . . .... 1078.5来自维基百科的信息重定向和提取的关键短语。. . . .... 1088.6ACM V9中最常见的关键字(或页面ID)。 . . . . . . . . .... 1088.7ACM V9的2个文档中出现的关键字(或页面ID)。. . .... 1099.1LIPN团队在SemEval 2017任务10场景1中的结果... ... ... ... ... .... 117A.1部分语音标记列表。. . . . . . . . . . . . . . . . . . . . . . . . . . .... 119B.1维基百科重定向到“熵”页面。 . . . . . . . . . . . . . . . .... 第一百二十三章词汇表自动关键短语提取给定文本中关键短语的识别22与文本的主要主题相关的术语。十五、十七、十八关键字分配中不存在的关键字分配文本... 二十一关键短语提取给定文本中关键短语的识别20、21词汇表可能的单词集。十五命名法文档正文中使用的符号的描述术语提取K组关键短语。k关键字。V词汇。语义相似性D文档集其他符号ρ皮尔逊相关。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- StarModAPI: StarMade 模组开发的Java API工具包
- PHP疫情上报管理系统开发与数据库实现详解
- 中秋节特献:明月祝福Flash动画素材
- Java GUI界面RPi-kee_Pilot:RPi-kee专用控制工具
- 电脑端APK信息提取工具APK Messenger功能介绍
- 探索矩阵连乘算法在C++中的应用
- Airflow教程:入门到工作流程创建
- MIP在Matlab中实现黑白图像处理的开源解决方案
- 图像切割感知分组框架:Matlab中的PG-framework实现
- 计算机科学中的经典算法与应用场景解析
- MiniZinc 编译器:高效解决离散优化问题
- MATLAB工具用于测量静态接触角的开源代码解析
- Python网络服务器项目合作指南
- 使用Matlab实现基础水族馆鱼类跟踪的代码解析
- vagga:基于Rust的用户空间容器化开发工具
- PPAP: 多语言支持的PHP邮政地址解析器项目
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功