没有合适的资源?快使用搜索试试~ 我知道了~
论文由M. Francis Rousseaux,兰斯香槟-阿登大学由M. Eddie Soulier,特鲁瓦理工大学评审团兰斯香槟-阿登大学科学与技术健康博士学院论文要获得的等级兰斯香槟-阿登大学博士学科:计算机科学专业:人工智能技术由以下人员公开介绍和支持让-查尔斯·里奇2017年6月27日以概念M. 弗朗西斯·卢梭、论文,教授和URCAM. 埃迪·索利耶,论文,教授和UTTM.阿诺德·马丁主席兼报告员,教授和伊莉莎M.吉尔斯·卡塞尔,报告员,教授UPJV科莱特·福彻、检查员,教授和UPMCM. 福沙尔、检查员,教授和URCA我们只能看到前面很短的距离,但我们可以看到很多需要做的事情。艾伦·图灵摘要大多数文本分类方法使用词袋范式来表示文本。然而,这种技术提出了不同的语义问题:一些词是变位的,为了克服这些问题,一些方法不再用单词来表示文本,而是用从领域本体中提取的概念来表示文本,从而将意义的概念嵌入到模型中。由于结果不令人满意,将文本表示为概念的模型仍然很少使用为了我的工作通过提出一个使用相关领域本体来丰富模型的步骤来遵循这些方法 使用令人满意的结果这项新的工作是第二个实验的主题,在这个实验中,我们评估了谢谢你J’aimerais即使我们不是在同一个主题上工作,我们也面临着博士生可能面临的同样的问题... ...我还要特别感谢我的工业总监Jean Brunet,感谢他的参与和良好的建议,我将在论文之外继续遵循他的建议。我还要感谢我所在的凯捷技能助理Catherine Lhermet,感谢更广泛地说,我要感谢凯捷的所有同事,感谢他们让我能够与他们交流并向他们学习我要感谢我的朋友拉斐尔·拉勒门特,他在这三年里一直是我的论文教练感谢我的女朋友Capucine Dalby,我的父母Véronique和Jean-François Risch,以及我的亲密朋友,感谢他们让我在感谢因此,我特别感谢报告员Arnaud Martin和Gilles Kassel的仔细阅读,以及评审团成员Hacène Fouchal和Colette Faucher的参与。最后,我要感谢我的研究主管弗朗西斯·卢梭和埃迪·苏利尔。8英文预览标题:使用概念袋范式改进文本分类模型摘要:大多数文本分类方法使用然而,Bloahdom和Hortho已经确定了这种表示的四个局限性:(1)一些词是多义的,(2)其他词可能是同义词,但在分析中是不同的,(3)一些词在语义上是强有力的联系,而没有被纳入表示中,以及(4)一些词如果从它们的名词组中提取出来,就失去了它们的意义。为了克服这些问题,一些方法不再用单词来表示文本,而是用从域本体(概念袋)中提取的概念来表示文本,将意义的概念整合到模型中。由于结果不令人满意,集成了大量概念的模型仍然很少使用,并且已经提出了几种方法来使用从知识库中提取的新概念来丰富文本特征我的工作遵循这些方法,提出了一个使用领域本体的模型丰富步骤,我提出了两个措施来估计属于这些新概念的类别。使用朴素的贝叶斯分类算法,我使用领域本体论"Dis- ease Ontology"测试并比较了我对Ohsumed语料库的贡献满意的结果使我更准确地分析了语义关系在丰富步骤中的作用。这些新作品是第二个实验的主题,在这个实验中,我们评估了高名和低名的等级关系的贡献10目录摘要6感谢8英语10图16列表1导言201.1历史201.1.1L’apprentissage Automatique et la Classification de Textes1.1.2更多数据221.2以概念231.3工作介绍241.4文件计划242第二十六条现状2.1本体262.1.1定义262.1.2本体的实现292.2文本的自动分类312.2.1机器学习的一个子领域2.2.2文本分类的一般功能332.2.3文本预处理332.2.3.1特征提取342.2.3.2功能选择352.2.3.3特征的转换372.2.4文本的表示382.2.4.1在一袋文字中392.2.4.2包装袋中的N克402.2.4.3单词组的袋表示412.2.4.4概念袋中的表示412.2.4.5混合表示422.2.4.6改进的表示4212目录132.2.5监督学习算法2.2.5.1转导和归纳432.2.5.2支持向量机442.2.5.3神经网络462.2.5.4决策树482.2.5.5决策树的森林2.33以概念723.1导言723.2数据集733.2.1L’Ontologie Disease Ontology3.2.2Ohsumed文本语料库743.3文本的表示803.3.1单词和单词823.3.2概念的关联863.4朴素贝叶斯分类883.4.1学习893.4.2分类913.5经验913.5.1测试模型的介绍913.5.1.1使用BoW92范例的模型3.5.1.2使用BoC93范式的模型3.5.2结果933.6模型94的可视化2.2.5.6朴素贝叶斯分类器522.2.6分类模型的评估532.2.6.1验证保留。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...542.2.6.2交叉验证。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...542.2.6.3评估措施... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...552.2.7语料库 文本。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...56大数据582.3.1 5V58中的定义2.3.1.1体积. ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...... ... ... ... ... ... ... ...592.3.1.2品种. ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...... ... ... ... ... ... ... ...592.3.1.3速度. ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...... ... ... ... ... ... ... ...592.3.1.4真实性和值。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...602.3.2数据的存储。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...612.3.2.1定义。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ......61目录143.6.1通过图形表示学习模型的方法de l’Ontologie3.6.2技术设计984文本分类模型的丰富1004.1简介1004.2101型富集的方法4.2.1一般原则1024.2.1.1伪算法102的实现4.2.1.2通过实施例103说明4.2.2105型浓缩的测量4.2.3根据距离值1064.3经验1084.3.1测试模型的介绍1084.3.2结果1094.3.3对结果的批评1124.4贡献摘要1135语义关系在分类模型丰富中的作用5.1导言1145.2按语义关系1155.2.1研究背景1155.2.2语义关系类型的选择与分析1165.2.3浓缩算法117的改进5.3经验1185.3.1测试模型的介绍1195.3.2结果1195.3.3对结果的批评1205.4贡献摘要1226性能改进和技术设计1246.1性能改进1256.1.1执行时间的确定6.1.2治疗分布1266.2技术设计1286.2.1语言和开发环境1286.2.2外部库1296.2.3主要方法概述1306.2.3.1名义组的提取1306.2.3.2131型的设计6.2.3.3新文本的分类6.2.3.4132型的改进7结论和观点1347.1第134章目录157.2前景135参考书目138图列表2.1疾病本体的示例2.2根据Guarino的不同类型的本体论。连接本体类别的箭头表示它们之间的特定性。............................................................................................................................ 282.3RDF三元组示例。....................................................................................................302.4RDF图的示例。........................................................................................................302.5监督分类和聚类之间的区别。................................................................................322.6文本分类的步骤。....................................................................................................332.7主要特征提取技术。.................................................................................................342.8特征t和类别Ci362.9分类期间的文本状态。............................................................................................392.10 归纳法的一般原理2.11 更改空间以实现线性分隔。.......................................................................................452.12 绿色为最佳(最宽)边距,正确但不是最佳边距红色。........................................................................................................................462.13 简化的双输出神经网络(分类)。.........................................................................472.14 神经元分为两部分的工作原理2.15 决策树的训练数据集。............................................................................................ 492.16 从训练数据构建的可能决策树。492.17 对一个新个体的预测。............................................................................................502.18 具有变量选择和indi-vidus的三个决策树的森林。............................................. 512.19 监督分类模型的验证。............................................................................................542.20 通过混淆表获得的信息。.........................................................................................552.21 两台IBM 350的照片。来源:U. S。红河陆军兵工厂。......................................622.22 使用MapReduce方法的wordCount示例683.1DO的DOID3077概念。........................................................................................... 753.2DO的DOID3078概念。........................................................................................... 753.3Ohsumed文件0000682的内容。............................................................................ 783.4Ohsumed-O和Ohsumed-D的文本分布803.5Ohsumed-O和大须D813.6Ohsumed‑D和Ohsumed ‑ D文本分布的条形图大须-D C813.7Ohsumed-D和Ohsumed-D的文本分布C823.8命名组提取技术的工作流。....................................................................................833.9Ohsumed文本000014的内容。.............................................................................. 833.10 将文本分成独立句子的步骤。.................................................................................8416图17列表3.11 将句子划分为词汇单位的步骤。............................................................................. 843.12 词汇单位的形态-句法标记。.................................................................................... 853.13 词汇单位的语言化873.14 名义组的提取。........................................................................................................883.15 查找与所包含的名义组相对应的概念在文本00001489中3.16 学习模型90的摘录3.17 创建Bag-of-Words所需的处理列表。...................................................................923.18 使用错误率、准确性、召回率和F1得分比较M BoW和M0模型。.........................933.19 肝脏肝硬化95的概率可视化概念3.20 学习模型的一部分的可视化。................................................................................963.21 可视化学习非辨别本体概念4.1基于距离dmax的富集后的模型概念数1024.2例1.算法的步骤0、1和2的结果.............................................................................1044.3类别C1、C2的概念4和5的概率估计C3和C41054.4类别C1的概念2、3和6的概率估计,C2、C3和C4,并借助4.5类别C1的概念2、3和6的概率估计,C2、C3和C4,并借助4.6例2。包含与潜在概念相关的4个V概念的模型。107个4.7示例2中概念1的概率估计作为dmax和测量值1和21074.8型号M0、M1和M21094.9实验总体结果的直方图。......................................................................................1104.10 从m o delleM1(dmax=2)的图中提取。橙色节点表示模型中未包含的概念。..........................................................................................................................1115.1DOID_0050242概念的类描述1165.2根据语义关系的类型,V的基数。.........................................................................1175.3根据语义关系的类型来丰富模型的步骤的示例。..............................................1185.4型号M0、M1、M3和M41205.5根据语义关系的类型来丰富模型的步骤的示例。..............................................1215.6从mo到M4(dmax=2)(到g到che)和M3(dmax=2)的图中提取(右)。橙色节点是模型中未包含的概念1226.1按计算模式划分的运行时间(TE)。.................................................................1266.2分布式模式的运行时性能比较和顺序127致瓦伦丁·马蒂罗利、斯特凡·里施、玛丽·洛桑和马蒂亚斯·迪马斯基。18
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功