没有合适的资源?快使用搜索试试~ 我知道了~
从文本数据的统计分析到人工神经网络。走向深刻劳伦特·瓦尼引用此版本:劳伦特·瓦尼。从文本数据的统计分析到人工神经网络。深入到语言学的原因。人工智能[CS.AI]。蓝色海岸大学法语。NNT:2021COAZ4082。电话:03621264v2HAL ID:电话:03621264https://theses.hal.science/tel-03621264v2提交日期:2022年HAL是一个多学科的开放存取档案馆,用于存放和传播科学研究论文,无论它们是否被公开。论文可以来自法国或国外的教学和研究机构,也可以来自公共或私人研究中心。L’archive ouverte pluridisciplinaire从走向深刻劳伦特·瓦尼UMR 7320:基础知识,语料库,语言-尼斯UMR 7271:信息学、信号和系统-Sophia-Antipolis提交给评审团,评审团由以下人员计算机科学博士评审团主席:蓝色海岸领导人:报告员:Damon Mayaffre -CR CNRS Valérie Beaudouin - PU Telecom Paris Frédéric Précioso-PU蓝色海岸大学佛罗伦萨塞德斯- PU图卢兹第检查员:Dominique Longrée -列日支持日期:2021年劳伦特·瓦尼从2从文本数据的统计分析到人工神经元网络的研究从3使用可用的黑匣子武器库,机器学习。使用所选技术的广泛子集,研究人员学习。»L. 勒巴特劳伦特·瓦尼从4从文本数据的统计分析到人工神经元网络的研究从5摘要本文在文本统计、自动语言分析和深度学习的交叉点上,提出了一种新的最初的假设是基于神经网络的架构和它们自动提取文本中包含的信息的能力。卷积模型在文本分类中的精确性强调了所识别的语言标记的重要性。为了使语言学家能够获得这种新的信息,我们正在开发一种结合计算机和语言学更具体地说:1) Zeiler和Fergus 2014,一种用于图像分析的算法过程,被应用于文本,以便能够解码由神经网络生成的单词的表示。更一般地说,我们感兴趣的是深度模型的所有层,以理解并向语言学家传达存在于网络输入的原始数据(文本)和网络输出的预测(分类)之间的处理链。提出了一种新的度量方法来解释深度模型中的单词权重:文本去卷积清晰度(TDS)。2) MelleT和D高度理论化的语言动机2009年12月29日它们伴随着我们在神经网络上的推理它们的本质促使我们设计能够将文本视为复杂和多维对象的深度架构当模型使用单词的几种表示(图形形式、语法范畴、引理)时,模式使我们瞥见了去卷积输出的关键段落我们试图在经验观察(TDS)和语言学理论之间建立的这种联系为文本解释开辟了新的途径我们的方法有许多用例,关键词:文本,模式,深度学习,统计,语言学,文本数据分析劳伦特·瓦尼从6摘要本文提出了一种新的文本分析方法,该方法位于文本统计、自动语言分析和深度学习的交叉点。它借鉴了神经网络的结构及其从文本中提取信息的潜力。用于文本分类的卷积模型的准确性取决于所识别的语言标记的为了使语言学家能够访问这些标记,我们简单地使用了一种算法,该算法结合了以下计算和语言方法:1) 去卷积(ZeilerandFergus 2014)是图像分析中使用的一种算法过程,我们在这里应用于编写文本,以解释神经网络学习的单词的表示。特别是,我们分析深度模型的每一层,以了解将形成网络输入的原始数据(文本)与构成其输出的预测(分类)联系起来的机制。目标是以语言学家有用的方式表达这些联系我们提出了一种新的度量方法来表达深度模型中单词的相对权重:文本去卷积清晰度(TDS)。2) 我们的方法还包括一个关于文本主题或模式的语言学理论,由T小姐和D. 2009年,它为允许分析作为复杂、多语言对象的文本的深度架构的设计提供了信息。模式理论允许检测去卷积输出中的关键通道,甚至在模型建议单词的几种表示的情况下识别深层模式(例如,全形式、部分语音和引理。在我们的研究中发展起来的新方法将经验观察(TDS)与语言学分析联系起来,为文本解释开辟了新的可能性对该方案在不同背景下的应用进行了大量研究,以检验该方法,并将在本博士论文中用于说明其有效性。虽然用于语言学分析的深度神经网络解释是一个非常新的领域,但本文的初步结果令人鼓舞,论文最后提出了进一步研究的建议。关键词:文本,模式,深度学习,统计,语言学,文本数据分析从文本数据的统计分析到人工神经元网络的研究从7谢谢你首先,我要感谢评审团成员对我的作品进行的审查和跨学科的特别是感谢Fabrice Huet同意担任陪审团主席Valérie Beaudouin,感谢她在Ana-lysy of Textual Data方面的专业知识在佛罗伦萨Sedes他的评估作为一个计算机专家。感谢Dominique Longrée自这项工作开始以来给予的重要科学和友好支持我衷心感谢我的论文导师感谢Frédéric Précioso在整个论文过程中的承诺、信任和建议感谢Damon Mayaffre,没有他,这篇论文就他的会面对我来说是决定他的工作,他的知识,更一般地说,他所表现出的良好的判断力和辨别力,迫使我钦佩,这超出了我的论文的唯一框架感谢他的存在,他的支持,我还要感谢艾蒂安·布鲁内,他和达蒙一样,对我来说是科学卓越的典范和智力长寿的典范。谢谢你鼓 励 我 注 册 我 的 论 文 , 也 让 我 使 用 和 滥 用 他 的 软 件 和 他 给 它的 名 字 , H y p e r b a s e 。这篇论文对我来说也是我要感谢I3S实验室(UMR7271)的欢迎,特别是MélanieDucoffe,她为我提供了深度学习的我还要感谢MSI的Marco Corneli,感谢他在数学方面的专业知识,感谢我们丰富的科学和友好交流。感谢Logométrie团队自2013年以来对我的欢迎和语料库语言学感谢Céline Poudat的动画和许多研讨会和培训,感谢Magali Guaresi还要感谢Vé- ronique Magri、SimonaRuggia 、 Camille Bouzereau 和 Federica Beghini , 他 们 更 广 泛 地 说 , 非 常 感 谢Hyperbase Web的用户,他们信任我,并自2015年推出以来一直支持还要感谢我的附属实验室-基础、语料库、语言(UMR 7320)-的同事和同志们的支持和同情。感谢实验室的管理层Fanny Meunier和Richard Faure,他们允许我在CNRS担任研究工程师的同时攻读博士学位还要感谢Caroline Daire、Delphine Chetiveaux和Odile Deangeli的行政支持和幽默。感谢Pierre-Aurélien Georges,我与他共用一间办公室,他为多亏了穆斯塔法,劳伦特·瓦尼从8亚历山大、玛丽、乔纳森和所有与我分享咖啡机欢乐时刻的人最后,我要感谢我的家人和朋友的持续支持感谢我的父母Sandrine,Milo和Julie,感谢他们每天给材料表1引言191.1捐款191.1.1计算机科学191.1.2语言学201.2出版物列表1.2.1看起来21岁1.2.2 2018-2021年。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...221.2.32018年之前222先决条件252.1一般252.2文本数据的处理2.3深度学习架构292.3.1单词的表示2.3.2文本的表示2.4参数和超参数322.4.1语言问题2.4.2计算机问题2.5单词的预学习3卷积和反卷积453.1数据的抽象3.2文本去卷积清晰度(TDS)463.2.1背景473.2.2型号493.2.3反卷积503.2.4经验513.2.5结论603.3TDS 60的变体3.3.1方法1:转置卷积3.3.2方法2:约束架构3.4可解释性623.5TDS 64的限制劳伦特·瓦尼从10从劳伦特·瓦尼从104文本类激活映射(T-CAM)674.1引言。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...674.2背景。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...... ... ... ... ...684.3石灰。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...... ... ... ... ... ...684.4一般架构。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...694.5应用于CNN的模型。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...714.6应用于RNN的模型。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...734.7经验。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...744.7.1协议。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...754.7.2评估。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...764.8 T-CAM和语言学。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...784.9加权TDS。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...805语料库和关键段落855.1引言。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...855.2关键段落。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...865.3语料库的调整。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...885.3.1混合处理。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...895.3.2自动处理。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...895.4过滤的关键段落。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...906多维语言学936.1引言。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...936.2多通道架构。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...936.3深层模式检测。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...956.4深层动机的概括。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...987互文性1017.1导言。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...1017.2协议。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...1027.3结果。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...1037.3.1预测。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...1037.3.2说明。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...... ...1047.3.3超越文本。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...1078应用程序1098.1超级基地。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...1098.1.1历史提醒。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 1098.1.2移植到Web。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...1118.1.3接口。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...1148.2超深。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...1158.2.1... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 1158.2.2结果的显示。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... 1168.2.3使用示例。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...1188.3其他应用。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...1228.3.1言语测量。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...122劳伦特·瓦尼从12从文本数据的统计分析到人工神经元网络的研究8.3.2 DeepFLE 1239结论1279.1观点1289.2一般结论附录131A 英文文章B 关于157B.1上下文157B.2深刻的动机从11劳伦特·瓦尼从12图表1.1本书:巴黎,冠军。.....................................................................................................232.1感知器的标准模型:计算每个神经元的激活率2.2文本分类的一般体系结构2.3嵌入或词的2.4滑动窗口和文本剪切2.5学习的早期停止........................................................................................................2.6ADT和深度学习中的单词表示2.7基于SkipGram模型的嵌入预训练模型从应用程序www.example.com捕获http://ronxin.github.io/wevi/382.8共现向量空间的分析(统计计算)。.......................................................................392.9使用Word2Vec(SkipGram)在Presidents语料库上计算的嵌入坐标所描述的单词表的AFC法语402.10 在学习总统语料库后,根据嵌入坐标(Word2Vec)调整的单词表的AFC法国412.11 E中单词territoires和特定共现的分布马克龙。422.12 单词territoires的k个最近邻-Word 2 Vec................................................................. 422.13 k单词territoires的最近邻居-分类后3.1通过卷积和数据抽象进行图像分类。来源:https://api.semanticscholar.org/CorpusID:975170....................................463.2CNN应用于文本分类3.3文本去卷积清晰度(TDS)513.4z-score与TDS-示例:Tite-live Book XXIII第23章26 533.5表达式和if 55的共现分析........................................................................................3.6单词fall.......................................................................................................................56的共现分析3.7反卷积应用于E的语音马克龙。...............................................................................573.8转换............................................................................................................................的主要共现语法类别583.9Impetu和Castra..........................................................................................................59之间的特异性共现3.10 转置........................................................................................................................................卷积的反卷积613.11 反卷积2:左填充正常,右填充相同。..................................................................623.12 去卷积数据的原始提取劳伦特·瓦尼从14从
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功