没有合适的资源?快使用搜索试试~ 我知道了~
论计算文体学:挖掘文学文本以提取特征文体模式引用此版本:穆罕默德·阿明·布哈立德。计算文体学:挖掘文学文本以提取特征文体模式。文档和文本处理。皮埃尔与玛丽·居里大学- 巴黎六世,2016年。 英语 NNT:2016PA066517。电话:01493312v2HAL Id:tel-01493312https://theses.hal.science/tel-01493312v22017年6月9日提交HAL是一个多学科的开放获取档案馆,用于存放和传播科学研究文件,无论它们是否已这些文件可能来自法国或国外的教学和研究机构,或来自公共或私人研究中心。L’archive ouverte pluridisciplinaire皮埃尔与玛丽·居里大学信息、电信和电子博士学校巴黎第计算文体学:挖掘文学文本以提取特征文体模式Présentée parBoukhaled Mohamed Amine信息学博士论文Jean-Gabriel Ganascia先生的指挥Présentée et soutenue publiquement le13 Septembre 2016陪审团组成如下:瓦列里·博杜安研究指导考试让-加布里埃尔·加纳西亚ProfesseurDirecteur de Thèse克里斯托弗·马萨拉Professeur考官让-吕克·米内尔Professeur特别报告员蒂埃里·波伊博Directeur de Recherche特别报告员亨利·索尔达诺梅尔特雷德孔费埃考官1摘要本论文属于计算文体学的交叉学科领域,即统计和计算方法在文学文体研究中的应用。从历史上看,计算文体学的大部分工作都集中在词汇方面,特别是在这门学科的最初几十年然而,在这篇论文中,我们处理的是一个不同于词汇的语言层面。我们的重点是放在句法方面的风格,这是相当困难的捕捉和分析,因为它的抽象性质。作为主要贡献,我们的工作方法的经典法国文学文本的计算文体学研究的基础上的解释学的观点,其中发现有趣的语言模式是没有任何先验知识。 更具体地说,我们专注于开发和提取复杂但计算上可行的风格特征,这些特征是语言学上的动机,即形态句法模式。遵循解释学的思路,我们提出了一个知识发现过程的文体特征,强调句法层面的风格提取相关模式从一个给定的文本。 这个知识发现过程包括两个主要步骤,一个顺序模式挖掘步骤,其次是一些有趣的措施的应用。特别是,提出了一个特定长度的所有可能的句法模式的提取作为一个特别有用的方式来提取有趣的功能,在一个探索性的情况。显然,模式的增殖和人类难以理解大量结果是这种方法的主要障碍因此,我们在这种情况下使用兴趣度度量来处理和减少如此大量的模式,以识别最相关的模式。 我们提出,进行实验评估和报告结果的三个建议的兴趣度的措施,其中每一个是基于不同的理论语言和统计背景。实验评估的分析结果表明,所提出的技术是相当有效的提取有趣的句法模式,特别是如果我们考虑到这个过程的无监督性质 这似乎特别有希望作为一个计算机辅助文学分析工具,以支持语言学家和文学研究人员在他们的文体分析。在案例研究中,我们应用所提出的方法比一般的文体学框架更具体的应用:戏剧文体特征的研究,通过分析莫里哀的人物的声音最后,我们提出了一个计算文体的工具,部分具体化我们的研究工作称为EReMoS。EReMoS的目标是为语言学家和文学研究人员提供一个计算机辅助的文体工具,作为一个网络应用程序,能够通过一个简单,快速和符合人体工程学的用户界面提取和操纵句法模式关键词:计算文体学,序列数据挖掘,知识发现,文本挖掘,形态句法模式,兴趣度测量,对应分析,离群点检测,戏剧文体特征,计算作者研究,EReMoS。23简历Titre de la thèse en Français:计算文体学:文学文本的缺陷与文体学特征的提取本文主要介绍文体学计算学科交叉领域中统计方法和计算方法在文学文体研究中的应用。从历史上看,大量的计算文体效果的工作集中在词汇方面。但在我们这里我们用了一种不同的语言。实际上,这种强调是在风格的结构方面,这种风格是很难捕捉和分析的在此基础上,我们尝试从一个独特的角度对法国文学经典文本进行文体学的计算,但并没有真正认识到感兴趣的语言特征。 更具体地说,我们专注于形态结构的发展和提取。在阐释性思维的基础上,我们提出了一种新的理解过程,以突出文体结构的维度,并渗透文本中与主题相关的外部主题。 Le process de découverte de connaissances proposé consiste en deux étapeprincipales , une étape d'extraction de motifsséquentiels suivi de l'application de certainesmesures d'intérêt.特别是,我们提出了一种特别的方法,即提取所有可能的长时间的主题结构,以便在一个探索性的场景中特别地利用这些结构。很明显,这些主题和困难的增加使人们对构成这一障碍的主要因素的结果的数量标准感到满意因此,在我们的例子中,我们利用感兴趣的测量方法来确定这些图案的数量。我们对三种利益衡量标准提出建议、评估和提出结果,并以不同的语言学和统计学理论依据为基础。实验评价的结果表明,所提出的技术对感兴趣的结构性主题没有效果,特别是在没有对过程进行监督的情况下。因此,这些技术似乎特别适用于我们的客户,因为我们通常会将这些技术应用到我们的产品中。在个案研究中,我们将所提出的方法论应用于一个文体学总体框架的特定领域,从而对莫里哀人物话语中的独特主题进行了文体学特征的研究。4最后,我们提出了一个专门用于我们研究的EReMoS的计算风格的方法。 Le but d 'EReMoS est defournir aux linguistes et aux chercheurs en littérature un outil de stylistique assisté parordinateur et conçu comme une application web capable d'extraire et de manipulaturesdes motifs syntaxiques grâce à une interface utilisateur simple,rapide et ergonomique.关键词:计算文体学、文本分析、文本分析、主题形态、兴趣测量、对应分析、异常案例检测、戏剧特征、父亲计算研究5认识首先,我要感谢我的导师教授。感谢Jean-Gabriel Ganascia给了我这个机会来研究这篇论文,感谢他的宝贵建议,以及他的全力支持和鼓励。 我非常感谢这些年来他建立的相互尊重的气氛。当然,我想对我辩护的尊敬的陪审团成员表示最深切的感谢,他们接受了对我的工作的评估;感谢Christophe Marsala,Henry Soldano,Jean-Luc Minel,ThierryPoibeau和Valérie Beaudoin。我还要向ACASA团队的所有前任和现任成员以及Labex OBVIL的所有成员这篇博士论文在这样一个有吸引力的科学领域是一次美妙的经历我感谢所有以这样或那样的方式引导我走过这段旅程的人我也非常感谢我的长期约会朋友,那些在巴黎的,那些在阿尔及尔的,那些现在遍布世界各地的。最后,我想把最后的感谢献给我的父母和我亲爱的姐妹们。非常感谢您的爱和支持。67敬我的家人89出版物在论文中进行的工作是在几个出版物和科学贡献的起源。以下是这些贡献的摘要Boukhaled,文学硕士2005年,美国的一个城市,G. (2014年)。一种用于作者身份验证的概率异常检测方法In S. I.出版(编辑),第二届统计语言和语音处理国际会议(SLSP 2014)第8791页211-219)。Grenoble,France:Springer.Boukhaled,文学硕士2005&年,美国的一个城市,G. (2014年)。 使用虚词进行作者归属:词袋与顺序规则。在第11届自然语言处理和认知科学国际研讨会上,115-122)。意大利威尼斯:德·格鲁特。Boukhaled,文学硕士(2015年)。 Une methode non supervisée pour la vérificationd'auteur à base d'un modèle gaussien multivalé.在10es Rencontres JeunesChercheurs en Recherche525-533)。巴黎,法国:ARIA。Boukhaled,文学硕士200.Frontini,F.,Ganascia,J.G. (2015年)。基于特殊性的句法模式探索:文体学的计算研究 在数据挖掘和自然语言处理之间的相互作用DMNLP'15 ECML/PKDD 2015研讨会上(第10页)。31-40)。葡萄牙波尔图Boukhaled,文学硕士200. Frontini,F.,Ganascia,J.G. (2015年)。 Une mesured'intérêt à base de surreprésentation pour l'extraction des motifs syntaxiques stylistiques. 在第22届自然灾害自动处理会议上。法国卡昂Boukhaled,文学硕士供稿:Sellami,Z.,Ganascia,J.G. (2015年)。 Phoebus:un Logicield'Extraction de Réutilisations dans des Textes Littéraires.在第22届自然灾害自动处理会议上。法国卡昂Frontini,F.,Boukhaled,文学硕士2005年,美国的一个城市,G. (2015年)。 莫里哀的Raisonneurs:独特的语言模式的定量研究。Corpus Linguistics 2015,Lancaster,UK.Oudni,A.,Boukhaled,文学硕士,Bourgne,G.(2015年)。从母题的逐步提取分析文学文本的关系和动态。 In 24ème Conférence sur laLogique Floue et ses Applications,LFA2015.法国普瓦捷Riguet,M.,Jolivet,V.,Boukhaled&,文学硕士(2015年)。« Cohérence sémantique »: 《八日国际语料库语言学杂志》。法国奥尔良Boukhaled,文学硕士200.Frontini,F.,Bourgne,G.,Ganascia,J.G. (2015年)。文体学的计算研究:一种基于聚类的句法模式抽取的相似性度量。国际计算语言学与应用杂志。 06(01),45- 62.1011内容内容11第1章一、一般性介绍. 151.1.背景和动机151.2.主题与目标161.3.组织架构17第2章. 计算文体学文献综述..........................................................................................192.1.关于Style 212.2.从风格到计算风格学232.2.1.文体学与统计学相互作用简史2.2.2.计算文本分析2.2.3.计算文体学导论2.2.4.计算文体学与文学分析的关系2.2.5.计算文体学面临的挑战2.3.共享地面和相关领域292.3.1.语料库语言学和语料库文体学302.3.2.计算语言学322.4.计算文体学的不同方法2.4.1.分类方法与解释方法372.4.2.语料库驱动与基于语料库的方法382.5.作者归属问题的审查402.5.1.问题陈述402.5.2.作者归属的文体特征2.6.44式句法分析综述2.6.1.研究句法风格的方法452.6.2.组合法的文体特征2.7.相关作品47122.7.1.循环段和文本数据的统计分析2.7.2.从分析树中提取句法模式2.7.3.使用序列挖掘...........................................................................................................................53第3章提取风格模式的考虑方法和建议方法................................................................3.1.知识发现过程.........................................................................................................................的描述563.1.1.形态句法模式提取步骤................................................................................................ 583.1.2.可行性评估步骤.......................................................................................................................583.2.使用序列模式挖掘.................................................................................................................61提取形态句法模式3.2.1.顺序数据挖掘................................................................................................................ 的理论背景3.2.2.序列模式挖掘在计算文体学........................................................................................ 中的投影3.2.3.所提取的形态句法模式................................................................................................ 的特性703.3.使用相似性度量评估形态句法模式的相关性...............................................................................723.3.1.关于忠诚度测量.......................................................................................................................723.3.2.建议的可行性评估措施...........................................................................................................75第4章. 实验结果与评价834.1.质量评价.................................................................................................................................854.1.1.分析语料库和实验设置................................................................................................ 854.1.2.定量特异性结果和讨论...........................................................................................................864.1.3.对应分析结果和讨论...............................................................................................................894.1.4.分布特性结果和讨论...............................................................................................................934.2.定量评价.................................................................................................................................964.2.1.实验设置................................................................................................................................... 964.2.2.结果与分析994.2.3.一般性讨论.............................................................................................................................102第5章.研究莫里哀人物的文体特征.............................................................................1055.1.第一个实验:莫里哀...........................................................................................................135.2.第二个实验:莫里哀......................................................................................................................5.3.第三个实验:莫里哀的主角与 莫里哀的Sganarelles....................................................... 1145.4.第四个实验:莫里哀......................................................................................................................5.5.讨论.................................................................................................................................................. 120第6章结论和今后的工作.............................................................................................. 1236.1.捐款.......................................................................................................................................摘要1236.2.未解决的问题和未来的工作...............................................................................................124附录A.EReMoS:一个用于提取和搜索句法模式的..............................计算文体学工具127附录B.评估基于顺序规则的特征对作者归属........................................... 的有效性133B.1.作为文体特征的..............................................................................................................................134B.2.实验设置.......................................................................................................................................... 135B.2.1.数据集135B.2.2.分类表..................................................................................................................................... 135B.3.讨论与讨论......................................................................................................................................136附录C.作者身份验证的异常检测方法........................................................................ 139C.1.异常检测...............................................................................................................................140C.2.建议.......................................................................................................................................141C.2.1.基于距离的无监督模型........................................................................................................ 141C.2.2.弱监督概率模型.......................................................................................................... 142C.3.考虑样式标记.......................................................................................................................143C.4.实验设置.......................................................................................................................................... 144C.4.1.数据集144C.4.2.验证方案...................................................................................................................... 144C.4.3.基线......................................................................................................................................... 145C.5.讨论与讨论......................................................................................................................................14514C.6.一个经典的法国文学之谜:Le Roman deViolette................................................图149表151参考文献15315第1一般性介绍1.1. 背景与动机数字技术正在彻底改变我们日常生活的许多方面。人类发现自己越来越依赖数字技术来完成任务。例如,数字技术从根本上改变了印刷行业。电子书等技术和设备通过改变人们阅读文本或消费信息的方式,对人们生活的文化方面产生了重大影响。 这种影响已经蔓延到许多其他领域,除了工业,如经济和科学以及。事实上,数字技术使快速和强大的计算成为可能,通过改变科学家从事研究活动的方式改变了科学事实上,越来越明显的是,研究越来越依赖于数字技术。这一新发展对科学的影响因学科和研究领域而异例如,与人文学科等其他领域不同,自然科学现在从根本上毫无疑问地依赖于数字技术和计算。数字人文学科,在其早期被称为&数字人文领域所知的词汇转变实际上反映了重要的发展,这些发展改变了计算机和计算在这门学科中的历史。 Schnapp等人(2009)在他们的数字人文宣言2.0中总结了这一发展:“数字人文工作的第一波是定量的,调动了数据库的搜索和检索能力,自动化语料库语言学,将超卡堆叠成关键数组。 第二波是定性的、解释性的、经验性的、情感性的、生成性的“。此外,数字人文,这开始作为一个术语的共识,在一个相对较小的一组研究人员,现在是增长最快和有前途的研究领域之一(Kirschenbaum2012)。在人文学科中使用和发展计算方法的重要性不是一个孤立的现象,而是一个更大的转变的一部分,称为计算转向(Berry 2011)。 除了一般的人文学科和特别是文学分析之外,计算转向越来越多地反映在许多学科中,包括但不限于艺术和社会科学(Lazer et al.2009年)。在这种情况下,我们的论文工作是在Labex OBVIL(文学生活的天文台)开始的努力的一部分。该实验室旨在开发和利用计算机应用程序提供的资源来检查法国文学。 它通过一方面汇集文学和社会科学的研究人员,另一方面汇集计算机科学家和工程师,促进数字人文领域的科学研究。一般性介绍16文本作为文学作品的支持,与图像和视频等其他数据格式相反,传统上是计算机处理最多的数据类型事实上,即使是最早的一些计算机也有处理文本的能力,这导致了为语言学和文学分析等研究领域开发计算文本分析工具的悠久传统。事实上,在文学文本研究中使用计算方法有着悠久的传统。如果我们从计算的词源学意义上考虑计算这个 词 , 我 们 可 以 追 溯 到 计 算 机 时 代 之 前 的 这 种 方 法 ( Lutoslawski 1898 , Mosteller Wallace1963)。同样在语言学领域(以及文体学),定量方法在风格和体裁分析中的应用可以追溯到最初并延续到今天(Leech and Short 2007,Semino and Short 2004,Biber 2011,Mahlberg 2013)。然而,不可否认的是,近年来,由于大量数字化文本的可用性以及数据挖掘方法在识别文学历史趋势方面的成功,定量方法已经走出边缘,进入文学研究的前沿(Moretti 2005,Jockers 2013)。 虽然计算方法的优势是显而易见的,当处理大型语料库时,它们也存在于较小的语料库中;正如我们将在本论文中看到的那样,当从不同的和新的角度分析时,单本书甚至其中的一部分可能会揭示有趣的和新的见解。1.2. 论文主题和目标从历史上看,文体学的大部分工作都集中在词汇方面,特别是在这门学科的最初几十年此外,处理风格的句法方面的少数作品要么是基于规则的,要么更侧重于可以分析的句法特征,而不需要任何先进的自然语言处理工具。事实上,本书的写作本身就遵循了文体计量学的悠久传统,即将统计方法应用于文学风格的研究(Holmes,1998)。 然而,在我们的论文中,我们处理的是不同于词汇的语言学层面。我们的重点是放在句法方面的风格,这是更难以捕捉和分析,因为他们的抽象性质。事实上,文体学方法经常被用来解决作者归属问题,但最近一个不同的学科已经从这个领域发展出来,我们的工作集中在一个方面,即计算文体学,其中计算方法被用作一种分析工具,用于调查文学作品,作者,流派,时期等的重要文体特征。计算文体学的研究通常与作者信号的研究有关,即通过将他或她的作品与其他人的作品进行比较来识别特定作者的典型特征(称为个人风格,而不是功能风格)。以前的研究往往优先分析离散单元,特别是单词。在这篇论文中,我们提出并描述了一种计算文体学方法,它结合了自下而上的形态句法模式提取,与一种称为兴趣度的统计评估方法,我们将这种方法应用于文体特征的研究,即自动发现一些作者的作品中的特征性形态句法特征。总的来说,我们在这篇论文中的主要工作假设是,更复杂的语言特征是以一种更有意识和控制的方式使用的,因此,当其中一些特征被过度使用时,17论文组织或者在作者的小说中相对于其他小说使用不足,或者表现出特殊的行为和分布,这可以被认为是一种可能有趣的文体特征。本文的主要贡献是,从解释学的角度出发,在没有任何先验知识或明确的先验分类的情况下,对经典法国文学文本进行了计算文体学研究。更具体地说,我们专注于开发和提取复杂的但计算上可行的文体特征,是语言学上的动机,即形态句法模式。基于文献回顾,我们已经进行了一个重要的和富有成效的一部分,我们的论文,我们认为,计算文体学方法需要接地在解释学无监督范式,而不是基于分类。按照这一思路,我们提出了一个知识发现过程中的风格特征,强调的句法层面的风格提取相关模式从一个给定的文本。建议的知识发现过程包括两个主要步骤,一个顺序的数据挖掘步骤,其次是一些有趣的措施的应用程序。我们提出,评估和报告结果的三个有趣的措施,其中每一个是基于不同的理论语言背景。我们的目标是构思和开发一个框架,旨在帮助语言学家和文学研究人员研究句法风格,并从他们感兴趣的文本中提取有意义的语言模式。更具体地说,它旨在支持文体语篇分析,特别是从句法角度,通过:1)对每个提取的语言模式的重要程度进行2)自动归纳对作者3)通过提供阅读结果、排序和过滤结果以及在文本上下文中查看结果的能力,允许以受控和系统的方式阅读文本1.3. 论文组织本论文的其余部分组织如下:第二章提供了我们的工作适合的一般框架,即计算文体学。 它为读者提供了这门学科的概述,包括用于进行计算文体活动的方法和方法,以及其他一些相关领域的概述。 它还报告了工作,我们认为是非常重要的和有影响力的贡献,我们在论文中所作的。第三章是本文的核心部分。在这一章中,我们提出了相关的风格模式的提取考虑的方法,我们提出的知识发现过程的细节。我们提出了建议的兴趣度的措施,用于评估这些提取的模式的相关性。在第4中,我们报告了实验评估和讨论的结果模式。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- CoreOS部署神器:configdrive_creator脚本详解
- 探索CCR-Studio.github.io: JavaScript的前沿实践平台
- RapidMatter:Web企业架构设计即服务应用平台
- 电影数据整合:ETL过程与数据库加载实现
- R语言文本分析工作坊资源库详细介绍
- QML小程序实现风车旋转动画教程
- Magento小部件字段验证扩展功能实现
- Flutter入门项目:my_stock应用程序开发指南
- React项目引导:快速构建、测试与部署
- 利用物联网智能技术提升设备安全
- 软件工程师校招笔试题-编程面试大学完整学习计划
- Node.js跨平台JavaScript运行时环境介绍
- 使用护照js和Google Outh的身份验证器教程
- PHP基础教程:掌握PHP编程语言
- Wheel:Vim/Neovim高效缓冲区管理与导航插件
- 在英特尔NUC5i5RYK上安装并优化Kodi运行环境
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功