没有合适的资源?快使用搜索试试~ 我知道了~
Détection et analyse des signaux faibles. Développementd’un framework d’investigation numérique pour unservice caché Lanceurs d’alerteJulien Maitre.Détection et analyse des signaux faibles.Développement d’un frameworkd’investigation numérique pour un service caché Lanceurs d’alerte. Recherche d’information [cs.IR].Université de La Rochelle, 2022. Français. NNT : 2022LAROS020. tel-039672080HAL编号:tel-039672080https://theses.hal.science/tel-039672080提交日期:2023年2月1日0HAL是一个多学科开放获取存档,用于存储和传播科学研究文献,无论其是否发表。这些文献可以来自法国或国外的教育和研究机构,也可以来自公共或私人研究中心。0HAL(开放式多学科存档)是用于存储和传播法国或国外教育和研究机构、公共或私人实验室发表或未发表的研究级科学文献的开放存档。0Julien Maitre0引用此版本:0LA ROCHELLE UNIVERSITÉ0欧几里得博士学院0L3i实验室(计算机、图像和交互)0博士论文作者:0Julien MAITRE0答辩日期:2022年4月6日0获得学位:La Rochelle Université博士0学科:计算机科学与应用0Détection et analyse des signaux faibles. Développementd’un framework d’investigation numérique pour unservice caché Lanceurs d’alerte。0评审委员会:0Nicole VINCENT教授,巴黎笛卡尔大学,评阅人;Florence SEDES教授,图卢兹大学,评阅人;GuillaumeCHIRON研究工程师,ARIADNEXT公司,考官;Ronan CHAMPAGNAT讲师,La RochelleUniversité,考官;Michel MÉNARD教授,La Rochelle Université,博士导师;Alain BOUJU讲师,LaRochelle Université,博士论文共同导师。0致谢0首先,我要感谢我的导师Michel MÉNARD(La Rochelle Université教授)、Alain BOUJU(LaRochelle Université讲师)和GuillaumeCHIRON(ARIADNEXT公司研究工程师)提出了这个课题,与他们一起工作非常愉快,没有他们就不可能完成这篇论文。希望我们有机会再次合作。0感谢评审委员会成员接受评估这些博士论文的工作:0Florence SEDES(图卢兹大学教授)是评审委员会主席和评阅人;0Nicole VINCENT(巴黎笛卡尔大学教授)对她作为评阅人的工作表示感谢;0Ronan CHAMPAGNAT(La Rochelle Université讲师)和GuillaumeCHIRON对他们的考官角色表示感谢;0我的导师Michel MÉNARD和Alain BOUJU也参与了评审。0我还要感谢实验室主任YacineGHAMRI-DOUDANE和L3i的所有研究人员,他们为我提供了舒适的工作环境、必要的物质支持,以及愉快的工作环境,使博士生和未来的博士能够在良好的条件下工作。0我还要感谢我的资助者,没有他们这篇论文就不可能存在:前普瓦图-夏朗德地区(现属新阿基坦大区)。0感谢所有在这篇论文中帮助过我的人,无论是在技术方面还是在我们的交流中。0更加个人地,我要感谢所有使这个博士学位成为一个丰富而充实时期的人们。这些时刻是一股清新的空气,帮助我在一个周末、一个晚上或者一瞬间改变思维。0特别感谢我的办公室同事,无论是过去还是现在,他们在这些年里一直支持着我:Van、Iuliia、Zuheng、Khoa、Yasmine、Nam、Imane。00致谢0我要特别感谢我的父母,他们给予我坚定的支持和在许多次校对中的帮助。10目录0致谢0总体介绍0总体背景和定位0选择弱信号0提出对弱信号的定义0贡献01 定义和科学定位01.1 引言01.2 使用的分析角度01.2.1 根据检测目标的分析01.2.2 根据数据源的分析01.2.3 根据分析领域的分析01.2.4 数据挖掘/知识提取技术01.2.5 技术评估01.3 定位02 主题建模、词嵌入和文档集合的探索02.1 引言02.2 主题模型02.2.1 潜在语义分析02.2.2 概率潜在语义分析02 目录02.2.3 潜在狄利克雷分配02.3 词嵌入02.4 LDA方法的理由02.5 综合方法的理由02.6 LDA与Word2Vec的结合02.6.1 在维基百科上使用LDA的用例02.6.2 作为主题内一致性度量的一种启发式方法02.6.3 寻找最相关的主题的参数k的研究02.6.4 一种启发式方法来确定整个LDA树中最相关的主题02.7 实验02.7.1 对人工语料库的测试8002.7.2 对真实数据语料库的测试8902.8 结论9703 Agent mining和软件开发9903.1 引言10003 现有技术10103.2.1 知识提取10103.2.2 多智能体系统10703.2.3 Agent mining:数据挖掘和多智能体系统11503.3 提出的多智能体和数据挖掘11503.3.1 处理链11603.3.2 与文档相关的多智能体系统11603.3.3 搜索多智能体系统12303.3.4 与词相关的多智能体系统12703.3.5 主题演化分析12803.4 WILD软件架构概述12903.4.1 WILD软件的组件和服务1310目录303.4.2 调查系统的组件和服务13403.5 处理链的标准和参数设置13803.6 结论14204 实验14904.1 引言14904.2 H2020项目[2014-2021]15004.2.1 语料库15004.2.2 结果15104.2.3 结论16204.3 文献数据库分析16404.3.1 语料库16404.3.2 实施16504.3.3 主要结果1670总结和展望1690附录A 实验的标准和参数设置1750附录B 在健康和医疗领域中确定的文件1790附录C 多智能体系统中的组织范式1850附录D H2020项目的补充实验1870出版物1930图表目录1950表格列表2050算法列表2090参考文献21150总体介绍0总体背景和定位0数字在我们现代社会中的地位引发了重大、快速和大规模的变革,影响到各个领域的活动(商业、工业、经济、教育、健康、文化、交通、能源等)。这些变革改变了人类活动的使用方式(内容生产、人机交互等)、设备(智能手机、平板电脑等)和组织(社交网络、虚拟社区等)。这种发展引发了许多技术和社会问题:技术、管理、法律、环境等挑战。0数字化的爆炸引发了与环境互动的新需求,并暗示了新的科学方向:数据获取、人机界面(IHM)、分布式数据处理问题等。0处理动态、复杂、异质、多样内容的问题需要整合处理上下文、使用语义表示、开发适应性推理和机器学习方法,并部署新的人机交互方式。0这项工作的主要目标是帮助决策者面对信息系统不断增加的信号量做出决策。我们的系统容量饱和现象导致解读困难,甚至拒绝接收先兆信号。决策受到时间限制,因此需要快速处理大量信息。在战略预测的背景下,能够快速检测到携带有用信息的正确信号已经成为许多经济参与者的永久性挑战。对于企业来说,这些动态代表了增长机会[VBV10],或者是基本威胁[vdGVD10],企业必须在这些动态上构建自己的战略方向,这是保持竞争优势的关键因素。然而,它们也提供了机会1. https://wikileaks.org/2. https://wardiaries.wikileaks.org/06.总体介绍0了解政治、经济、社会和技术的发展。因此,有必要开发调查平台(例如,告密者的背景下,图1中的平台)以及为政策制定者和从事这些活动的组织提供新的决策支持服务。决策必须同时涉及信息来源的可信度和事件中所揭示信息的相关性,因此需要强大的算法来检测微弱信号、提取和分析这些信号提供的信息,并开放到更广泛的信息背景中。0从应用的角度来看,我们将这项研究纳入数据新闻的范畴,数据新闻的从业者从告密者那里收到大量文件(电子邮件、内部备忘录和报告、文档等)。除了简单地存储信息外,调查工具还必须能够处理、分析和对这些异质信息进行排序:识别这些文件中存在的主题(例如与事件或社区兴趣相关的主题)以及与这些主题相关的文件中存在的关键词。然后,记者必须能够利用这些结构化信息继续调查,借助其他媒体评估相关性和利益。为了预测事件,他必须能够识别信息大量中隐藏的微弱信号。因此,这是一项具有高附加值的定量分析(智能数据)。0数据新闻的一个重要例子是通过维基解密平台披露的与伊拉克和阿富汗战争有关的文件的研究。最初披露的文件是现场报告。在维基解密平台上,目前有391,000份报告按类型、类别、日期和关键词进行组织。模式(目前是短语和关键词)可以将某些文件联系起来。这些模式是通过专家手动检测出来的。正如网站上所指出的,正是这些模式使得最初看不见的联系成为可能。在我们的研究中,对于给定的问题,我们假设存在一些特征模式,可以检测到信号之间不可见的相关性(在接收到最初的微弱信号文件之前尚未识别)。0该项目旨在建立一种能够处理以下操作的调查程序。� A1 :在最少的先验知识下进行自动内容分析。0� 识别相关信息。� 计算识别的主题的一致性指标。�检测弱信号。0� A2 : 知识聚合。0� 从其他信息源中丰富信息。0� A3 : 分析性可视化。0总体介绍 70图1 �调查平台示例概览。在数据新闻的背景下,它需要满足记者/政治家/法律专家对调查工具(提取、验证、关联)和信息表示(综合、决策支持)的真实需求。因此,它的目标是促进独立专业知识,保护预警发射器,并帮助检测弱信号。预警发射器将首批预示弱信号的文档上传到基于GlobalLeaks和Tor2Web技术构建的数字平台上(例如:SourceSûre和EULeak)。通过专用和安全的计算机硬件,可以对系统和各个参与者(预警发射器、记者、政治家、法律专家等)进行可视化和交互。0�通过创建可视化表示和仪表板来对信息进行整体分析。具体而言,下面描述的贡献主要涉及这些行动,并分别提出了解决方案:01. 检测弱信号02. 提取它们所传达的信息03. 通过界面提供信息的价值(参见图2)0我们提出的系统会自动提取、分析并将信息放入仪表板中(参见图3)。它为接收者构建指标,接收者还可以可视化由多代理系统管理的信息的动态演变。目前,我们选择了多代理系统而不是使用PCA或tSNE [VH08]在二维空间中可视化我们的文档,以便减少维度。08 总体介绍0图2 �弱信号检测策略。它通过分析预警发射器提供的早期信息和提取与发现的主题相关的词汇集合来更好地定位弱信号的数据挖掘阶段。每个彩色矩形代表一个被利用的信息源(例如:文件)。0引力/排斥模型,其中代理(即文档)之间的距离由它们的相似性(关于提取的特征)决定。这种方法既具有实时演化的能力,又为用户提供了丰富的交互(例如,通过强制某些代理的位置)。0选择弱信号0我们在图1中展示的数据新闻调查平台示例显示了通过安全工具和流程相互交互的参与者。我们的研究特别关注预示信号的检测,这些信号在给定的时间范围内的连续存在预示着一个可观察的事件的发生。这种检测得益于预警发射器以文档形式提供的初始信息。它们提供了经过验证、独立和针对特定事件的部分事实。预警发射器提供了信息0概述 90图3显示了我们处理链中知识提取/数据挖掘的不同阶段的详细信息,以及所获得的属性和结果。010 概述0这些信号在专门的社交网络上尚不可见/明显。它们描绘了即将在网络上出现的信号的轮廓,从而方便了它们的检测和所传递的信息的提取。0所提出的工作回答了与数据新闻中的数据挖掘和数字调查类似的语料库自动处理问题。我们还提出了一种新型的交互式数据可视化形式。0我们研究领域的科学出版物中所呈现的数据源的多样性表明了提出统一方法的困难[AZK14,TSV14]。在特定领域的数字调查需要了解与该领域相关的术语[GU10,TSV14]。这些术语的搜索可以通过外部研究进行,也可以由该领域的专家提供的先验知识[GCPP05,MdFdA + 14,HZM +15]。在后一种情况下,可能会在数据收集的后续阶段引入偏差[PVO13]。我们提出了一种解决方案,该解决方案依赖于聚类和词嵌入技术,需要领域专家的较少干预。0从处理各种主题的语料库中进行数据探索也是一项挑战。信息的持续增长和异质性使信息提取变得复杂。存在着内容不相关的文档,使得无法区分出事实或事件的先兆信号,并导致解释困难。我们提出的解决方案基于我们对弱信号的定义(稍后将详细介绍),可以在主题建模多级阶段(第2章)中识别/揭示相关信息,该阶段使用文档中存在的一组单词来表示。然后,在第3章中描述的代理挖掘阶段,我们使用数据增强来确认找到的信息并识别潜在的弱信号。0正如我们将在第1章中看到的,许多文献中的工作将数据集视为静态的,因此不提供更新获取的单词集合的过程。语料库是固定的,添加额外的文档需要进行新的分析。这些方法无法将从新检测/添加/生成的文档中获得的初步结果与之前的结果相结合。数据的高频率生产促使我们提出对语料库进行持续更新的系统[GU10,BXMH15,LCA15]。在我们的工作中,我们整合了一种监测解决方案,该解决方案基于初始语料库中找到的信息,并进行跟踪以研究其演变。0数据可视化技术在数据新闻中被广泛应用。这些图表不能与用户进行强交互。为了在数据分析阶段更深入地吸引用户,0概述 110通过仪表板、指标和动态图表的实施,可以提供相关性的反馈和选择的加强。0提出了对弱信号的定义0在企业界的特定背景下,Anso�[Ans75]等人的研究表明尽早检测到上下文/条件/范式的变化的必要性。文献提出了两种常见的变化形式:弱信号和趋势。我们特别关注的是弱信号,它代表了关键变化的前兆。0我们提出了一个弱信号的定义,这是我们的文档分析系统所依据的。0定义。弱信号的特征是文档中的单词数量较少,并且在少数文档中存在(罕见性,异常性)。它由属于同一个主题的一组单词组成(单一性,语义相关),不与其他现有主题(其他范式)相关联,并在相似的上下文中出现(依赖性)。0所有主题建模方法都面临同样的困难:得到的主题数量通常只对应于局部最优解。即使方法变得越来越稳健,尤其是由于基于狄利克雷过程构建的方法,主题数量的确定仍然对观察结果的结构化和先验信息敏感。0在本研究中,我们提出了一种方法论,以在文档集合的探索和内部序列表示之间取得折衷,其中前者基于主题建模,后者基于词汇嵌入。0我们主张使用综合方法:主题建模和词汇嵌入。前者主要用于描述文档和文档集合,将其分配给主题分布,而主题分布又分配给单词分布。后者旨在将单词定位在潜在的向量空间中。它并不真正用于描述文档,但可以捕捉到非常局部的关联。0本论文的结构如下:首先,在第1章中,我们介绍了这个问题的最新研究现状,以便了解研究的背景并强调文献中用于描述一个012 总体介绍0信号弱且趋势。我们根据文献的多个方面进行回顾。我们在本章中总结我们的立场,根据文献研究提出一个定义,并提出我们的综合方法(全局和上下文),其目的是基于这个定义来突出弱信号。在第2章中,我们详细介绍了解决方案的第一部分,即使用主题建模(分类)和词嵌入两种方法。本部分介绍了我们的一个贡献:一种名为LDA3增强的Word2Vec的多层次主题建模解决方案,用于检测潜在的弱信号。我们还介绍了首先在人工语料库上,然后在真实数据语料库上获得的结果。在第3章中,我们介绍了解决方案的第二部分,即与数据挖掘和多智能体系统相关的代理挖掘领域。我们提出了一种贡献,通过在线搜索新内容来跟踪潜在的弱信号,并提出了一种交互式可视化方法,实时管理携带弱信号的文档。最后,在第4章中,我们在CORDIS信息网站的H2020项目文档库和一篇文章数据库的文献分析中对整个处理链进行了实验。我们研究了解决方案的结果,展示了这种方法的价值,并提出了改进的展望。0贡献0在这项工作中,我们提出了一个处理链,用于从文档语料库中提取、半自动分析和通过Web查询进行搜索,以提供潜在的弱信号概述。这个处理链不受处理的语料库大小限制,基于两种方法:0静态方法,通过半自动文档分析从主题中提取潜在的弱信号;0动态方法中,先前获得的主题中的关键词组被用于构建Web查询,从而通过新文档丰富语料库。在一个三维空间中,代表文档和单词的受到吸引/排斥力的代理移动。用户可以与代理进行交互,通过移动和拖动代理来发出查询,重新组织其他代理的显示,并发起新的Web搜索。在用户指定的一段时间后,重新启动静态方法的新迭代,以获得新的主题。这些新结果可以用于...03. 潜在狄利克雷分配0总体介绍 130重新跟踪获得的新主题的演变。0在静态和动态方法中,处理链的多个步骤无法自动化。因此,我们依靠领域专家评估所获得的结果。借助领域专家的帮助,可以快速有效地进行调查工作,以快速检测到有用信息的良好信号。调查辅助工具提供了处理、分析和排序这些异构信息的能力。0图3显示了根据知识提取过程的不同阶段的处理链。图4以另一种形式描述了这些阶段。主题建模、词嵌入和剪枝阶段将在第2章中介绍,这是静态方法。投影和发现阶段将在第3章中介绍,这是动态方法。0整个处理链是在WILD软件中实现的。它提供了一组服务和组件,供不同的用户使用,如报警器和记者,以支持决策。这个可调节的软件提供了一组可调节的参数,以获得一致和相关的结果。0静态方法0我们的处理链的第一部分提供了一种半自动文档分析解决方案,称为多层次主题建模,以提取潜在的弱信号。它基于主题进行处理。我们使用了一些已经被证明有效的方法,如LDA和Word2Vec,但它们也存在一些限制。LDA主要用于描述文档和文档集合,通过为它们分配主题分布来描述它们,而这些主题又有分配给它们的词汇分布。因此,它捕捉到了文档层面的关联。LDA仅确定了文档库中主要的主题。Word2Vec试图将单词定位在潜在的向量空间中。它并不真正用于描述文档,但可以捕捉到非常局部的关联。因此,这两种方法是互补的,因为第一种方法将文档表示为长度为x的向量,而第二种方法将单词描述为长度为x的向量。我们并不假设文档支持的主题可以以层次结构的方式描述,这可能会暗示使用hLDA。由于目标是检测与弱信号相关的主题,因此它与其他主题(即现有范例)是不相关的(唯一的且在语义上与其他主题不相关),并且与语料库中包含的其他信息相对独立。这个弱信号主题需要领域专家跟踪以确定其相关性。014 概述0我们提出的联合方法基于标准LDA和Word2Vec的使用。该方法确定主导主题,但这些主题不符合微弱信号的定义。为了检测微弱信号,我们需要其他详细说明的标准:tf-idf、Bhattacharyya距离和Word2Vec的一致性标准。0首先,对于多个主题数量的值,我们对文档语料库应用标准LDA。然后,通过相似性标准,我们构建所得主题的树形结构。这个树形结构最初是简化的,并通过Word2Vec的一致性标准进行修剪。只有按照我们对微弱信号的定义而言是一致的主题才会被保留。LDA只能确定文档库的强主题。为了确定突出的关键词,我们通过tf-idf加权方法重新评估组成主题的单词的相关性。因此,我们的方法基于一组标准来获取相关主题。然后,专家将这些主题与应用领域进行对比以确定其相关性。0在我们称之为多层主题建模的静态方法中,我们使用以下标准:0LDA用于获取主题的语义上最相关的关键词;Word2Vec提供了属于主题的单词的一致性标准;Bhattacharyya距离用于通过计算主题之间的相似性链接来获得尽可能不同的主题;0tf-idf计算一个主题的突出关键词,这些关键词可能代表多个潜在微弱信号。0需要对每个主题的语义进行提取。这需要领域专家来完成。然而,所得主题和其中包含的潜在微弱信号的质量取决于文档数量。文档数量较少会增加潜在微弱信号的检测难度。0在处理链的第一部分中,静态方法仅能确定文档语料库中存在的潜在微弱信号。通过动态方法研究它们的演变,可以确认或否认检测到的潜在微弱信号。我们处理链的第二部分是动态方法。其目标是考虑信息的时间演变。0动态方法0寻找微弱信号需要进行时间跟踪。这些工作的第一部分介绍了从静态多层主题建模中检测潜在微弱信号的方法。这些信号需要与更广泛的信息背景进行关联。015 概述0为此,通过搜索引擎查询将丰富初始语料库。这种信息监测解决方案提供了对潜在微弱信号的跟踪能力。该解决方案由专家监督,专家确定主题的演变是否突显了先前检测到的微弱信号。通过Unity界面,用户可以通过简单直观的交互与系统进行交互,并可视化主题的演变。0因此,我们提出了一种结合数据挖掘和多智能体系统的代理挖掘方法。在静态方法中获得的文档和关键词在三维空间中表示,代理通过代表这些文档和关键词的引力/斥力力量进行移动。在我们处理链的静态方法中获得的主题和突出关键词用于在搜索引擎上发起查询。这些查询的搜索结果网页以新代理文档的形式添加到多智能体系统中,以丰富语料库。用户可以与代理进行交互,通过移动和重新组织代理来提出查询,并根据文档的关键词启动新的Web搜索。0这种动态特性可以跟踪关键词的演变以及与之相关的文档检索结果,以确定这些结果在数量和质量上是否相关。根据接收到的文档数量,可以确定潜在的弱信号是否变为强信号。0实验0本论文中的测试首先在处理链的第一部分进行,然后在整个处理链上进行,以验证概念的有效性并对真实数据集进行相关性研究。因此,我们主要使用了两个数据库:0文献数据库。我们的研究旨在评估我们的算法在由Mühlroth研究的最新技术文献库上的效果,以便从中提取出该领域的新领域和新趋势。0科学文献数据库。我们的研究旨在评估我们的算法在由Mühlroth研究的最新技术文献库上的效果,以便从中提取出该领域的新领域和新趋势。0H2020项目0我们使用2014-2021年的H2020项目数据库。它来自欧盟研究和开发信息服务(CORDIS)的开放数据(2020年5月6日的转储)。主题按年份分组,以评估8年内研究主题的演变。我们将前几年用作
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功