人工学习在数据分析中的应用

2 浏览量更新于2024-02-05 收藏 4.13MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

人工学习在数据分析中的应用马克·谢瓦利埃引用此版本：马克·谢瓦利埃。人工智能巴黎北巴黎第十三大学，2022年。法语。NNT：2022PA131060。电话：04022895HAL ID：电话：04022895https://theses.hal.science/tel-04022895提交日期：2023年HAL是一个多学科的开放存取档案馆，用于存放和传播科学研究论文，无论它们是否被公开。论文可以来自法国或国外的教学和研究机构，也可以来自公共或私人研究中心。L’archive ouverte pluridisciplinaire巴黎第十三大学-巴黎北部索邦大学加利利科学、技术、健康博士学院L’Apprentissage Artificiel au service duprofilage des博士论文提交人马克·谢瓦利埃巴黎北部计算机实验室以获得计算机科学博士于2022年11月23日在考试委员会面前进行答辩，考试委员会穆罕默德·夸法夫，艾克斯-马赛大学报告员吉勒·伯纳德巴黎第八大学报告员尤尼斯·本纳尼，巴黎北部评审团主席尼斯托·格罗扎武塞吉-蓬图瓦兹大学检查员Nicoleta Rogovschi，巴黎城市大学审查员法兹·布法雷斯，巴黎北部论文指导查理·克莱蒙特Synaltic公司邀请L’Apprentissage Artificiel au service du profilage des données - Marc1谢谢你我要感谢Marc Sallières、Charly Clairmont和Faouzi Boufarès，没有他们，这场冒险就不可能发生。非常感谢Nistor和Nicoleta的明智建议然后，我感谢评审团成员，他们给了我研究我的作品的荣誉我还要感谢我在LIPN的所有同事，他们在我需要的时候为我提供了建议和支持J’ai une pensée pour tous mes collaborateurs感谢我父母这些年来的支持非常感谢MSCLR，在我怀疑的时候，它总是安慰我最后，2摘要在过去的几年里，数字化转型在公司内部迅速发生，这导致了大规模的数据生产。一旦与存储这些数据相关的问题得到解决，它在商业智能（BI）或机器学习（ML）中的使用就成为公司的主要目标，以便使其数据有利可图。然而，数据的使用是复杂的，因为它没有得到很好的记录，并且经常包含许多错误。正是在这种背景下，数据分析和数据质量（DQ）领域变得越来越重要。教授喜欢从数据和数据质量中提取信息元数据，喜欢量化数据中的错误分析是数据质量的先决条件，我们通过使用由简单分析操作产生的元数据向量来集中我们这些简单的训练向量使我们能够执行高级分析任务，特别是使用机器学习预测复杂的语义类型。我们使用的元数据向量很大，因此会受到维度的影响。该术语指的是机器学习中的一组性能问题，当问题的维数增加时。解决这些问题的一种方法是使用遗传算法来选择具有良好属性的维度子集在这个框架中，我们提出了一些改进：一方面，对组成遗传算法初始群体的个体进行非随机初始化，另一方面，对遗传算法进行修改，进行积极的突变以提高其性能（GAAM）。关键词：数据剖析，机器学习，特征选择，遗传算法3摘要在过去的几十年里，公司内部发生了快速的数字化转型一旦解决了与存储这些数据相关的问题，在商业智能（BI）或机器学习（ML）中使用这些数据就成为公司利用其数据的主要目标。然而，这些数据的使用是复杂的，因为它们很少被记录，并且经常包含许多错误。正是在这种背景下，数据剖析和数据质量（QD）领域变得越来越重要，剖析的目的是从数据中提取信息元数据，数据质量的目的是量化数据中的错误。由于分析是数据质量的先决条件，我们通过使用简单分析操作产生的元数据向量，将工作重点放在这方面。这些简单的信息向量我们使用的元数据向量很大，因此会受到大维度诅咒的影响。该术语包括人工学习中随着问题维度数量的增加而出现的一组性能问题。解决这些问题的一种方法是在这个框架中，我们提出了改进：一方面，组成遗传算法初始群体的个体的非随机初始化，另一方面，对遗传算法进行具有攻击性突变的修改，以提高其性能（GAAM）。关键词：数据剖析，人工学习，特征选择，遗传45材料表材料表摘要2摘要31一般介绍191.1引言191.2数据211.3背景221.4问题231.5第24章摘要1.5.1最新技术水平1.5.2用于数据分析的元数据向量251.5.3通过遗传算法进行特征选择252最新技术水平2.1导言282.2数据分析282.2.1分析单列数据282.2.1.1基数292.2.1.2值分布302.2.1.3数据类型、架构、域312.2.1.4近似值332.2.2分析多列数据332.2.2.1不同类型的约束332.2.3单行和多行372.2.4分析工具示例2.3L’apprentissage artificiel (Machine Learning)2.3.1L’apprentissage automatique6材料表2.3.1.1L’apprentissage non-supervisé2.3.1.2L’apprentissage par renforcement2.3.1.3L’apprentissage Supervisé2.3.2我们使用442.3.2.1朴素贝叶斯分类器442.3.2.2决策树452.3.2.3决策树森林2.3.2.4增加492.3.2.5渐变树增压492.3.2.6逻辑回归502.3.2.7神经网络512.3.2.8堆叠522.3.2.9校准522.3.2.10 第53章第一次见面2.3.3我们使用的无监督模型532.3.3.1主成分分析532.3.3.2自动编码器542.3.3.3随机邻居嵌入552.3.3.4t-分布随机邻居嵌入2.4功能选择572.4.1特征的顺序选择602.4.2遗传算法602.5第六十二章结论3用于数据分析的元数据向量633.1引言643.2创建特征643.3语义类型的检测683.3.1导言683.3.2用于语义类型检测的学习。693.3.3数据的生成703.3.4特征的提取713.3.5第71章学习模式3.3.6实验方案723.3.7结论793.4检测几乎重复的列793.4.1导言797材料表3.4.2一般说明803.4.3特征描述813.4.4算法原理813.4.5第83章3.4.6经验843.4.7结果913.4.8结论923.5近重复数据集的检测933.5.1导言933.5.2问题93的描述3.5.3特征933.5.4算法943.5.5经验973.5.5.1参数ζ97的影响3.5.5.2列数的影响973.5.5.3几种分类器的评价973.5.5.4优化983.5.6结果993.5.6.1参数ζ99的影响3.5.6.2列数的影响993.5.6.3几种分类器的评价993.5.6.4优化1053.5.7结论1063.6第107章结论4通过遗传算法进行1094.1导言1094.2GAAM1124.3初始种群的播种1144.3.1折衷主义GA（EGA）1144.3.2经验1154.3.2.1经验条件4.3.2.2创建初始总体的技术1164.3.3................................ 结果1184.3.3.1使用EGA 118算法的结果4.3.3.2使用GAAM 119算法的结果4.3.3.3与降维方法的比较.................................................... 1228材料表4.3.4结论1224.4群体规模与突变率之间的权衡来自GAAM1234.4.1导言1234.4.2mGAAM1234.4.3经验1244.4.4结果1264.4.5元数据向量测试1284.4.6结论1334.5第一百三十四章结论5结论1355.1捐款1355.2未来方向137参考文献139附件1559图列表图列表1.1创建、复制和使用的数据/信息量从2010年到2025年[Sta21]201.2数据质量的传统组成部分211.3CSV格式的数据源示例，（数据从学生名单中提取1.4DS 22数据源的定义1.5Synaltic长期合作伙伴231.6Synaltic23的客户2.1元数据及其用途概述[Har20]。..........................................................282.2单列数据的分析292.3Kaggle 30上的直方图示例2.4DF[AGNP18]36的搜索网格2.5使用数据分析的示例2.6使用TRIFACTA39进行数据分析的示例2.7Talend数据质量39提供的结果示例2.8人工智能领域的示意图2.9监督学习的表现2.10 我们使用的模型类型422.11 二进制混淆矩阵432.12 交叉验证4折442.13 决策树462.14 决策树示例2.15 决策树森林2.16 用于二进制分类的全连接神经网络的结构2.17 分类器的堆叠522.18 自动编码器[Bur19]542.19 二维还原ACP5810图列表2.20 二维简化自动编码器582.21 二维约简t-SNE582.22 功能选择592.23 用于选择的遗传算法的操作61的特点3.1创建特征向量的过程653.2使用Sherlock方法对多个向量长度的特征向量的欧几里得归一化平均值（对于语义类型为FILM-FRENCH的列）663.3对于几个向量大小（对于一个列），特征向量的平均欧几里德归一化语义类型电影-法语）673.4基于行数的执行时间3.5拟定方法的概要图693.6测试数据集的正确识别率不同ω74值的"高"版本3.7测试数据集的正确识别率不同ω75值的"低"版本3.8已知和未知类的正确识别率使用"高"RF分类器的不同阈值.......................................................... 773.9已知和未知类的正确识别率对于不同的阈值，使用Catboost 'High' 77分类器3.10 α = 1的电子邮件地址列的NDC和NNDC的二维投影3.11 对于α=2的名称列，NDC和NNDC的二维投影853.12 不同α值的正确识别率在电子邮件地址列3.13 不同α值的正确识别率在名称列873.14 特征提取前的列连接943.15 α奏效[0，3]和ζ奏效[0，3]的NNDDS和NDDS，10列公式3.6963.16 正确识别率，RF分类器为α奏效[0，3]和ζ奏效[0，3]，公式为3.61023.17 正确识别率，RF分类器为α奏效[0，3]和ζ奏效[0，3]，公式为3.710211图列表3.18 正确识别率，α奏效的Catboost分类器[0，3]和ζ奏效[0， 3]，公式为3.61023.19 正确识别率，α奏效的Catboost分类器[0，3]和ζ奏效[0， 3]，公式为3.71023.20 正确识别率，α奏效的LGBM分类器[0，3]和ζ奏效[0， 3]，公式为3.61033.21 正确识别率，α奏效的LGBM分类器[0，3]和ζ奏效[0， 3]，公式为3.71033.22 正确识别率，TabNet分类器，用于α奏效[0，3]和ζ奏效[0， 3]，公式为3.61033.23 正确识别率，TabNet分类器，用于α奏效[0，3]和ζ奏效[0， 3]，公式为3.71033.24 正确识别率，α奏效分类器Adaboost[0，3]和ζ奏效[0， 3]，公式为3.61033.25 正确识别率，α奏效分类器Adaboost[0，3]和ζ奏效[0， 3]，公式为3.71033.26 正确识别率，α奏效的堆栈分类器[0，3]和ζ奏效[0，3]，公式为3.61043.27 正确识别率，α奏效的堆栈分类器[0，3]和ζ奏效[0，3]，公式为3.71044.1GAAM 114算法的工作原理4.2每种方法生成的每1000个独立视频的识别率的小胡子框1174.3计算的平均正确识别率的变化在Semeion118上使用SSM进行10次模拟4.4计算的平均正确识别率的变化在Madelon118上使用SSM进行10次模拟4.5计算的平均正确识别率的变化在Semeion119上使用ESM进行10次模拟4.6计算的平均正确识别率的变化在Madelon119上使用ESM进行10次模拟4.7计算的平均正确识别率的变化在Semeion120上使用SSM进行10次模拟4.8计算的平均正确识别率的变化在Madelon120上使用SSM进行10次模拟4.9计算的平均正确识别率的变化在Semeion120上使用ESM进行10次模拟12图列表4.10 计算的平均正确识别率的变化在Madelon120上使用ESM进行10次模拟4.11 多种群体规模的Leaf平均识别率1274.12 不同群体规模的Micro-Mass平均识别率12713表的列表表的列表2.1客户数据示例342.2数据示例星座362.3线路配置文件示例372.4决策树的示例数据集453.1对于多个向量大小（对于一个列），Sherlock特征向量的欧几里得归一化的标准差语义类型FILM-FRENCH），用于两种方法673.2基于行数的执行时间3.3模型识别率733.4F1- 74个模型的"宏"得分3.5Catboost的10个最佳功能，按按杂质基尼系数降序排列.................................................................. 753.6RF的10个最佳特性，按其基尼杂质分数降序排列。..................... 763.7使用Catboost RF和Catboost分类器对不同阈值的已知和未知类别的正确识别率Catboost分类器第1部分。.................................................................783.8使用RF和Catboost分类器对不同阈值的已知和未知类别的正确识别率分类第2部分........................................................................................ 783.9第一次体验邮件和姓名列第1部分........................................................................ 863.10 第一次体验第2部分中的邮件和姓名列................................................................ 873.11 第二次实验的正确识别率U代表2个分类器883.12 3个分类器对U'的正确识别率3.13 3个分类器的U'精度14表的列表3.14 U'上的3个分类器的提醒3.15 F1- 3个分类器的U'3.16 在最后一个实验中，在多个alpha上训练的2个模型的良好识别率893.17 提醒2个模型在最后一个实验的几个alpha上训练893.18 最后一个实验中在多个alpha上训练的2个模型的精度903.19 F1-在最近90次3.20 几个ζ99值的正确识别率3.21 根据用于构建训练数据集的古龙和测试数据集。................................................................................ 1003.22 6个分类器对不同类型的识别率（α，ζ）与公式3.6的比率................................................................1013.23 6个分类器对不同类型的识别率（α，ζ）与公式3.6第2部分的关系。..............................................1013.24 6个分类器对不同类型的识别率（α，ζ）与公式3.7的比率................................................................1013.25 6个分类器对不同类型的识别率（α，ζ）与公式3.7第2部分的关系。..............................................1023.26 Catboost和RF型号的十大功能使用公式3.6，按降序排序。............................................................ 1043.27 Catboost和RF型号的十大功能公式3.7，按降序排序。.................................................................... 1053.28 使用6个分类器的正确识别率两种方法和两个公式1064.1所用数据集的描述1104.2SFS的10个特征的良好识别率（3倍交叉配准）和GAAM的良好识别率-中位数（50次模拟）110部分4.3SFS的10个特征的良好识别率（3倍交叉配准）和GAAM Part b111的4.410个特征的平均正确识别率通过重复分离50次获得75%的学习25%测试部件A11115表的列表4.510个特征的平均正确识别率通过重复分离50次获得75%的学习25%测试部分B1124.6AG 116接种测试的数据集描述4.7Madelon数据集的良好识别率（Tbr），10次模拟1214.8Semeion数据集的识别率（Tbr），10次模拟1214.9EGA和GAAM 20特征的平均良好识别率，对于两种播种技术25%。... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...... ... 1214.10 具有20个特征的1224.11 功能数量的一半结果1224.12 使用算法14计算的微质量结果突变率1284.13 与使用10个个体、10个特征和100次迭代的GAAM相比，mGAAM算法在多个数据集上的结果，50个模拟，第A1部分。................................................................... 1294.14 与使用10个个体、10个特征和100次迭代的GAAM相比，mGAAM算法在多个数据集上的结果，50个模拟，A2部分。....................................................................... 1304.15 与使用10个个体、10个特征和100次迭代的GAAM相比，mGAAM算法在多个数据集上的结果，50次模拟，第b1部分。....................................................................1314.16 与使用10个个体、10个特征和100次迭代的GAAM相比，mGAAM算法在多个数据集上的结果，50次模拟，第b2部分。....................................................................1324.17 GAAM和mGAAM（60inds，公式14）的平均正确识别率，10个特征，通过重复获得50次分离75%学习25%测试部分A。1334.18 GAAM和mGAAM（60 Inds，公式14，10个特征，通过重复50次分离75%学习25%测试B部分。13316表的列表A.1 本研究A部分包含的57种语义类型的列表155A.2 本研究b部分包含的57种语义类型列表15617L’Apprentissage Artificiel au service du profilage des données - Marc

下载后可阅读完整内容，剩余1页未读，立即下载