针对极度不平衡数据流的封闭式学习研究

81 浏览量更新于2024-02-06 收藏 4.54MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

针对极端不平衡数据流的乔丹·弗雷引用此版本：乔丹·弗雷。针对极度不平衡的数据流的封闭式学习。人工智能[cs.AI]。里昂大学，2019年。英语NNT：2019LYSES 034。电话：02899943HAL Id：tel-02899943https://theses.hal.science/tel-028999432020年7月15日提交HAL是一个多学科的开放获取档案馆，用于存放和传播科学研究文件，无论它们是否已这些文件可能来自法国或国外的教学和研究机构，或来自公共或私人研究中心。L’archive ouverte pluridisciplinaire订单号NNT：2019LYSES 034E'coleDoctoraleED 488 Sciences，Ing'enierie，Sant'e针对极不平衡数据流的关于不存在的外显元素和平衡元素的流动的学徒课程这是乔丹·弗雷给你的让·莫内·德·赛恩-埃蒂安的《统一》与Atos Worldline合作pour obtenir le grade de：Docteurde专业：信息里昂大学，UJM圣艾蒂安，CNRS，Institut d Optique Graduate School，AumatoireHubert Curien UMR 5516，F-42023，SAINT-ETIENNE，France。目录图目录一.导言vvii1第1章71.1监督机器学习. . . . . . . . . . . . . . . . . . . . . . .71.2学习。 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .131.3提升 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .151.4班级学习不平衡. . . . . . . . . . . . . . . . . . . . . . . . .30第二章极端不平衡数据的学习：应用于欺诈检测。432.1导言。 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .432.2异常检测 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .442.3信用卡欺诈检测。 . . . . . . . . . . . . . . . . . . . . . . . .492.4具有财务成本的成本敏感学习约束 . . . . . . .522.5 Worldline . . . . . . . . . . . . . . . . . . . .532.6不平衡学习方法在信用卡欺诈侦查. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .612.7结论。 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .703从学习排名的角度来看，使用不平衡数据进行733.1导言。 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .733.2评价标准及相关工作。. . . . . . . . . . . . . . . . . .763.3使用AP的随机梯度提升。 . . . . . . . . . . . . . . . . . . .803.4实验。 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .853.5结论与展望。 . . . . . . . . . . . . . . . . . . . . . . . .904多潜空间中的非线性梯度提升914.1导言。 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .914.2相关工作. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .944.3在线非线性梯度提升。 . . . . . . . . . . . . . . . . . . .954.4扩展到批量非线性梯度提升。 . . . . . . . . . . . .98IIIiv目录4.5实验1004.6结论110结论与展望113出版物列表117附录119A AP和Fβ评分相关性121B 多类环境中的ONLB125参考书目127图目录1人工智能在行业中的出版趋势 . . . . . . . .21.1偏差和方差的权衡......................1.2三种不同模型的回归示例....................................................................................... 111.3主要替代损失函数111.4装袋可视化示例141.5堆叠可视化示例151.6提升可视化示例161.7不同分类器在不平衡玩具数据集上的比较311.8ROC曲线的例子.......................................................................................................341.9查准率和查全率曲线的例子................................................................................... 351.10 成本矩阵371.11 不平衡玩具数据集411.12 为什么要解决阶级不平衡的问题？....................................................................... 412.1关于利用机器学习检测欺诈的出版物数量........................................................... 482.2可能的无监督异常检测问题的可视化2.3硬监督异常检测问题的可视化2.4Worldline55的欺诈检测系统（FDS）2.5到达Wolrdline服务器的日常数据量2.6用PCA表示欺诈数据582.7使用T-SNE58表示欺诈数据2.8用T-SNE在3个维度中表示欺诈数据592.9每月的正比率........................................................................................................... 602.10 每小时阳性率........................................................................................................... 602.11 验证和测试模型632.12 GB65不同判定阈值下的F1评分2.13 GB65不抽样时不同判定阈值下的F1得分2.14 RF66采样时不同决策阈值下的F1评分2.15 RF66在不同决策阈值下的F1评分（未采样）2.16 不同决策阈值下的F1得分，具有校准的输出概率662.17 使用欠采样68，2.18 使用欠采样69报告不同阳性率的F1评分3.1从最高分到最低分排序的排名示例78vvi图表列表3.2AP和AUCROC79的重点比较3.3AP85的替代损失函数3.4AUC-ROC的替代损失函数和准确性（逻辑损失）863.5AP和P@k在不同的正例比例894.1玩具数据集和GB93概率边界的可视化4.2我们的在线非线性梯度提升方法的图形表示944.3图4.1中玩具数据集上NLB的概率边界。............................................................1024.4沿着MNIST数据集的迭代，NLB和GB的AP和F11054.5关于学习示例108的渐进式验证错误4.6表示与2-NN学习器的相关矩阵。....................................................................... 1104.7表示与500-NN学习器的相关矩阵。...................................................................1104.82-NN学习器中每个潜在表示的重要性............................................................... 1104.9500-NN学习器的每个潜在表示的重要性...........................................................110A.1 AP vsF1得分122A.2 AP与 F0。5分.......................................................................................................... 123A.3 AP与 F2得分........................................................................................................123表的列表1符号。. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .61.1混淆矩阵 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .302.1成本矩阵。. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .522.2在欺诈数据集。. . . . . . . . . . . . . . . . .703.1用于代理函数可视化的玩具数据集。 . . . . . . . . . . . . .853.2实验中使用的6个数据集的属性. . . . . . . . . . .873.3实验结果为有效的顶级优化。 . . . . . . . . .884.1实验中使用的数据集的属性. . . . . . . . . . . .1034.2AP和F1报告了NLB和GB。. . . . . . . . . . . . . . . . . . .1044.3弱学习者的平均数量和每个弱学习者的分裂。. . . . . .1054.4实验中使用的数据集的属性. . . . . . . . . . . .1064.5报告了不同在线提升算法的错误率。 . . . . . . . .1074.6通过渐进验证选择的弱学习者的平均数量（N）.107A.1 用于模拟的不同分布。. . . . . . . . . . . . . . .121VII八.表格一览表介绍机器学习是研究设计从训练数据中学习以实现特定任务的算法。然后，生成的模型用于在没有任何外部帮助的情况下预测新的（看不见的）数据点。该数据可以具有许多形式，诸如图像（像素矩阵）、信号（声音，.），交易（年龄、金额、商家等），日志（时间、警报等）。数据集可以被定义为解决特定任务，诸如对象识别、语音识别、异常检测等。在这些任务中，预期输出的知识鼓励监督学习方法，其中每个观察到的数据都被分配到定义模型预测应该是什么的标签。例如，在对象识别中，图像可以与标签“汽车”相关联，这表明学习算法必须学习汽车包含在该图片中的某个这与无监督学习相反，在无监督学习中，手头的任务没有明确的标签。例如，无监督学习中的一个流行主题是在学习特定任务之前发现视觉数据（图像）中包含的底层结构，例如对象的几何这种学习显然要困难得多，因为数据中可能有无限多的概念需要掌握。在这篇手稿中，我们专注于监督学习设置的一个特定场景：1）感兴趣的标签被低估（例如异常），2）当我们从现实生活中的事件中接收数据时，数据集会随着时间的推移而增加（例如异常）。信用卡交易）。事实上，这些设置在本论文所处的工业领域中非常普遍。问题和动机如今，IT公司比几年前更多地参与人工智能研究。最近，我们看到了新的研究中心的创建，如2010年的Deepmind，2011年的Google Brain（Alphabet），2013年的FAIR（Facebook AI Research）和2015年的OpenAI。在图1中，我们展示了来自12表的列表400350300250200150100500年图1：人工智能领域5家最先进的公司每年在机器学习顶级会议上发表的论文数量这些公司多年来一直在享有声望的机器学习会议中，并且最近公司发布和分享其最新研究的热潮是显而易见的。这种趋势正在蔓延到许多公司，主要有两个原因：硬件的发展和可用的数据事实上，在过去的几十年里，硬件有了很大的改进，1TFLOPS（每秒Tera浮点运算）的成本从2000年的100万欧元下降到2017年的30欧元自然，公司开始投资构建更强大的计算基础设施来处理大量数据。后者是主要研究公共数据集的学术界和拥有TB数据的行业此外，他们还聚集了世界上最大的计算基础设施，使他们成为使用机器学习的主要请注意，今天使用的大多数机器学习算法，如神经网络，boosting，随机森林，逻辑回归，SVM等等，都是在2000年左右创建的，但对更多计算能力和更多数据的可访问性推动了然而，这些算法是在数据集干净且相对较小的受限环境中开发的这些来自行业的新数据集提出了新的挑战。在这份手稿中，我们解决了由其性质提出的几个重要问题。值得注意的是，来自行业的真实数据集在公共领域是一种罕见的商品有许多不同的原因，为什么这些数据是远离公共研究，如隐私和1请注意，数据是使用Google Scholar搜索引擎收集的，因此可能会遗漏一些论文。Google Brain、DeepMind、Microsoft、IBM和Facebook在顶级ML会议发表论文数200020012002200320042005200620072008200920102011201220132014201520162017表的列表3事实上，它们是拥有它们的公司的资产然而，最近，许多公司开始通过竞争格式（例如Kaggle）发布完全匿名的数据摘要，这使得它们从商业角度来看毫无价值，但对于数据科学界来说却是无价的。话虽如此，很明显，收集大量数据对于人类工作来说是昂贵的，特别是因为标签部分（对于监督学习），人们必须为每个数据点分配一个基础事实。此外，数据越来越多地受到许多不同的社会约束。最常见的是数据隐私，可以通过匿名化数据来部分解决，但可能会丢失与学习算法相关的可用信息。截至目前，《通用数据保护条例》（GDPR）的欧洲法律规定，只有在非常严格的规则下才能合法使用数据，这使得人工智能模型的使用更加复杂。此外，这些基于真实事件构建的数据集受到许多过程的影响，这些过程通常会引入一些噪声（例如，标签上的人为在这份手稿中，一个重要的焦点是不平衡的数据集，其中感兴趣的类别（例如欺诈性交易）被低估。在Atos Worldline公司，这篇论文是与Hubert Curien实验室合作完成的，我们在极端和前所未有的情况下目睹了这个问题，欺诈交易大约每两千次出现一我们将证明，在这种情况下，评估指标是原始的，并且不平衡监督学习的最新技术水平受到公共数据集（通常非常小）引起的偏差的影响。今天，许多公司在生产中使用机器学习模型然而，由于不同的概念随着时间的推移而漂移，它们往往在短期内被淘汰。例如，垃圾邮件检测、欺诈检测、异常检测、推荐系统或点击预测是不断发展的问题（例如，新的欺诈策略，新的异常，新用户模型必须快速适应模式的变化。在生产中，对于大多数使用机器学习的公司来说，数据科学家的角色通常是通过指标观察性能并在需要时从头开始重新训练模型来维护模型这当然不是最佳方案。我们更喜欢一个模型，它可以随着数据的到来而自动适应，并随着时间的推移而学习事实上，在现实生活中的应用程序中，数据并不是以有限的集合形式出现，而是以永不停止的流形式到达，定义了现实生活中的实际事件本文也为解决这一问题迈出了一步。4表的列表本论文本论文的背景本论文是学术界和工业界合作的一部分。Worldline是一家专注于电子支付服务的公司，在电子支付安全方面发挥着特殊作用事实上，几家银行依靠他们的欺诈检测系统来预测欺诈行为，并在持卡人发现欺诈行为之前阻止欺诈者窃取太多的钱显然，Worldline可以访问每笔交易的不同信息然而，今天，欺诈检测系统主要依赖于欺诈专家，他们在对交易进行分析和调查之后构建所谓的专家规则这是昂贵的，从长远来看是不现实的。这就是机器学习的用武之地每天都有大量的数据到达本论文的目的是适应现有的机器学习技术的挑战，提供了欺诈检测问题。更一般地说，我们处理监督异常检测问题有两个主要的限制：类不平衡问题和连续的数据馈送。第一次世界大战的胜利这份手稿包含两个主要贡献，分为四个不同的章节。在第1章中，我们介绍了本文中使用的机器学习基础知识，并介绍了一般的类不平衡域及其不平衡学习方法和评估指标。最后，我们提出了一些最著名的集成方法，重点是提高，我们在这篇论文中使用。第二章介绍了本论文的具体应用案例：信用卡欺诈检测。我们提出了不同的方法，并表明，在我们的特定情况下，它们引入了许多约束和偏见，这些约束和偏见对于机器学习模型来说是复杂的。在Worldline的一个私人数据集上进行了一个大型的实验研究，以突出前面的观点。在这些实验中，我们展示了在类不平衡情况下不同的知名性能指标背后的一些缺点。我们进一步得出结论，独立于此阈值的度量更好地估计模型的潜在性能。这就引出了第一个主要贡献。平均精度第三章是我们的第一个贡献，我们研究了监督异常检测问题。我们提出了一种基于学习排名策略的方法，表的列表5在随机梯度提升算法中优化平均精度（AP）的不同平滑替代，AP是在类不平衡数据的上下文中特别适合的度量我们表明，使用AP是更好地优化排名最高的警报比其他常用的措施。这种学习排名方法适合机器学习环境，我们希望帮助人类专家的日常工作这一贡献之后是一项关于信用卡欺诈检测应用的专利在线非线性提升在之前的贡献中，我们主要使用使用线性组合的标准梯度后者自然地平均了组合中模型的性能。事实证明，我们可以利用非线性组合，以充分利用组合中的模型的潜力。在第4章，我们的第二个主要贡献，我们研究了如何进行这样的组合，并考虑到这些现实生活中的应用程序的另一个重要点：数据的连续流动这种贡献在于在线学习领域，模型必须在示例到达时“动态”学习我们提出了一种新的在线增强算法，它使用比标准线性梯度增强更先进的组合。我们以一个一般性的结论、开放性的问题和观点来结束这份6表的列表表1：符号。符号描述R实数集X，Y输入空间，输出空间x向量dx中的维数y示例的目标地面实况x具有T个不同分类器的F-T增强模型中的弱学习器f（·）函数E（·）外排Rtruee（·）交易风险R（·）经验风险τ判定阈值ρ不平衡比i=1第1章第一次见面摘要在这一章中，我们将介绍几个贯穿手稿的概念我们正式定义了监督学习设置，集成方法，更具体地说，提升。最后，我们提出了不平衡数据集的最新学习方法和度量。1.1监督机器学习在本节中，我们将精确定义监督机器学习问题的设置。在这种类型的学习中，对于人类来说，算法从观察中学习，并获得称为地面真实的反馈我们首先定义一个样本：x∈ X <$Rd，其中X是通常在Rd上定义的输入空间，其中d是向量x的维度/特征的数量，使得我们具有x ={x1，x2，.，xd}。在这个框架中，我们也有例子x的目标y：y∈ Y <$R，其中Y是输出空间，在R上离散或连续。在本文中，我们主要关注Y={− 1， 1}的二元分类。在实践中，我们有一个大小为M的训练集S，定义为S={xi，yi}M，其中假设M个实例是独立且同分布的（i.i.d.）根据X × Y上的未知联合分布D。78第1章预赛MMM我我f∈FM我我i=1现在我们已经建立了基本的符号，我们可以正式描述监督学习的含义。在这个框架中，我们通常希望找到一个函数f ∈ F，其中F是将输入特征X映射到目标输出空间Y的函数空间，f∈F → Y，其中f是对从D中得出的任何（x，y）在给定x的情况下预测y的函数。换句话说，我们想找到f（x）最接近F（x）的函数，即手头问题的真实（未知）函数。然而，现实世界中有很多由缺失特征、错误标签等引起的噪音。我们将不可约误差定义为我们无法从中恢复的不可约误差，使得y = F（x）+f（这个f也与贝叶斯误差有关，贝叶斯误差是贝叶斯最优分类器的误差）。为了找到给定问题的最佳函数f，我们首先需要一个性能指标。让我们定义损失函数l（·，·），它包含模型f（x）的预测输出和期望标签y。正如我们稍后介绍的，这个损失函数可以有多种形式，但它通常集中在评估f（x）和y之间的一致性。我们首先定义广义误差（或真风险）Rtrue（·）的概念，它是我们的模型D的预期误差：Rtrue（f）= E（x，y）<$D（l（f（x），y））.在实践中，我们只给出了一个有限的训练集S，其中每个数据点都假设是从分布D中随机抽取的，并且每个示例都是独立于其他示例生成这是机器学习中最常见的假设，它表明数据是独立和相同分布的（i.i.d.）。假设）。因此，一般来说，在D上获得期望误差是不可能的，我们宁愿使用S来计算它的经验对应物R：R（f）= 1l（f（x），y）.假设风险与真实风险（H o effding，1963）R（f）−M−→−∞→Rtrue（f）一致。最后，我们寻找f使得f= inf f∈FR（f）。一个直接的方法是最小化经验风险来找到函数f，使得：f=infR（f）=inf（f（x），y）.i=1f∈F1.1. 监督机器学习9.Σi=1然而，对所有可能的f∈F函数进行优化可能最终会得到一个函数，该函数将完美地拟合来自训练集的样本，具有很高的泛化误差。这种现象被称为过拟合，并通过以下从Hoeffding不等式（Hoeffding，1963）导出的一致收敛PAC界限（Valiant，1984）（或泛化误差）来解释.1000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000|F|）+log（2）Rtrue（f）≤R（f）+γ，（1.1）2M哪里|F|定义了搜索空间F中函数的个数，1 − γ是等式的概率。1.1保持住该方程表明，泛化误差随着|F| → ∞，并随着M→ ∞而减小。此外，如果函数F的空间很大，那么找到正确的模型在计算上变得不现实。注意，在无限情况下（即，|F| =∞，例如，当F是R d）中的超平面族时，我们需要求助于复杂性度量来估计F的表达能力。这种度量的一个例子是V C（Vapnik Chervonenkis）维数（Vapnik，1971）。在机器学习中，一个著名的概念是偏差-方差权衡。偏差表示模型f（x）对真函数F（x）的平均预测误差。它的定义如下：偏差（f（x））= E（f（x）− F（x））。高偏倚往往意味着模型过于简单，导致实际风险相对较高。这种现象被称为欠拟合，即模型在训练集上学习不够。相反，方差表示模型相对于数据的可变性Var（f（x））= E f（x）2− E（f（x））2。实际上，模型越简单（即要学习的参数的数目越小）方差越小。如前所述，我们想要近似的真实函数是通过一组受噪声影响的观测值给出具有高变化的模型的风险是引入试图近似这种噪声的模型这个概念的直观体现在图1.1中，其中过拟合（高方差）和欠拟合（高偏差）以模型复杂度的函数表示。总之，过于复杂的模型会使它们容易过拟合，而过于简单的模型则无法学习目标概念的特质在实践中，我们可以通过以下方式估计真实风险曲线：在测试集{xi，yi}T∈ StestD\S上评估模型。最佳权衡是最小化偏差和方差的方法10第1章预赛2i=1Mf∈F i=1经验风险真正的风险最佳模型欠拟合过拟合模型复杂性图1 - 1：偏差-方差权衡的表示。在左边，模型复杂度很低，这使得模型太弱而无法很好地学习。这导致到不合适而在右边，模型复杂度很高，使得经验风险很低，因为模型能够完美地拟合训练集。然而，它在中间，发现偏差-方差权衡产生可用样本集可达到的最佳真实风险经验风险）。我们在图1.2中给出了一个直观的可视化示例。三个多项式回归模型旨在通过在有限的观测集上学习，来近似具有遵循均匀分布（cos（3πx）+x=y）的（xi，yi）M. 这些模型之间的唯一区别是多项式他们在训练中可以拥有的东西。我们看到，对于复杂度最高的模型（红色曲线），训练数据点被完美预测，但在没有样本的区域会出现巨大的错误这个模型试图学习随机噪声。另一方面，绿色模型不适合数据，无法捕捉目标概念的特异性通过使用模型的超参数（多项式的次数），我们可以找到一个模型，通过找到蓝色的正确权衡来很好地推广然而，在这种情况下，正则化风险最小化添加了一个正则化项，并试图在拟合数据和控制模型复杂性之间找到一个折衷f=ar gminl（f（xi））+λ||F||、哪里||F||是范数并且λ是折衷参数，其中基本上通过交叉验证凭经验确定。此方法用于惩罚复杂方法预测误差1.1. 监督机器学习110/10，否则。1.51.00.50.00.51.01.50.0 0.2 0.4 0.6 0.8 1.0图1.2：三种不同模型的回归示例以防止过度拟合。然而，找到正确的正则化并不简单，取决于手头的任务。让我们现在更精确地定义损失函数l（·，·）。因此，它可以不被设置为0/1损失，以便使用分类误差测量来评估模型的质量，如下所示：l（f（x），y）=.1，如果f（x）y尽管0/1损失看起来很简单，但找到inff∈FR（f）的最小值是困难的（NP-困难的），主要是因为它的不可微性，而且还因为它在f中的非凸性。我们不使用0/1损失，而是使用凸代理损失函数。如前所述，有许多不同的。我们在图1.3中给出了最常见的损失。4.03.53.02.52.01.51.00.50.02.01.51.00.5电话：0512- 8888888传真：0512 -88888888yf（x）图1.3基于边际yf（x）的主要替代损失函数过拟合模型欠拟合模型权衡模型0/1损失铰链损失物流损失指数损失平方损失

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

针对极度不平衡数据流的封闭式学习研究

逻辑回归数据极度不平衡

正负样本极度不平衡的情况下如何提高precision

前景类和背景类之间存在极度不平衡的问题

我的lstm网络不学习

boxcox r语言 极度偏斜数据

对于目标值是连续数值的回归模型，目标值的分布极度不平衡，出现严重的长尾。怎么做可以实现目标值的分布上的平衡呢？要求：附上python实现代码

什么是平衡二叉树？平衡二叉树有哪些常见的实现方式？、

最佳二叉树是 AVL 树(平衡二叉树)。

深度学习准确率衡量方法

深度学习分类模型的评价指标

Focal loss损失函数

那分类类别比例达到1：100时，smote是否适用？

yolov5损失函数如何选择

基于深度学习的目标检测算法

精确率和召回率越大越好吗

分类评价指标Accuracy

最优二叉查找树和二叉查找树有什么区别

逻辑回归模型的优缺点

数据湖和数据仓库的区别？

最新资源

boxcox r语言极度偏斜数据