沙特国王大学学报：天文数据分析方法机器学习的应用和研究进展

5 浏览量更新于2024-01-27 收藏 1.91MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报为广域天空巡天中瞬变分类提供背景：噪声引起的群集集合的应用Tossapon Boongoena，Natthakan Iam-Ona，James Mullaneyba泰国清莱府Muang区Tasud Mae Fah Luang大学信息技术学院人工智能和新兴技术卓越中心57100b英国谢菲尔德大学物理与天文系阿提奇莱因福奥文章历史记录：收到2021年2021年6月16日修订2021年6月23日接受在线预订2021年关键词：天文数据分析方法机器学习不平衡分类A B S T R A C T随着新的传感器系统以高质量水平捕获天空调查，在有限的时间范围内分析结果数据似乎是下一个挑战。具体到GOTO项目，这个任务被证明是至关重要的，从一个大的候选池中发现新的瞬变。基于特征的方法的初始工作本文提出了一个上下文生成框架，以补充以前提出的模型。特别地，样本被聚类以形成可以应用不同学习策略的数据上下文。为了确保数据聚类的质量，噪声引起的集群集成技术，最近在文献中介绍了这里。仿真数据和NB、C4. 5、KNN算法的实验结果表明，该框架能快速滤除部分负样本，同时对其余样本进行有效分类。特别是，它通过将F1分数从小于0.1提升到0.3-0.5左右来增强基本分类器的预测性能。此外，还对参数进行了分析，为参数的应用提供了指导。版权所有©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍传感器系统已经成为科学和工程领域各种突破的主要因素，特别是在分布式系统和大数据时代。同样，在天文学或空间科学领域，探测器和光学技术的发展为发现重大事件做出了不可或缺的贡献。因此，从深空获取数据不再是一个复杂的问题。这使得天文学的研究更加有趣，因为天文学家简单地称之为“瞬变”的瞬变天文事件的检测（de Buisson等人，2015; Soraisam等人，2018年，可以及时处理。这一现象导致了相关研究领域之间的跨学科合作，以帮助天文学家进行调查和评估*通讯作者。电子邮件地址： www.example.comtossapon.boo @ mfu.ac.th （ T.Boongoen ）、natthakan@mfu.ac.th（N.Iam-On），j. sheffield.ac.uk（J. Mullaney）。沙特国王大学负责同行审查从天空观测接收到的大量数字信息，最近的是从先进的激光干涉仪引力波观测站（aLIGO，Meisner等人，2017年）。瞬变事件的发现是至关重要的，因为它最终导致了对罕见的极端事件的研究，例如中子星和黑洞，休眠的超大质量黑洞对恒星的潮汐破坏，或正常主序星上的大耀斑（Wette，2021）。引力波光学瞬态观测器（GOTO）1是专门用于探测这种现象的新型望远镜之一。其在合作研究中的主要作用是提供检测到的瞬态事件的视觉对应物（Dyer等人，2018年）。它致力于提供引力观测站注意到的GOTO是由英国华威大学和澳大利亚莫纳什大学领导的国际合作项目，其设施位于加那利岛拉帕尔马的Roque de Los Muchachos天文台该天文台由四台最先进的0.5米口径宽视场光学望远镜组成，可以对来自引力波探测器的警报作出反应，LIGO和VIRGO（Abbott等人，2020年）。基本上，瞬变事件是短暂的，1https://goto-observatory.org。https://doi.org/10.1016/j.jksuci.2021.06.0191319-1578/©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一个在CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comT. Boongoen，N.Iam-On和J.Mullaney沙特国王大学学报5008×几个小时或一天这种快速的瞬变需要快速的响应，以便跟踪光学图像。这就是GOTO的设计目的;尽快检测这些光学特征，以便在它们最终消失之前为天文学家提供有关这些来源的尽可能多的专门针对GOTO观测和其他几个广域巡天的共同点，每晚收集大量图像（目前约400幅）。每幅图像都有大约20，000个天文源，这导致源的总数略低于800万。这些观察到的来源被从所谓的“参考”图像中减去，其中已知的来源被很好地研究和记录。因此，差异图像包含大约40，000到50，000个新源的集合，其中一些对应于瞬态事件。然后，它们沿着管道进行处理，旨在提供可读的数据以供进一步调查。GOTO团队遇到的一个另一个是与时间赛跑，其中需要自动化决策支持工具来从差异图像中识别一组瞬变之后，可以通过GOTO和协作进行手动观察以确认事件。这需要进行跨学科研究，其中机器学习在将原始数据转化为有意义的知识方面发挥着不可或缺的作用为了启动这样的研究，最近的作品Tabacolde等人。（2018年，）已经将瞬态检测的任务设计为候选源的二进制分类。特别是前者，采用过采样技术来处理两类（真实和虚假）之间的不平衡问题。值得注意的是，少数民族的比例不到0.5%，远低于两个调查数据集。天文学（Cabrera-Vives等人，2017; Wright等人，2017）和机器学习文献（Tang和He，2017; Ofek等人，2017年）。尽管有报道的改进，但已知这种数据级方法会促进过拟合（Lin等人，2018年）。因此，Tabacolde等人。（2018）引入欠采样作为先前的替代方案，其中提出的基于聚类的模型比RUS的传统技术表现更好（随机欠采样，Bagui和Li，2021; Seiffert等人，2010年）。鉴于这些发现，本文旨在通过为分类模型开发产生不同的上下文来补充以前解决不平衡问题的尝试，而不是将整个数据视为一个不可分割的集合。为了实现这一目标，最近发表的关于噪声诱导的集群集合的研究（Panwong等人，2018）被用来生成高质量的数据集群，这些集群展示了不同的监督学习背景。事实上，由于某些集群仅专用于一个类，即，复杂的分类器可以由简单的规则代替问题和范围。本文中报告的研究旨在提高分类模型的准确性，该模型将候选对象分类为需要进一步调查的真实源或简单忽略的伪源。特别地，这些候选者由图像差分处理确定，在该图像差分处理中，从参考中减去夜间图像，即，一个共同添加的图像。因此，可以识别到目前为止尚未记录的新的亮像素组。实际上，提取它们的大小为21 × 21像素的缩略图以形成候选图像池。注意，上述过程是在GOTO的数据处理管道内执行的，GOTO的数据处理管道是从LSST（大型综合巡天望远镜）项目的数据处理管道修改而来的（Mullaney等人，2020年）。在开发二元分类模型以区分真实源和伪造源之前，提取专家驱动的特征集以提供目标数据集。作为在GOTO管道堆栈中部署之前的初步研究这提供了一个机会，注入到实际的天空图像，这是很难获得丰富从任何一个观察。在此设置下，假设所得到的模型可以对各种类型和出现的瞬态事件具有鲁棒性，从而足以在下一阶段部署在实际管道中。捐款.本文所介绍的工作所作的贡献可归纳如下。本文提出了一种新的框架来处理不平衡的分类问题，通过生成的上下文学习模型的发展。它利用噪声引起的集群集成来确定一个聚类参考，从这些上下文可以制定。这种有机的结合在文献中还没有见到过，特别是在天文数据分析中。文中给出了一组基于GOTO项目系统配置的模拟数据集的实验结果，并将其因此，该论文为广泛的天文学家和数据科学家提供了有用的发现，这些科学家致力于将分类问题作为检测瞬态事件的一种手段参数分析也包括作为指导未来的应用，这一新的框架。本文的其余部分组织如下。第二部分介绍了本研究的背景和材料，包括调查数据的细节，特征提取和数据准备。在第3节中描述了所提出的方法，其中强调了聚类集成和分类上下文的发展。第四节给出了本研究的结果和相关讨论。本文在第5节中总结了未来可能的工作。2. 背景和材料本节介绍了调查数据集的背景和细节，这些数据集经过模拟以反映GOTO系统捕获的源的核心特征。它提供了一个很好的测试平台，可以从中导出初始分类模型，然后使用真实数据进行改进。2.1. 背景和调查数据有一些软件包具有合成天文图像的能力，包括对常见复杂情况的近似，例如，背景噪声和源的点扩展函数（PSF）具体到目前的研究，SkyMaker（Kauffmann et al.， 2020）来创建模拟图像。它接受一个源列表（即，恒星，星系）包含位置（即，赤经、赤经、赤这三条信息是恒星（即点源）所需的全部信息。Sky-Maker中的星系由两个共空间椭圆表示（一个用于凸起，另一个用于盘），它们由额外的七个参数描述（凸起与总光的比率，凸起半径，凸起纵横比，天空上的凸起方向，盘半径，盘倾斜度和天空上的盘方向对于模拟，通过查询两个单独的数据库来产生源列表对于亮度超过17等的恒星，利用了USNO CCD天体仪星表（UCAC）数据库，而对于亮度低于17等的恒星和星系，则采用了斯隆数字巡天（SDSS）这种将两个独立的星表结合起来生成我们的输入列表的方法被用来增加我们模拟图像的动态范围，因为明亮的恒星饱和了SDSS探测器，因此在这个星表中代表性不足，而UCAC对我们的目的来说不够深入。●●T. Boongoen，N.Iam-On和J.Mullaney沙特国王大学学报5009×1/4fgXy-在这些数据库中查询GOTO望远镜对给定天空区域（由其中心坐标给出）的单次观测所覆盖的所有源。每个源每个像素在天空上的角度大小是一个常数1.24每像素角秒）。对于UCAC源，使用V波段震级，而对于SDSS源，使用G波段震级。在这个阶段，星系被模拟为一个简单的圆盘（即，不是凸起+盘的组合），因此只提供SkyMaker用于模拟星系盘的三个额外参数由于主要目标是检测瞬态源，预计仅模拟磁盘不会对本研究产生任何重大影响。除了源列表之外，SkyMaker还需要输入配置文件。这为软件提供了诸如所需的模拟类型的信息（例如，包括背景噪声与否）和望远镜的特性。对于后者，其中最重要的是像素的饱和度（设置为65，535），望远镜的零点（即，每秒计数一次的恒星的星等; 23.5）、PSF大小（见下文）、像素大小（每像素1.24弧秒）、CCD像素大小（81766132 ）。为了增加模拟的真实性， PSF 大小（即，半高全宽或FWHM）在观测之间可以随机变化，范围为0.8到3弧秒。为了模拟瞬变源，合成了每个天空块的两个观测值。在第二次观测中，注入新的光源，随机分布在模拟图像上，亮度从14到19的均匀分布中随机选择。然后使用LSST软件栈处理每个模拟图像（Juric，2015;Mullaney等人，2020），适于处理模拟图像。然后，将来自堆栈的图像差分组件的输出作为输入传递到数据收集阶段、先前的数据转换和模型开发。图1示出了可以被分类为伪源（Class0）和真实源（Class1）的检测到的源的示例。这些以21× 21像素的灰度图像2.2. 数据准备基于对每个亮源进行的普通天文测量，数据集X¼ fx1;. N个样本的xNg由23个不同的属性表征，. f23. 注意，一些初始特征（即，id、parent_id、RA、DEC、SdssCentroid_x、SdssCentroid_y），因为它们不提供信息。每个实例可以定义为x i^fxi;1;. ; xi;23; xi;cg，其中xi;j是属性fj2F的值，xi;c2 f1; 0g表示类标签。表1总结了这些特性的符号和描述。给定数据X，研究特征和两个类之间的相关性，以及简单分类器的初始利用。事实证明，这些特征中的几个不提供信息，使得所得的分类性能往往是不够的。因此，设计了数据转换的附加阶段，以便将现有的一组特征编译为更具鉴别力的特征。这个过程由领域专家指导，最终得到具有15个特征的预处理数据，下面将对每个特征进行解释。另外，图形总结见图2在本研究的实验中，生成了两个数据集，每个数据集都经历了先前指定的数据收集和准备详见第4节。(1) PSF_Flux_Sig：PSF通量PSF flux Sigma1000(2) PSF_Dipole_Flux_Pos_Diff：qD2D2;2哪里D x和D y表示PSF偶极通量位置x-PSF偶极子通量负x和PSF偶极子通量正yPSF偶极通量负。(3) PSF_Dipole_Flux_Pos_Sig：PSF偶极通量位置PSF偶极通量Pos Sigma1.3μ m(4) PSF_Dipole_Flux_Diff：PSF偶极通量正-PSF偶极通量负(5) PSF_Dipole_Flux_Rel：PSF偶极通量差PSF通量105μ m(6) PSF_Dipole_Flux_Neg_Sig：PSF偶极通量负PSF Dipole FluxSigma600(7) PSF_Dipole_Flux_x：与原始属性集相比保持不变(8) PSF_Dipole_Flux_y：与原始属性集相比保持不变(9) DipoleFit_Flux_Pos_Diff：Fig. 1. 伪造和真实来源的图片示例，摘自Tabacolde et al. （2018年）。T. Boongoen，N.Iam-On和J.Mullaney沙特国王大学学报5010-Xy表1原始特征集的细节：符号和描述。符号描述PSF_flux测量点扩散函数（PSF）内的光源亮度PSF_flux_Sigma与PSF_flux相关的不确定性度量PSF_Dipole_Flux_Pos_x偶极子正部分的X维PSF_Dipole_Flux_Pos_y偶极子正部分在Y维中的位置PSF_Dipole_Flux_Pos偶极子正部分的亮度PSF_Dipole_Flux_Pos_Sigma测量相关的不确定度PSF_偶极_通量_位置PSF_Dipole_Flux_Neg_x偶极子负部分的X维位置PSF_Dipole_Flux_Neg_y偶极子负部分在Y维中的位置PSF_Dipole_Flux_Neg偶极子负部分的亮度与PSF_Dipole_Flux_Neg测量相关的PSF_Dipole_Flux_Neg_SigmaPSF_Dipole_Flux_x偶极子的平均X维位置（即，负和正位置的平均值）PSF_Dipole_Flux_y偶极子的平均Y维位置（即，负和正位置的平均值）DipoleFit_Flux_Pos_x偶极子拟合DipoleFit_Flux_Pos_y偶极子拟合正部分在Y维中的DipoleFit_Flux_Pos偶极拟合DipoleFit_Flux_Pos_Sigma与DipoleFit_Flux_PosDipoleFit_Flux_Neg_x偶极子拟合负部分在X维中的DipoleFit_Flux_Neg_y偶极子拟合DipoleFit_Flux_Neg偶极拟合负部分的亮度DipoleFit_Flux_Neg_Sigma与DipoleFit_Flux_NegDipoleFit_Flux_x偶极拟合的平均X维度位置（即，负和正位置的平均值）DipoleFit_Flux_y偶极拟合的平均Y维位置（即，负和正位置的平均值）DipoleFit_Flux偶极子拟合中的整体亮度的测量-幅度（即，忽略它是正的还是负的图二.数据转换的细节，摘自Tabacolde et al. （2018年）。qC2C2;7假设Cx和C y是DipoleFit Flux Pos x-DipoleFit Flux Neg x和DipoleFit FluxPos y，DipoleFit Flux Negy。(10) DipoleFit_Flux_Pos_Sig：(11) DipoleFit_Flux_Diff：DipoleFit通量正-DipoleFit通量负(12) DipoleFit_Flux_Rel：DipoleFit通量差DipoleFit通量PosDipoleFit通量PosSigmað8ÞDipoleFit Flux1000毫安T. Boongoen，N.Iam-On和J.Mullaney沙特国王大学学报5011中国大陆fgﬃﬃﬃﬃ22fg¼100¼ð13ÞuveJuhuvX0.(13) DipoleFit_Flux_Neg_Sig：DipoleFit通量阴性DipoleFit Flux NegSigma11μ m(14) DipoleFit_Flux_x：与原始属性集相比保持不变(15) DipoleFit_Flux_y：与原始属性集相比保持不变3. 该方法基于Tabacolde等人最近的研究。（2018）使用GOTO数据分类，使用基于聚类的欠采样作为RUS技术和过采样对应技术的补充，可以更有效地处理类不平衡问题。然而，这种方法仍然被应用于整个数据集，而没有意识到在给定的数据中可能存在不同的学习上下文。一般来说，单个分类模型在数据子集中很少是准确的，因此需要一个唯一的分类模型。为每个可能的上下文构建的fier允许基于上下文的可以被认为是正态分布的特殊情况，其提供了比常规集合方法更好的性能（Panwong等人， 2018年）。Step3.填充噪声值后，将利用这些扰动数据变量或矩阵，使用经典的k均值技术和Random-k策略（Boongoen和Iam-On，2018）。更准确地说，聚类的数量（k）是从范围2; 3;. ;pN. 这被限制为f 2; 3;. 如果pN>50，则为50g 与数据矩阵X0j;j≠1。 . . A，k均值应用于Y试验以创建一个集合解fp1<$X0j<$;p2<$X0j<$;. . . ;pYX0jg.第四步。在对所有扰动的数据矩阵完成了前面的步骤之后，所得到的分区必须被聚合并以有意义的格式表示。为此，Fred 和 Jain（2005）的成对相似性矩阵被用来将这些基本聚类每个条目huv2½0;1];u;v2f1;. . . ;Nginthesim-反复无常矩阵H表示的相似性实例之间xu;xv2X.基于基本聚类peX0j，其中j1. . . A;e¼1. . . Y，x之间的相似度和x学习中，所提出的框架首先利用可信聚类算法来生成聚类（即，数据上下文）数据X RN×D，其中N和D分别表示样本和特征的大小。在这项研究中，噪音的概念-诱导簇集合（即，集成聚类）被利用to deliver交付these cluster集群based基于context上下文.然后，特定于上下文的类-如果它们被分配到同一个群集，则为1，否则为0。给定从扰动数据矩阵生成的所有YX0j;j<$^1. . . A、相似性可归纳如下。Pe1YhuvpeX0jJY可以制定分类方案来对新实例进行分类。这些阶段将在以下各节中详细阐述。假设相似度huv通过以下公式计算XhuvX0j3.1. 使用聚类集成的胡乌乌j1... 一一ð15Þ噪声诱导的集群集合（Panwong等人，2020; Iam-On，2020;Panwong等人，2018），已经证明比其他集成模型更准确，专门用于此目的。给定数据集X和期望的噪声比a%1; 2;. 100，聚类过程可以在下面描述。Step1.首先，生成一组原始的A数据集X2RN×D，即，（X01;X02;. . . ;X0A），以使得这些X0j;j^l. . A包含随机选择的ω噪音的位置。注意，使用盐和胡椒方法确定噪声的定位。此外，这些地点的数量aω2 f 1;. ;Ng受到样本、特征和a的数量的影响。形式上，ω可以估计如下。aω¼，NDa，12其中D是特征的数量，即，第15章为了现在的研究Step2. 对于每个变化X0j2fX01;. . 在一个实施例中，所识别的位置填充有噪声，该噪声是特征域内的随机值。在进入噪声注入的实际步骤之前，的所有D特征是规范为的特征fp;p¼1. . . D，归一化值x1;p21/20;1];i1/41 . . N是一个第五步。H后2½0;1]N×N 通过公式t，可以应用一致性函数来创建最终的聚类pω。为此研究，k-means被用来为更复杂的替代方案设定基准，除了它的简单性和效率。请注意，Mehar等人（2013）的方法用于自动找到由H表示的数据集的最佳聚类数（K）。为了使该过程更简洁地定义和可再现，以下名为Noise-Induced-Entrance的算法总结了上述所有五个处理步骤。3.2. 上下文特定分类模型给定期望的聚类结果， . 和对应的质心集合zω 1，zω2，… . ;zωKg，这些K个聚类被考虑用于如下的分类上下文的形成。● 如果聚类C e2pω是纯的，其中样本仅属于一个类别，则形成特定的数据上下文CTX eX;CTX eC e和关系CT XzeCT Xe。假设p ω1;Cω2;C ω3g和聚类Cω1是纯的，则初始化所得到的上下文CTX1和关系CTXz11。对于CTX1，一个简单类-通过以下等式从初始值xωi;p拟合。如果上下文CTX1中的所有样本都属于类别0，则可以创建分类规则CL1 1/40，或者如果上下文CTX 1中的所有样本都属于类别0，则可以创建CL1/4xxωi;p-minpi;pmaxp-minp上下文CTX% 1属于类% 1，否则为。● 另一方面，不纯的其他集群被组合到相同的上下文CTXd.基于同样的例子假设minp和maxp对应于在数据集X中出现的特征fp的最小值和最大值。对于数据变化X0j;j1/4. . . A，用噪声值填充特定于属性fp的每个所选位置特别地，它被随机地选择为在标准化间隔1/ 20;1]内的连续值。这其中两个簇Cω2和C ω3不是纯的，它们被聚集以形成CTX dCω2[Cω3]，其中指定了两个相应的关系CTXdCTXd和CTXdCTXd。在建立这一点之后，针对该分类器生成特定分类器CLd上下文CTXd使用分类算法t。vð14Þ¼T. Boongoen，N.Iam-On和J.Mullaney沙特国王大学学报50122½]2½]ﬃﬃﬃﬃ2½]¼2ð Þ8zω2zq算法：噪声诱导增强（X，a，g，A，Y，K）X0; 1N×D，N个样本和D个特征的归一化数据集a.在1至100%之间的期望噪声比g.选择算法来创建总体成员最终聚类，例如，k-means;A，通过将噪声注入X而生成的多个扰动数据矩阵;Y表示从每个扰动数据矩阵K，在最终聚类中优选的聚类数(1)对于每个数据扰动，j = 1. . 一(2)X0j←X(3)在X 0 j中随机选择aω位置（参见等式（12）(4)对于每个选定的条目xt2X0j;t1/4. . . aω(5)xt← [0，1](6)对于每个系综成员peX0j;e1. . Y(7)pe<$X0j< $g<$X0j;k<$;k是从以下随机选择f 2;. ;pNg(8) 使用等式2生成成对矩阵H14和15(9) 创建最终聚类pω←g<$H;K<$(10) 返回pω1;Cω2;. . . ;CωK至于对测试或未见过样本y0; 11×D进行的预测，基于上下文的分类模型的选择可以通过以下步骤和相关算法来总结Step1.首先，所讨论的样本y将被映射到用于创建成对相似性矩阵H的聚类集合，使得该样本的结果表示为转换为y00;11×N. 有关此过程的详细信息，请参见Mapping-New-Sample算法Step2. 在获得测试样本的新表示y0之后，使用以下欧几里得度量找到y0与所有质心zωq2zω之间的距离dy0;zωq4. 绩效评价本节介绍了实证研究的设计，旨在评估和比较所提出的方法和其他相关技术之间的准确性。随后是一份结果报告，讨论提供了其他有用的理论和实践问题。4.1. 实验设计表2提供了本研究中使用的两个数据集的详细信息，每个数据集都根据属于两个类别的样本数量进行描述（即，分别对应于真实瞬态和伪样本的Class1和Class0）和相应的百分比。基于约0.3%的Class1样本的百分比，这些数据集为不平衡分类的研究社区提供了巨大的挑战。同时，这说明了一个发现瞬态事件的实际场景，这些事件很少发生并出现在调查中。其他实验设置总结如下。● 对于噪声诱导的簇集合的应用研究了原始工作建议的8%（Panwong等人，2018年）。对于每个数据集，定位和噪声注入试验（A）以及从每个扰动矩阵（Y）创建的聚类都被设置为20。此外，k-means聚类技术被用来创建集成成员和最终的聚类。在获得目标聚类结果之后，根据先前识别的步骤形成上下文和相关联的关系。具体到上下文CTXd，三个经典分类器被用作优选算法t：NB（具有高斯核函数的朴素贝叶斯）、C4.5（具有最大深度10的决策树）和KNN（k-最近邻，其中k = 1）。这些设置形成了将所提出的框架与其基线进行比较的基础，其中整个数据集被认为是CTXd的一个上下文。dy0;zωqXy0-zω2ð16Þ请注意，此处包含KNN以表示获得通过简单地使用Step3. 然后，选择质心zzω，其中y0和z0之间的距离是步骤2中估计的距离中的最小值。z0¼argmindy0;zωq17第四步。最后，从关系CTXz0中找出数据上下文，然后选择合适的分类器或规则来生成y的预测类。算法：Mapping-New-Sample（y，P）y，新样本，其中y2½0;1]1×D;y0是y的变换表示，其中y02½0;1]1×N;P，具有A × Y个成员的聚类集合，其中Y个聚类是从每个X0j;j1/21 . .A;sim（a，b，p），如果样本a和b被分配给聚类p中的同一聚类，则返回1的函数，否则返回0;(1) 对于每个样本x i;i1/41. N（2）y0i←0(3)对于每个聚类pg2P(4)y0i←y0i~y;xi;pg（5）y0←y0i以从最近的邻居确定预测类。类似于KNN，其中所有特征都有助于预测输出的估计，NB使用条件概率的不同概念来实现这一点，该条件概率随后通过特征之间的独立性的假设来简化。相反，C4.5区分特征之间的重要性，即，哪一个应该首先用于评估被检查的样品，而哪一个是稍后。建立决策树以形成分支这种顺序允许基于原始特征的子集进行分类。这些分类算法的集合还提供了两种不同的方法来分析数值数据集，这些方法通常包含在许多分类问题的比较研究中（Alghobiri，2018）。一方面，利用数值特征的细化域来估计KNN使用的距离度量。另一方面，通过C4.5和NB将它们约简为区间，简化了样本类关系。更复杂的替代方案，如分类器集成（Dong等人，2020）和深度学习模型（Dong et al.， 2021年）可以在今后的工作中进行探索。表2检查数据集的描述：特定类别样本的数量和百分比。数据集总数0级1类1类1类i A×Y（6）返回y0½y01;. . . ;y0N样本百分比●Qo 1... NOq;oData15,9895,97399.733160.267Data26,7716,75399.734180.266T. Boongoen，N.Iam-On和J.Mullaney沙特国王大学学报5013;2½]F12 ×精确度×召回率18精确度和召回率其中精度为¼TP 回忆起TP.公司简介4.2. 结果和讨论TPFFN图三. Data1中不同聚类之间的数据分布示意图见图4。Data2中不同聚类之间的数据分布示意图为了进行稳健的比较，采用20次10倍交叉验证试验来确定F1测量值0; 1，其中比率1表示最有效的分类器，没有错误位置。肯定或假否定。它可以由以下等式定义，其中TP =真阳性，FP =假阳性，TN =真阴性，FN =假阴性。在将噪声诱导的聚类集合应用于所检查的两个数据集的初始阶段之后，Data1和Data2的最佳聚类数目是5和4，其中不同聚类之间的数据分布百分比在图1和图2中示出。3和4所示。在两种情况下，仅使用0类样品时，0类样品的纯度相似。尽管如此，可以形成简单的规则来分类一个新的实例，其到zω0的距离是作为Class0的成员，在可用的质心中最短。具体对于数据1，属于字节1、字节2、字节3和字节4的样本被组合以形成上下文CTXd。同样地，对于数据2，CTXd中的样本来自数据1、数据2和数据3。关于F1度量，图5呈现了通过基线和基于上下文的计数器获得的那些分数在之前识别的三种分类算法之间的比较。它清楚地表明，所提出的框架通常提供比基线模型更有效的分类器，即，10倍交叉验证的平均F1 值分别从 NB 的 0.0091 提高到 0.0162 ，从 C4.5 的 0.0000 提高到0.0325，从0.1667提高到0.3636。类似地，图6给出了使用数据2获得的平均F1分数，这证实了基于上下文的策略的有效性。特别地，通过将数据上下文与 KNN 和 C4.5 耦合，基线的分数从零提升到 0.3478 和0.5000。从前面的插图中，NB似乎是三种分类技术中最不准确的，Data1的最佳F1度量为0.0162，其他数据集为0.0178。这种观察结果是由表示为零条件概率的特征和少数类之间的数据稀疏性引起的，该少数类已在该模型中被利用。因此，通过用小数字替换零的平滑机制，所得到的Class1的概率可能远低于Class0的概率，因此缺乏识别真实瞬态的能力。尽管如此，所提出的方法能够减少属于0类的样本的数量（对于整个数据集，大约24-25%，参见图1A和1B）。3和4），从而部分减少类特定概率之间的差异，图五. F1得分由不同的分类模型与Data1.这些是从10倍交叉验证的20次试验中总结的平均值。●T. Boongoen，N.Iam-On和J.Mullaney沙特国王大学学报5014见图6。 F1得分由不同的分类模型与Data2.这些是从10倍交叉验证的20次试验中总结的平均值。表3精确度（PR）和召回率（RC）获得所有调查的分类模型的数据1。这些是从10倍交叉验证的20次试验中总结的平均值，相应的标准偏差值在（括号）中给出分类器PR（基线）PR（Context-based）RC（基线）RC（基于上下文）NB0.00460.00820.56250.5625（0.0036）（0.0032）（0.1201）（0.1062）C4.50.00000.01870.00000.1250（0.0000）（0.0079）（0.0000）（0.0842）KNN0.25000.66670.12500.2500（0.0974）（0.1013）（0.0883）（0.1006）表4精确度（PR）和召回率（RC）获得所有调查的分类模型的数据2。这些是从10倍交叉验证的20次试验中总结的平均值，相应的标准偏差值在（括号）中给出分类器PR（基线）PR（Context-based）RC（基线）RC（基于上下文）NB0.00310.00920.16670.2778（0.0030）（0.0022）（0.1001）（0.0924）C4.50.00001.00000.00000.3333（0.0000）（0.0000）（0.0000）（0.0721）KNN0.00000.44440.00000.2857（0.0000）（0.0871）（0.0000）（0.0722）每个特征的能力。这导致1类概率与另一类概率更具可比性，因此，F1测量值相对于基线替代值略有改善。在C4.5和KNN之间，前者试图找到高度区分的特征来表示决策树上层的根节点和其他节点。然而，在Data1中，特征与目标类之间的相关性测量值相当低，从而降低了该方法的有效性，这可以使用一些但不是所有可用的功能。这与KNN的结果一致，KNN通过简单地包括所有特征以找到最近邻居来实现更好的结果。在Data2中，特征和类之间的相关性比以前更高，C4.5变得更有效，因为与KNN对应物追求的所有特征的聚合相比，一些单独的特征对于分类新样本是有益的。除了上面给出的概述之外，表3和表4提供了关于精确度和召回率测量的更多细节（即，平均值和来自10倍交叉验证的相应标准偏差）。基于上下文的框架在前者的基础上，使用C4.5和KNN来提高查准率和查全率。至于另一个数据集，所提出的机制是例外的，使得这两个措施都比那些有显着改善，的基线。例如，C4.5和KNN的召回分数在以前根本不存在，但对于天文学的发现来说却变得更加理想（即，优选的是，模型能够调用所有真实源）。从这些结果中的另一个有趣的发现是，将原始数据的大小减小到上下文CTXd不仅使预测更有效，而且还允许像C4.5这样的分类器确定显著性功能更有效。通过以上的论证，聚类引导的上下文生成被证明是有用的，并为进一步的发展奠定了良好的基础。对于上下文CTXd，可以在创建分类器之前利用Tabacolde等人（2018）为了解释迄今为止的实验结果，为了简单起见，利用了多次试验的平均值。这种初步评估方法遵循中心极限定理（CLT），T. Boongoen，N.Iam-On和J.Mullaney沙特国王大学学报5015ðÞ2ðÞðÞ-2X2fgpnpn假设在受控实验中观察到的统计数据可以（1个如果。li;j;t-1：9 6St i;j;t>. li0;j;t1：96Stdi0;j;t符合正态分布。然而，为了在基于上下文的分类器和它们的基线模型之间获得更鲁棒的比较，一个分类器“显著更好”的次数需要增加betterji;i0;tpn0否则pnð23Þ然后研究比其他人“更差”和“显著更差”（95%置信水平）。设li;j;t为第t次运行的n重交叉验证中F1得分的平均值（对于每个交叉验证，n为10）。目前的研究）的技术i2TC（TC包含同样，一种技术i2TC的频率明显比另一种差，即，Wi，估计如下。WiX XXworseji;i0;t;2 4基于上下文的分类器及其基线模型），在特定数据上-组jDAT（DAT由数据1和数据2组成）。形式上，l i; j; t可以定义如下：1Xng¼18j2DA T8t¼1. 208i02TC;i0哪里（1个如果。li;j;ti;j;ti<; li0;j;t-1：96Stdi0;j;t0否则其中F1gi;j;t表示在数据集j上从方法i的第t次运行内的第g次折叠获得的F1得分。从单次交叉验证试验中获得的平均值的比较可能会产生误导，因为平均值之间的差异有时可能不具有统计学显著性。因此，做出决定更可靠-基于平均值li;j;t的95%置信区间的选择。这样的间隔由以下定义。1：96St. d.i;j;t.i; li;j;t1：96 St i;j;t;20ð25Þ基于这种统计评估方法，图。 7表示（B-W）统计，即，更好和更差的频率之间的差异，将四个基于上下文的分类器中的每一个与它们的基线模型进行比较。假设试验次数为20次，这个（B-W）的范围在20到20之间，其中最小值发生在基于上下文的分类器明显比其基线差，对于所有20次10倍交叉验证试验，最大值发生在基于上下文的分类器中。笔，因为它总是比基线模型更好。更多细节潘潘在表5中提供，其中更好的和其中Stdi;j;t表示对于数据集j上的技术i，第t次试验的n倍交叉验证的F1测量的标准差。任何一个之间的差异的统计学意义如果两个方法i;i0 2TC在任意数据集j2DAT上的置信区间li;j;t和li0;j;t之间没有交集，则找到它们。对于任何数据集j，分类器i明显优于其他模型i0，当.li;j;t-1：96 St i;j;t>.li0;j;ti1： 96Stdi0;j;tið 21 Þ不同的分类模型，更差。基于这一评估，所提出的框架通常比本文研究的两个数据集的基线更有效。此外，NB的改善不如其他两种情况显著，（B-W）值约为10。 C4.5和KNN的相似统计量分别为14和18（数据1），20和20（数据2）。这一观察结果支持了前面的讨论，即NB仍然受到数据稀疏问题的限制，尽管基于上下文的实现的帮助，以减少差异-潘潘类别之间的特征特定概率的作用之后，在所有实验性试验和数据集中，一种技术在TC中的频率显著优于Bi，由下一个等式计算。从

下载后可阅读完整内容，剩余1页未读，立即下载