基于模糊knn分类器的脉冲星选择研究及应用—FutureComputingandInformaticsJournal3（2018）1e6

57 浏览量更新于2023-12-09 收藏 523KB PDF 举报

开放获取

神经网络技术

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

可在www.sciencedirect.com在线获取ScienceDirectFutureComputing and Informatics Journal 3（2018）1e6http://www.journals.elsevier.com/future-computing-and-informatics-journal/基于模糊knn分类器的脉冲星选择塔哈湾Mohamed*埃及赫勒万大学计算机和信息学院接收日期：2017年11月13日;接受日期：2017年11月21日2017年12月21日在线发布摘要脉冲星是一种罕见的恒星，它发出的无线电信号可以从地球上探测到天文学家对这种类型的恒星给予更多的关注在不久的过去，脉冲星选择的问题是手动进行的。最近，神经网络技术被提出来解决这个问题。在本文中，我们提出了一种新的技术，以有效地选择候选人。该算法是基于模糊knn分类器。结果表明，该算法优于其他五个分类器，包括神经网络分类器，使用三个评价指标。该算法在最近的HITRU 2数据集上进行了评估Copyright © 2017埃及未来大学计算机与信息技术学院由爱思唯尔公司制作和主持这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。关键词：模糊分类器;模糊knn; HITRU 2;脉冲星选择1. 介绍脉冲星是一种罕见的恒星，它产生的无线电信号可以从地球上探测到。当恒星旋转时，它们发射的光束扫过天空。所以，当这个光束穿过我们的视线时，就会产生一种可检测到的宽带无线电发射模式。当恒星快速旋转时，这种模式会周期性地重复[1，7]。脉冲星是地球上无法实现的极端物理实验室[5]。它们是非常重要的，因为它们可以用作时空，星际介质，超流体，物质状态等的探针[1，5，7]。目前，在银河系、麦哲伦星云和球状星团中大约有2200个已知的恒星[5]。然而，寻找外星人并不是一项简单的任务。发现周期性信号包括识别观测数据中的周期性信号。然后，这些数据被简化为一组诊断值和称为候选的图形表示[2]。不幸的是，大多数候选人都是* 通讯作者电子邮件地址：tahamahdy3000@yahoo.com。同行审查，由埃及未来大学计算机和信息技术系负责。由射频干扰（RFI）和噪声引起，看起来不像是卫星[1，7]。脉冲星调查是通过将望远镜对准天空的一个区域进行几分钟到几个小时。然后记录观测数据，望远镜移动到天空的另一个区域寻找新的恒星[3]。脉冲星候选者是无线电信号的记录图和统计数据，是进一步分析的原材料。罐头应进一步由自动或人工专家检查，以确定其真实性[1]。直到最近，选择有希望的候选人进行再次观察以进行确认在很大程度上依赖于人类的检查。然而，人工检查是一个主观、耗时且容易出错的过程[1，2].此外，那些可能的恒星被突出显示以供进一步分析，并可能分配额外的望远镜时间进行确认。候选直到最近[1]，候选人选择过程还是一项手动任务。然而，由于最近的高科技望远镜产生了大量的候选者，手动选择是不切实际的[1]。近年来，研究者们开始采用机器学习方法来解决候选人选择问题.https://doi.org/10.1016/j.fcij.2017.11.0012314-7288/Copyright © 2017埃及未来大学计算机与信息技术学院。Elsevier B. V.制作和托管这是CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。2T.M. Mohamed/Future Computing and Informatics Journal 3（2018）1e 6¼¼¼最近的高时间分辨率宇宙（HTRU）调查是2008年进行的天空调查，最近完成。它使用高效的帕克斯射电望远镜来搜索整个可见天空中的恒星[5]。这次调查产生了数百万的候选人。不幸的是，其中大部分是由人为射频干扰（RFI）或由于噪声引起的非干扰[2，5]。文献[1]中提出了候选人的许多特征。其中，由参考文献[1]提出的特征在实验上证明优于其他使用的特征。这些功能在HITRU1[2]、HITUE2[1]和LOTAAS[1]数据集上进行了测试。作者在参考文献[1]中声称，这些特征最大化了噪声和非噪声候选之间的分离。这些提出的特征的另一个优点是避免尺寸诅咒的特征数量少视觉问题。HTRU 2数据集是最近公开可用的数据集[1，8]，描述了在高时间分辨率宇宙（HTRU）巡天此外，贝叶斯分类器在预先知道先验概率和类密度的情况下，保证了最优的分类错误率。可用的样本量应足够大，以实现完美的分类。然而，如果前面的条件之一被违反，k最近邻（knn）分类器，以及模糊knn，分类器提出了更好的替代贝叶斯分类器，也表现得更好。使用knn和模糊knn的另一个优点是简单和经济的计算要求。最近邻分类器是一种非参数分类算法。最近邻分类器（NN）解决的问题是将未知测试模式x分配给给定类Ci之一。NN分类器给出的解决方案是可以使用欧几里得距离或任何其他距离计算的最小距离。例如，欧几里得距离由等式（1）给出为：sXn2[1]的文件。数据集表示为八个变量Xiε{X1，前四个特征是简单的统计d¼j1jCið1Þ从积分脉冲轮廓获得。其余四个特征类似地从DM-SNR曲线获得[1]。分类过程的目标是将给定的候选者分类为候选者或非候选者。二进制标签，类标签，Y{0，1}，其中Y0表示非脉冲星。相反，当Y为1时，这指的是存在的。在各种机器学习方法中，模糊K-最近邻（knn）分类器是监督分类中最知名和最有效的方法之一[10]。据我们所知，没有研究进行评估模糊分类器在脉冲星选择问题。然而，神经网络是这一领域的主要机器学习技术.本文提出了一种新的模糊knn分类器来解决脉冲星选择问题。在公开可用的HITRU2数据集[8]上测试了所提出的算法，并证明了其优于文献中使用的其他分类器。本文的其余部分组织如下;第2节介绍了必要的背景。第三节介绍了相关的工作。第4节介绍了所提出的算法。实验结果见第5节。最后，在第6节中对本文进行了总结。2. 背景神经网络和感知器技术在可分离类的情况然而，情况并非总是如此，在大多数情况下，给定类的一些样本是模糊的，似乎属于多个类。如果类之间存在可分离平面，则神经网络收敛。如果不是这种情况，神经网络可能不会收敛。在这种情况下，一个测试模式的成员资格可能会超过一个类。模糊分类器在这种情况下更有用，并且也表现得更好。其中n是特征向量大小。接下来，将未知模式x分配给具有最小距离的类。结果表明，神经网络分类器的错误率不超过贝叶斯分类器错误率的两倍。此外，在knn分类器中，随着k的增加，错误率渐进地降低。NN分类器存在一些问题。最重要的问题是测试模式与多个类之间的等距离问题。使用knn分类器可以部分解决这个问题。在该分类器中，计算k个最近邻。测试模式被分类为属于具有最大数目的邻居的类。然而，NN和knn，al-出租仍然受到一些其他问题的困扰。最重要的问题是，他们对待所有的样本具有同等的重要性。然而，情况并非总是如此，特别是当给定样本中存在一些离群值时。当测试模式对多个类具有相等的k时，会出现另一个问题。在这种情况下，会出现歧义。另一个问题是，一旦测试模式被分配给某个类，就不能引入类成员的指示[11]。前面的问题导致了模糊knn[11]的发展，它可以给出测试模式的模糊决策。模糊knn为样本模式分配一个成员值，然后为每个类分配一个成员值，并将类标签分配给最大成员值，而不是将此模式分配给特定的类。可变m确定距离的权重的量，该距离的权重的量可以对近模式给予较大的权重并且对远模式给予较低的权重。文献[11]提出了模糊最近邻算法（fuzzyknn）.模糊knn的分类结果表明，该分类器优于其他清晰knn和其他分类器，如线性判别函数，贝叶斯，神经网络分类器。一个广泛的调查模糊knn可以发现在参考。[12]第10条。T.M. Mohamed/Future Computing and Informatics Journal 3（2018）1e 63.1/1kQ-kik计算测试图案x和所有使用等式（3）采样向量。为了计算距离，。2019- 01-1900：00：00如果cw9>在包含8个输入特征{X1，…该数据集包含1639个脉冲星斑图和16259个非脉冲星斑图，共计17898个斑图。该算法的目的是提高分类过程的准确性，F-得分和G-均值。测试模式x与包含样本向量的输入样本矩阵一起使用。作为预处理步骤，构造相关矩阵以发现输入特征Ucx>：在0：49*nckin（c）其他方面>;ð2Þ以及输入特征与响应变量Y之间的关系。然后，计算每个样本利用会员资格使用由等式（3）给出的最大投票对测试模式进行分类。联合1. . Q-k1由等式（2）描述的函数，所有最近邻是因为他们在他们附近的阶级中有很高的成员资格。然而，远离类的样本将被赋予该类的小成员资格值。V. kj;cCJ¼Pk. .J2=m-1 3一旦计算出成员资格值其中kj是j最近邻。m是一个常数，通常设置为2[10，11]。3. 相关工作Eatough等人[4]提出了候选人选择问题的第一种机器学习方法。在他们的工作中，每个候选人都被简化为一组12个数字特征值。他们使用人工神经网络从候选人中选择候选人。Bates等人。[6]描述了使用十个进一步的数值特征来训练神经网络分类器的候选人。Morello等人[2]提出了SPINN系统，该系统通过使用一组六个特征来使用在参考文献[3]中，作者提出了PEACE（脉冲星评价算法候选人提取）。作者声称，该算法提高了识别脉冲星信号的效率[3]。最近，在参考文献[1]中，作者研究了在过去50年中使用的候选过滤问题[1]。作者提出了一种新的方法来选择候选人使用高斯 Hellinger 非常快速决策树（ GH-VFDT）。他们还提出了一套新的功能。作者还评估了三个脉冲星候选数据集，使用五种不同的分类算法。从以往的文献调查表明，机器学习技术是新的脉冲星选择过程的领域。直到最近，这个过程都是手工进行的。然而，手动过程的局限性和庞大的数据量使得手动选择过程不可能且不切实际。此外，值得注意的是，神经网络是在这个领域中使用的主要分类器。据我们所知，没有其他的机器学习方法，用于解决这个问题，除了修改后的决策树在参考文献。[1]的文件。4. 该算法所提出的算法是一种模糊knn算法，提出解决脉冲星选择问题。该算法由等式（1）描述的欧几里德距离可以是使用或任何其他距离度量。如果有多于一个图案要测试，则可以重复这些步骤。脉冲星选择的完整算法如算法1所示。算法1：模糊knn脉冲星选择算法输入：测试模式矩阵T，A候选脉冲星x，k输出：x是否为脉冲星的判定步骤：1.构造相关矩阵，发现特征间的关系2.找出和T的欧氏距离3.选择（拾取）前k个样本（最短距离）4.使用等式2计算k个样本（软标签）的隶属度值5.使用等式3计算两个类的隶属度值6.设置最终类label = max7.如果有多个测试模式，则重复步骤2-6八、使用多次折叠来有效地评估分类器使用模糊knn分类器的主要优点是，它不分配一个硬脆的成员，在原始knn中使用。“模糊化“过程确保使用隶属函数从属于一个以上类别的不同样本进行投票，这可以被认为是加权投票。如果使用k折交叉验证，则算法性能更好[13]。k-fold交叉验证是一种用于更好地评估分类算法的技术。在该算法中，初始数据被随机分成k个互斥子集，称为折叠，D1，D2，…, 每一个褶皱的大小都差不多。训练和测试过程被执行k次。在迭代i中，分区Di被保留为测试集，其余分区一起用于训练[13]。5. 实验结果在本节中，我们将说明所提出的算法的分类结果和评估。在实验中，我们使用MS Excel 2007进行图形绘制，4T.M. Mohamed/Future Computing and Informatics Journal 3（2018）1e 6¼-计算。利用Matlab R2012a进行模糊知识的学习执行和结果评价。首先，我们定义了一些评估指标，将用于比较。真阳性（TP）是已经是候选模式的数量，并且也被分类为候选模式。真阴性（TN）是非候选人的数量，也被归类为非候选人。然而，假阴性（FN）是被错误地归类为非脉冲星的实际脉冲星候选者的数量假阳性（FP）是被错误地分类为候选者的非候选者的数量。从4到10的等式给出了一些重要的附加度量，这些度量是为了比较而计算的。关于这些指标的更多信息可以在参考文献中找到。[1，9]。一般来说，好的分类器应该最大限度地提高准确率、精确率、召回率、F分数、特异性和G均值。但是，应尽量减少假阳性率（FPR）表1特征和输出之间的相关矩阵X1X2X3X4X5X6X7XX1X2 0.55X 3-0.87-0.52X 4-0.74-0.540.95X 5-0.300.01 0.41 0.41X 6-0.310.05 0.43 0.42 0.802019 - 04 -230.03-0.34—0.33-0.62-0.81X 80.140.03-0.21—0.20-0.35-0.58 0.92Y-0.67-0.36 0.79 0.71 0.40 0.490.390.26粗体表示最大值和最小值。弱相关系数为-0.26，表明去除变量X8可以提高分类精度。从根据这些结果，我们考虑三种情况进行实验;第一种情况是在准确度TPTPTN FP FNFPð4Þ分类.第二个实验是去除变量X3、X8并执行分类。最后一种情况是只删除变量X8，并考虑所有其他变量，分类。所有这些案例都将在下文中展示FPR¼ FPTN5在文献[1]的基础上，作者用五种不同的分类器对脉冲星选择问题进行了TP精密度¼TP/FPTP召回1/4TP和1/4FN查准率×查全率ð6Þð7ÞC4.5、MLP、NB、SVM及其提出的GH-VFDT分类器。作者声称，他们提出的GH-VFDT分类器优于其他四个分类器。然而，我们将在这里表明，我们提出的分类器优于所有这五个分类器在许多其他评估指标。图 1示出了六个分类器的评价比较Fscore¼2×查准率查全率TN（参考文献中比较的五个分类器[1]我们的建议算法）。这里的比较是关于使用等式（4）计算的分类器的准确度。在这里，我们考虑所有专属性<$FP≤TN≤ 9s。ﬃﬃﬃﬃﬃﬃﬃﬃﬃTﬃﬃﬃPﬃﬃﬃﬃﬃﬃﬃﬃﬃﬃﬃﬃﬃ ﬃﬃﬃﬃﬃﬃﬃﬃTﬃﬃNﬃﬃﬃ ﬃﬃﬃﬃﬃﬃﬃΣﬃﬃﬃ八个输入变量（特征）。从图中可以清楚地看出，所提出的算法优于其他五个分类器相比，在参考文献。[1]的文件。虽然我们提出的算法-几何平均值TPFFNX公司简介ð10Þrithm优于其他五个分类器，准确率差异，我们的算法和GH-VFDT分类器之间的对比是在我们的实验中，所有这些指标的计算，以评估所提出的算法的性能。表1显示了特征Xi之间以及特征与响应变量Y（输出）之间的相关矩阵[13]很明显，大多数相关值是正常的。但是，有四个例外是粗体的。第一个例外是在输入特征X3和X4之间，其中相关值等于0.95，这是强相关性。这表明，去除其中一个特征可以提高分类精度，因为这两个特征相互依赖。第二个例外是在特征X7和X8之间，其也是强正相关，等于0.92。第三个例外是在输入变量X7和响应变量Y（等于0.39）之间。这是输入和输出之间的弱相关性，表明从分类过程中移除X7可以增强分类过程。最后一个例外是在输入变量X8和输出变量Y之间，不是很大。与其他四个分类器相比，我们提出的算法有一个显着的性能提高这些算法相比。由方程（10）计算的G均值在脉冲星选择问题中是非常重要的。图 2显示Fig. 1.准确度比较。T.M. Mohamed/Future Computing and Informatics Journal 3（2018）1e 65图二. G-mean比较六个分类器的G均值的性能比较。该图显示了与其他五种算法相比，所提出的算法的G均值的显著增加。它比MLP分类器的性能高出约0.02，并且比其他分类器的性能高出更多的图3示出了等式（8）所示的F分数的性能比较。F-score的重要性在于，它将召回率和精确率结合在一个等式中。同样，从图3中可以清楚地看出，所提出的算法在F得分值方面优于其他五种算法虽然，该算法并没有给出最小FPR，但是，它作为第二排名算法中的六个分类器。这里的第一个额定算法是参考文献[1]提出的GH-VFDT分类器。一般来说，FPR需要降低，以避免额外的望远镜时间重新检查候选望远镜。表2显示了使用不同特征的所提出的算法的更多性能。有三列，第一列是通过使用所有输入特征获得的结果。第二栏给出从分类中排除变量X8后的结果。第三列给出排除变量X3和X8后的结果.排除这些变量是基于从表1中获得的验证矩阵。从表中可以清楚地看出，使用所有功能并排除变量X8时，性能相当。这表明，排除X8导致计算简化，因为计算中包括的特征数量减少。此外，通过排除特征X8，F分数和G均值都得到增强。然而，通过排除这两个特征（X3，X8），性能与其他两种情况相比略有下降。这一结论是非常重要的，与文献[1]中的工作相反，文献[1]声称，所有特征在分类过程中都是重要的。表3示出了使用不同k值的效果，图4示出了与其他五个分类器相比的假阳性率（FPR）的性能比较。图三. F分数比较。见图4。FPR比较。交叉验证过程。所提出的算法使用不同的k值进行评估;3，5，12和20。在所有实验中，等式（3）中描述的常数m等于0.3。很明显，在不同的k值之间，性能指标没有显著变化。这表明，该算法是鲁棒的使用不同的k值。然而，使用k等于5和12的值获得最佳性能参数。6. 结论脉冲星是一种罕见的从地球上发射无线电信号的恒星。脉冲星的选择过程非常复杂，人工选择是不切实际的。神经网络技术并不总是合适的，表2特色效果。所有不包括8不包括三，八精度0.9780.9780.972f分数0.8730.8750.834G均值0.9610.9620.954FPR0.170.170.23表3使用所有特征的k折交叉验证的效果K ¼3K ¼5K ¼12K20精度0.9770.9780.9780.977f分数0.8660.8730.8700.870G均值0.9650.9610.9650.953FPR0.0200.0180.0190.0176T.M. Mohamed/Future Computing and Informatics Journal 3（2018）1e 6候选人的特征有些模糊。本文提出了一种新的模糊knn方法用于脉冲星选择。实验结果表明，该算法在分类精度、F值、G均值等方面均优于其他五种分类器。结果还表明，这些特征并不同等重要。需要进一步的研究来解决输入特征之间的重要性和关系。该算法被应用到HITRU 2数据集，这是脉冲星选择域的最新数据集。引用[1] LyonRJ，Stappers BW，Cooper S，Brooke JM，Knowles JD. 脉冲星候选者选择五十年：从简单的滤波器到新的原则性实时分类方法。Mon Not R Astron Soc June 2016;459（1）：1104e 23.[2] Morello V，Barr ED，Bailes M，Flynn CM，Keane EF，van StratenW. SPINN：脉冲星候选选择问题的简单机器学习解决方案。MonNot R Astron Soc 2014;443（2）：1651e 62.[3] Lee KJ，Stovall K，Jenet FA，Martinez J，Dartez LP，Mata A，etal. PEACE：脉冲星评价算法的候选人提取是一个软件包后分析处理的脉冲星调查候选人。MonNot R Astron Soc 2013;433（1）：688e 94.[4] Eatough RP，Molkenthin N，Kramer M，Noutsos A，Keith MJ，Stappers BW，et al.使用人工神经网络选择射电脉冲星候选者。Mon Not R Astron Soc 2010;407（4）：2443e 50.[5] 桑顿D 高时间分辨率无线电天空。博士论文。曼彻斯特大学; 2013年。[6] 张文，张文，等.高分辨率脉冲星巡天的研究进展.北京：科学出版社，2000，24（1）：117 -118.一个人工神经网络和75个卫星的定时。 Mon Not R Astron Soc2012;427（2）：1052e 65.[7] 作者声明：Dr.脉冲星天文学手册。北京：清华大学出版社.[8] HTRU2 数据集，最后一次访问是 2017 年 11 月 13 日https://archive.ics.uci。edu/ml/datasets/HTRU2.[9] 鲍尔斯湾评价：从精确度、召回率、F-测量到ROC、信息性、标记性&相关。J Mach Learn Technol 2011;2（1）：37e 63.[10] Derrac J，Chiclana F，García S，Herrera F.基于区间值模糊集的进化模糊k近邻算法。Inf Sci J 2月.2016;329：144e 63. 埃尔塞维尔。[11] Keller JM，Gray MR，Givens JA.一种模糊k近邻算法。IEEE TransSyst Man Cybern 1985;15（4）：580e5.[12] Derrac J，García S，Herrera F.模糊最近邻算法：经济学、实验分析与展望. Inf Sci J2014;260：98e 119.[13] 李文，李文，李文.数据挖掘：概念与技术。第3版Elsevier; 2011.

下载后可阅读完整内容，剩余1页未读，立即下载