没有合适的资源?快使用搜索试试~ 我知道了~
软件影响12(2022)100280原始软件出版物用于自组织映射Álvaro José García-Tejedor,Alberto NogalesCEIEC研究所,弗朗西斯科维多利亚大学,Ctra。M-515 Pozuelo-Majadahona km 1,800,28223 Pozuelo de Alarcón,西班牙A R T I C L E I N F O关键词:机器学习神经网络自组织映射A B标准组织已经意识到数据分析的重要性及其好处。这与机器学习算法相结合,使我们能够更容易地解决问题,使这些过程更耗时。神经网络是机器学习技术,最近获得了非常好的结果。本文描述了一个名为GEMA的开源Python 库 , 该 库 被 开 发 用 于 使 用 一 种 名 为 自 组 织 映 射 的 神 经 网 络 模 型 。 GEMA 在 GitHub(https://github.com/ufvceiec/GEMA)的GNU通用公共许可证下免费提供。该库已在不同的特定用例中进行了评估,获得了准确的结果。代码元数据当前代码版本V0.4.2用于此代码版本的代码/存储库的永久链接https://github.com/SoftwareImpacts/SIMPAC-2022-18可再生胶囊的永久链接https://codeocean.com/capsule/3598335/tree/v1法律代码许可证GPL-3。0License使用git的代码版本控制系统使用Python的软件代码语言、工具和服务编译要求、操作环境和依赖性要求:• NumPy• tqdm• 熊猫• matplotlib• Plotly• scikit-learn• scipy• Numba• ImageIO如果可用,请链接到开发人员文档/手册https://github.com/ufvceiec/GEMA/wiki问题支持电子邮件gema-som@googlegroups.com1. 介绍大量数据的可用性不断增加,计算能力成本下降,使得许多难题可以通过应用机器学习(ML)技术来解决[1]。因此,对ML库(算法和模型的实现)的需求日益增长,特别是在开放领域。在这种情况下,人工神经网络(ANN),生物启发ML技术的子集,在人工智能社区中越来越受欢迎。 这是他们解决不同问题的能力和良好表现的结果。有许多人工神经网络模型,但自组织映射(SOM)在体系结构和学习算法方面是根本不同的。SOM,也被称为Kohonen地图,是基于大脑皮层的生物学研究,并于1982年由[2,3]引入。该模型是一种具有无监督训练算法的ANN,本文中的代码(和数据)已由Code Ocean认证为可复制:(https://codeocean.com/)。更多关于生殖器的信息徽章倡议可在https://www.elsevier.com/physical-sciences-and-engineering/computer-science/journals上查阅。∗通讯作者。电子邮件地址:a. ceiec.es(Á.J. García Tejedor),alberto. ceiec.es(A. Nogales)。https://doi.org/10.1016/j.simpa.2022.100280接收日期:2022年2月21日;接收日期:2022年3月14日;接受日期:2022年3月25日2665-9638/©2022作者。由Elsevier B.V.出版。这是一篇开放获取的文章,使用CC BY许可证(http://creativecommons.org/licenses/by/4.0/)。可在ScienceDirect上获得目录列表软件影响杂志 首页:www.journals.elsevier.com/software-impactsAJ García Tejedor和A.诺加利斯软件影响12(2022)1002802Fig. 1. Kohonen地图架构。执行高维模式和离散二维表示之间的非线性映射,称为特征映射,而无需外部指导。正因为如此,SOM已被广泛用作模式识别,降维,数据可视化和聚类分析(分类)的方法[4]。GEMA是GEnerador de Mapas Autoasociativos(西班牙语中的自关联映射生成器)的缩写,它是Ko- honen的映射的一个实现,它通过两步过程从头开始训练过程通过定义和微调SOM参数,使用一组输入示例找到相干聚类(特征图)映射过程使用来自上一步骤的经训练的网络自动对新输入数据进行分类。此外,GEMA还实现了通过报告和交互式可视化来分析结果的工具。2. 理论方法SOM执行从高维输入空间到一个低维的地图空间,通过一个两层的全连接架构。输入层是具有与输入数据向量(n)的维度一样多的神经元(ANN的基本组件)的线性阵列。输出层(或Kohonen层)由一组神经元组成,每个神经元都有一个与输入数据(n)相同维度的相关权重向量和任意大小(k)的矩形网格中的位置。所有的权重都被安排在一个被称为权重矩阵的矩阵中。��������� 图图 1显示了 Ko h o n e n 地 图 的典型架构。自组织是一个过程,描述如下。 来自数据空间的向量(Vector-from-data space,Vector-from-data space)被呈现给网络。���具有最接近的权重向量的节点是获胜神经元或最佳匹配单元(BMU)。������这是使用一个简单的判别函数(欧几里得距离)和“赢家通吃”机制(竞争)计算的。然后,无监督训练算法根据获胜者的权重向量与输入向量的相似性来修改获胜者的权重向量。 输入向量呈现和BMU学习继续,直到给定的数字的介绍(P)。这个迭代过程的结果是一个经过训练的(自组织的)Kohonen映射,由给定的权重矩阵表示。Kohonen层中的每个节点将回答先前学习的特定模式,并将识别属于该类的所有元素。自组织训练过程保证输入空间的拓扑属性被保留,并且邻居节点识别共享相似特征的模式3. 相关作品图二. GEMA工作流程和模块之间的交互。SOM,但在这种情况下,它被应用于多径分量(MPC)的聚类分析的无线环境。SOM用于基于配体的虚拟筛选方法[8]。最后,[9]应用SOM评估西班牙收缩的多维轨迹。4. 软件框架GEMA是一个图书馆,已开发,以促进人的Kohonen地图。它允许数据科学家定义和训练SOM,稍后使用它们对目标数据集中的新实例进行分类。GEMA还有助于分析分类器本身以及通过可视化数据和获得一些度量而获得GEMA是用Python 3.7编写的,依赖于一些库。NumPy,一个用于科学计算的软件包。Pandas,[10],用于管理数据结构。Matplotlib在[11],imageio,2和Plotly3中描述,用于可视化结果。Scikit-learn[12]和SciPy4提供了更复杂的数学函数。最后,numba是一个Python编译器,可以加速已开发的函数,[13]。神经网络需要事先对数据集进行操作,以使其无法被网络理解。这些过程被分为一组称为预处理的操作,主要是数据规范化,尽管也可以进行数据集的所有统计分析训练/学习过程涉及使用未标记输入向量的训练数据集对神经元的权重向量进行增量自适应,直到相应地获得相干聚类(映射)。一个干净的SOM作为GEMA类的一个实例通过一个设置map端的调用获得。通常情况下,一旦获得了好的SOM,用户就有兴趣保存它并在将来使用它。为了完成这项任务,该库提供了将地图信息保存为JSON的可能性。因此,预先训练的模型可以也可以加载此保存的模型。使用该库的网络对数据集进行分类的过程实际上与训练相同,只是没有修改权重,并且不需要其他参数。对于要分类的每个样本,仅计算获胜的神经元。训练后的映射通过计算待分类的每个元素与SOM权重矩阵之间的判别函数(例如,欧几里得距离)来接收待在空间中聚类的未标记模式。最后,在可视化/报告阶段,用户可以要求提供不同的图和报告,这些图和报告提供对由于GEMA是基于SOM的应用,下面我们列出[5]提出了一种新的SOM实现,称为伪标签辅助SOM,用于分割磁共振成像(MRI)。在[6]中,它被用于一种新的SOM方法与贝叶斯正则化分析汽油和柴油价格漂移。[7]使用1 http://www.numpy.org/。2https://github.com/imageio/imageio。3 https://plotly.com/。4 http://www.scipy.org/。AJ García Tejedor和A.诺加利斯软件影响12(2022)1002803图三. 一个完整的GEMA编码工作流程的例子.结果(输入数据集和码本)、聚类分析和质量测量。图2描述了所有的方法和不同的架构元素。图3通过实现代码显示了相同的过程。 在这种情况下,大小为10的Kohonen map被初始化并使用来自csv文件的数据进行训练。训练阶段由50000个epoch和uses组成学习率为0.1然后,该SOM被用来对一些数据实例进行分类。最后,获得了两种类型的图:3D图和2D热图5. 与其他工具的其他Python库实现Kohonen映射。光穗嫩5 表示...的意思包含Kohonen风格的矢量量化器的一些实现,尽管它也支持神经气体和生长神经气体。一个非常简单的Kohonen映射库的实现,称为som。6Somo- clu,[14],也适用于SOM,但它允许并行处理不同的任务。一个名为PyMVPA的用于统计学习分析的软件包包括一个对SOM建模的类,[15]。NeuPy7是一个神经网络库,包括Kohonen映射类。 另一个仅用于SOM的库是SOMPy8,它遵循Matlab somtoolbox的结构。MiniSom9是自组织地图的一个极简实现。最后,KNOSOM10是Kohonen映射的轻量级实现。这些库实现了GEMA提供的许多功能。但相比之下,GEMA有新的度量标准,如拓扑,它提供了地图密度的用户还要求更多完整的报告,其中包含功能图的详细信息。最后,GEMA是唯一一个提供交互式可视化的图形,如3D海拔热图或图表栏,显示有多少神经元被激活了一定的次数。6. 经验结果和评价为了测试该库,我们在该领域的三个著名用例中对其进行了评估。第一个是对一组颜色进行分类。第二个用例包括对手写数字的图像进行5 https://github.com/lmjohns3/kohonen。6 https://github.com/alexarnimueller/som。7 https://github.com/itdxer/neupy。8https://github.com/sevamoo/SOMPY。见图4。 使用GEMA分类RGB颜色。白纸黑字写下来 第三个用例由三个类组成鸢尾属植物的每种图案都有萼片和花瓣的长度和宽度。除此之外,通过对学生的能力进行分类,在心理学领域进行了成功的研究在下面的段落中,将解释每个用例的实验。所得结果将以图表表示。在结果中,可以看出,具有相同特征的模式聚集在相似的区域中。应该强调的是,这些图不是库的一部分,并且仅用于评价库获得的结果。第一个用例包括对一组颜色进行分类。 每种颜色的模式由0到255之间的三个值组成,对应于红色、绿色和蓝色通道。训练数据集是通过随机生成500个图案而创建的。 然后,一个SOM100的大小已经被创建和训练。 完成该阶段后,一组10,000种颜色已被分类。结果见图4显示了相同颜色的图案分布在相似的区域中以及它们之间色调的柔和过渡第二个用例演示了GEMA可用于类- 简化图像。在这种情况下,地图已经被训练好了-美国国家标准与技术研究所(MNITS)。[11]这是由28× 28像素的图像和手写的黑白数字组成的。总共有60,000个示例用于训练,10,000个作为测试集。图5、可以看出,一张有大小的地图用40,000个epochs训练的25很好地聚类了不同的图像。9https://github.com/JustGlowing/minisom。10 https://github.com/fcomitani/SimpSOM。11 http://yann.lecun.com/exdb/mnist。AJ García Tejedor和A.诺加利斯软件影响12(2022)1002804图五. 手写的数字是机密。见图6。 鸢尾花分类。例如,数字7的图像聚集在左上角。另一个有趣的点是,在一组4附近,一些9很难区分。这是由于两个数字的形态特征另一个用例是虹膜植物。这也是机器学习中最著名的数据集之一。它是由罗纳德·费舍尔在1936年引入的数据集[17]。它由50个鸢尾属植物样本组成,测量了萼片和花瓣的宽度和长度。在图中提供的结果中。6,可以看出有三个不同的聚类,每个聚类对应不同类型的虹膜。7. 结论和前景其主要目的是开发一个与SOM一起工作的库,也称为Kohonen地图。这种神经模型分为训练和分类两个主要阶段。除了开发它们之外,还编写了其他方法。存在获得不同类型报告的可能性。结果也可以通过绘制一些交互式图形来显示。最后,可以通过加载保存地图以供将来使用。在今后的工作中,将进行新的实施。例如,Kohonen定义的其他概念,如神经气体或生长气体。 此外,还将扩展获取报告和可视化结果的模块。最后,该图书馆将用于新的真实案例,如根据学生的心理特征对学生进行聚类,或根据他们在欧盟各地的运输方式对可能的食物警报进行聚类。竞合利益作者声明,他们没有已知的竞争性财务利益或个人关系,可能会影响本文报告的工作引用[1]F.穆苏梅奇角Rottondi,A.纳格岛Macaluso,D.齐巴尔,M。Ruffini,M.托纳托雷, 机器学习技术在光网络中的应用概述,IEEE Commun. 监视器家教21(2)(2018)1383[2]T. Kohonen,拓扑正确特征映射的自组织形成,生物学。43(1)(1982)59http://dx.doi.org/10.1007/BF00337288[3]T. Kohonen,自组织映射,Proc.IEEE 78(9)(1990)1464[4]M. Cottrell,M. Olteanu,F. Rossi,N.自映射,理论与应用,研究。Operacional39(1)(2018)1-23.[5] J. Grande-Barreto,P. Gómez-Gil,磁共振成像中脑组织分割的伪标签辅助自组织映射,J. Digit。 影像学(2022)1-13。[6] R. Sujatha,J.M.查特吉岛Priyadarshini,A.E. Hassanien,A.A.A. Mousa,S.M.Alghamdi,自组织映射和贝叶斯正则化神经网络用于分析汽油和柴油价格漂移,Int.J.Comput。内特尔15(1)(2022)1-16.[7] J.Alejandrino,E.特立尼达河康塞普西翁,E. Sybingco,M.G.帕尔科尼特湖Materum,E. Dadios,利用自组织地图描绘多路径集群,在:国际会议Intell。Comput. Optim.,Springer,Cham,2021,pp. 417-426[8] P.B. Jayaraj,S. Sanjay,K. Raja,G.哥帕库马尔Jaleel,基于配体的自组织图虚拟筛选,蛋白质J。(2022)1-11。[9] A. Ruiz-Varona,J. Lacasta,J. Nogueras-Iso,自组织地图评估西班牙收缩的多维轨迹,ISPRS Int.J. Geo-Inf. 11(2)(2022)77。[10] W. Pandas:一个用于数据分析和统计的基础Python库,Python High Perform。Sci. Comput.(2011)1-9。[11] D.J. Hunter,Matplotlib:一个2D图形环境,Comput。Sci. Eng.9(2007)90-95。[12] F.佩德雷 戈萨湾瓦 罗科格拉 福,V.米歇尔 ,B.蒂里翁 岛,澳-地Grisel,J.Vanderplas , Scikit-learn : Python 中 的 机 器 学 习 , J. Mach 。 学 习 . 第 12(2011)号决议第2825-2830段。[13] S.K. Lam,A. Pitrou,S. Seibert,基于llvm的python jit编译器,在:Proceedings第二届HPC中LLVM嵌入式基础设施研讨会,2015年,pp. 1比6[14] P. Wittek,S.C. Gao,I.S.利姆湖,澳-地Zhao,Somoclu:一个有效的自组织映射并行库,J。Stat. 软件。78(2013)1[15] M.汉克,你好。Halchenko,P.B.放大图片作者:J. J. Pollmann,PyMVPA:一个python工 具箱 , 用 于fMRI数 据的 多 变量 模 式 分析 , Neuroinformatics 7(2009)37-53。[16] A. Nogales,Á. J. García-Tejedor,新墨西哥州作者声明:John D. Alija,高等教育竞争:自组织地图的特征分析,在:A。韦利多湾吉贝尔角Angulo,GuerreroJ.Martín(Eds.),自组织映射、学习向量量化、聚类和数据可视化的进展。WSOM 2019, 在 : 智 能 系 统 和 计 算 的 进 展 , 第 976卷 , Springer, Cham,http://dx.doi.org/10.1007/978-3-030-19642-4_8,2020年。[17] R.A.费 希尔 , M。 Marshall, Iris数 据集 , 见: RA Fisher, UC Irvine MachineLearningRepository,第440卷,1936年,第100页。87岁
下载后可阅读完整内容,剩余1页未读,立即下载
![7z](https://img-home.csdnimg.cn/images/20210720083312.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![](https://profile-avatar.csdnimg.cn/default.jpg!1)
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
我的内容管理 收起
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助
![](https://csdnimg.cn/release/wenkucmsfe/public/img/voice.245cc511.png)
会员权益专享
最新资源
- 京瓷TASKalfa系列维修手册:安全与操作指南
- 小波变换在视频压缩中的应用
- Microsoft OfficeXP详解:WordXP、ExcelXP和PowerPointXP
- 雀巢在线媒介投放策划:门户网站与广告效果分析
- 用友NC-V56供应链功能升级详解(84页)
- 计算机病毒与防御策略探索
- 企业网NAT技术实践:2022年部署互联网出口策略
- 软件测试面试必备:概念、原则与常见问题解析
- 2022年Windows IIS服务器内外网配置详解与Serv-U FTP服务器安装
- 中国联通:企业级ICT转型与创新实践
- C#图形图像编程深入解析:GDI+与多媒体应用
- Xilinx AXI Interconnect v2.1用户指南
- DIY编程电缆全攻略:接口类型与自制指南
- 电脑维护与硬盘数据恢复指南
- 计算机网络技术专业剖析:人才培养与改革
- 量化多因子指数增强策略:微观视角的实证分析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
![](https://img-home.csdnimg.cn/images/20220527035711.png)
![](https://img-home.csdnimg.cn/images/20220527035711.png)
![](https://img-home.csdnimg.cn/images/20220527035111.png)
安全验证
文档复制为VIP权益,开通VIP直接复制
![](https://csdnimg.cn/release/wenkucmsfe/public/img/green-success.6a4acb44.png)