局部线性嵌入：流形展开和可视化模块

163 浏览量更新于2024-01-25 收藏 321KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

软件影响9（2021）100105原始软件出版物生成局部线性嵌入：流形展开和可视化模块BenyaminGhojogha，Mr.，AliGhodsib， FakhriKarrayc，Mar kCrowleyaa加拿大安大略省滑铁卢市滑铁卢大学电气与计算机工程系机器学习实验室b加拿大安大略省滑铁卢市滑铁卢大学统计与精算科学系c加拿大安大略省滑铁卢市滑铁卢大学电子与计算机工程系模式分析与机器智能中心A R T I C L E I N F O保留字：机器学习流形学习简化展开和可视化代码元数据A B标准在机器学习中，数据通常具有非线性模式。人们可以展开数据集的非线性流形用于低维可视化和特征提取。局部线性嵌入（LLE）是一种用于降维和流形展开的非线性谱方法。它使用与输入空间中相同的线性重建权重嵌入数据。在本文中，我们提出了一个开源模块，不仅实现了LLE，而且还包括两个生成LLE算法的实现，其线性重建相位是随机的。使用此模块，可以根据数据可视化或特征提取的当前代码版本v1用于此代码版本的代码/存储库的永久链接https://github.com/SoftwareImpacts/SIMPAC-2021-63可再生胶囊的永久链接https://codeocean.com/capsule/0270963/tree/v1法律代码许可证MIT使用git的代码版本控制系统使用Python 3的软件代码语言、工具和服务编译要求，操作环境依赖Python3，numpy，matplotlib，scikit-learn如果可用，链接到开发人员文档/手册https://github.com/bghojogh/Generative-LLE/blob/main/README.md问题支持电子邮件bghojogh@uwaterloo.ca1. 介绍简化可用于流形展开、数据可视化和特征提取，以更好地分类、预测或聚类数据。根据[1]，它可以分为谱方法[2]、概率方法[3]和深度方法[4]。局部线性嵌入（LLE）是一种非线性无监督谱方法，在文献[5，6]中提出它由三个步骤组成，即（1）构建最近邻图，（2）通过输入空间中的邻居确定性线性重建点，以及（3）使用获得的权重确定性线性嵌入[7]。LLE是一种非常重要的非线性流形学习方法，因为它可以在嵌入空间中局部拟合数据保持数据的全局结构[6]。这个想法后来发展到无监督流形学习领域，其中考虑点的局部距离或相似性进行嵌入。在[8]中描述了两种现有的生成LLE（GLLE）方法，其线性重建步骤是随机的。一种GLLE使用期望最大化（EM），另一种基于直接采样[8]。 GLLE模型部分受到因子分析[9]和概率主成分分析[10]的启发，其中点以隐变量和噪声（详见[11]）。因此，它们是谱方法和概率方法的GLLE算法可以被认为是生成模型[12]，尽管它们不是深度或基于自动编码器的方法[13，14]。深度生成模型已广泛用于各种应用本文中的代码（和数据）已由Code Ocean认证为可复制：（https://codeocean.com/）。更多关于生殖器的信息徽章倡议可在https://www.elsevier.com/physical-sciences-and-engineering/computer-science/journals上查阅。∗通讯作者。电子邮件地址：bghojogh@uwaterloo.ca（B.Ghojogh），ali. uwaterloo.ca（A.Ghodsi），karray@uwaterloo.ca（F. Karray），mcrowley@uwaterloo.ca（M.Crowley）。https://doi.org/10.1016/j.simpa.2021.100105接收日期：2021年6月7日;接收日期：2021年6月29日;接受日期：2021年6月29日2665-9638/©2021作者。由Elsevier B. V.发布，这是CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表软件影响杂志首页：www.journals.elsevier.com/software-impactsB. Ghojogh，A. Ghodsi，F. Karray等人软件影响9（2021）1001052模块的json文件中的设置。n_generation_of_embedding正整数要生成的展开（嵌入）的数量max_iterationsEM算法的最大迭代次数n_components一个正整数（1和数据的维数展开（嵌入）详细0 1 2不打印日志记录打印日志记录级别1打印日志记录级别2例如图像合成和去噪[15]。然而，GLLE方法用于生成低维子空间中的流形展开和数据可视化。在本文中，我们提出了一个新的开源软件模块，Python语言[16]，用于LLE和GLLE算法。该模块可用于非线性流形展开和可视化。2. 描述和用途此模块包括一个main.py文件，该文件实例化类加载数据，并将数据集输入算法。这三类模块分别实现了LLE、基于EM算法的GLLE和基于直接采样的GLLE。还存在一些用于保存、加载和绘制结果的附加实用程序功能。正如本模块的GitHub页面的read-me文件中所述，运行该模块需要几个简单的步骤。在下文中，我们将详细解释这些步骤。准备：在运行模块之前需要安装一些基本的依赖项。这些需求是Python3，numpy，matplotlib，scikit-learn，它们可以通过运行命令'' pip install -r requirements.txt ''来安装。设定值：的用户应该指定他们的期望设置在提供了名为settings.json的用户友好文件。这些设置指定了算法、迭代次数、数据集和类似的选择，表1中总结了它们的可能值。数据集加载：用户可以选择几个容易提供的数据集，如瑞士卷，瑞士卷与孔，S曲线，切断球，和小切断球。为此，他们应该设置make_dataset_again=True，并将dataset设置为就绪数据集之一。这将生成一随机数据集在路径./ datasets/dataset_name/.用户也可以自由地为模块提供自己的数据集。为此，他们应该设置make_dataset_again=False和dataset=User_data和放他们的数据集在的路径./ datasets/User_data/. 数据的格式应该是 csv ，其中data.csv应该包括按行堆叠的数据实例，其中列是特征。文件labels.csv和color.csv分别是可选的，用户可以分别确定流形上点的相对距离模块运行：设置适当的设置后，可以在根文件夹中使用命令"pythonwww.example.com“运行模块main.py根据设置文件中选择的方法，模块使用LLE、带EM的GLLE或带直接采样的GLLE展开流形。如果使用LLE，则仅输出一个嵌入;然而，通过使用GLLE，该模块将学习一次展开，然后它可以生成所需数量的展开。3. 影响概述该模块可用于生成多个非线性流形展开，用于数据可视化和特征提取。许多降维方法，包括LLE [5，6]，仅为底层数据流形生成一个展开。也就是说，虽然模块中的GLLE算法可以生成所需数量的流形展开，但生成的可视化都与之相关由于其局部拟合，原始LLE嵌入[6]。除了具有用于可视化和特征提取的多个嵌入的好处之外，这些展开可以通过检查它们来对LLE嵌入进行更多的了解。研究人员可以通过提取有意义的和有见地的嵌入和流形展开从这个模块中受益。该模块可用于各种应用。它可以用于提取特征，以更好地区分类别或聚类。例如，在医学图像分析中，肿瘤图像可以在低维嵌入空间中与正常图像更好地分离。此外，在低维图形中可视化高维数据可以用于统计和基因组分析。4. 结论和今后的工作我们提出了一个流形展开和可视化模块。该模块包括使用EM和直接采样实现LLE和GLLE算法。我们介绍了模块并解释了表1设置选择LLE法GLLEGLLE_DirectSampling确定性LLE带EM的直接采样GLLE数据集Swiss_roll、Swiss_roll_hole、S_curve、Sphere、Sphere_small用户数据就绪数据集用户make_dataset_again真假生成就绪数据集加载数据再次嵌入真假列车再次训练后可供几代人使用（不再训练）重新生成嵌入真假生成[多个]展开没有世代分析协方差尺度真假为各种协方差无协方差分析量表B. Ghojogh，A. Ghodsi，F. Karray等人软件影响9（2021）1001053如何运行和使用此模块。还讨论了该模块的使用案例和影响。为了改进该模块，我们正在努力提高算法在处理非常大的数据集时的效率。GLLE算法的样本外扩展也可能作为该模块的未来工作竞合利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作致谢这项工作得到了加拿大自然科学和工程研究委员会（RGPIN-2018-04381）的部分支持。引用[1]B. Ghojogh，机器学习和数据中的数据简化算法科学（博士）论文），滑铁卢大学，2021。[2]L.K. Saul，K.Q. Weinberger，F. Sha，J. Ham，D. D. Lee，Spectral methodsfordimensionality reduction，Semi-Supervised Learn。3（2006年）。[3]C.M. Bishop，Pattern Recognition and Machine Learning，Springer，2006。[4]Y. Wang，H. Yao，S.赵，基于自动编码器的降维，神经计算184（2016）232-242。[5]S.T. Roweis，L.K. Saul，Nonlinear dimensionality reduction by locallinearembedding，Science 290（5500）（2000）2323-2326.[6]L.K. Saul，S.T. Roweis，Think globally，fit localized：unsupervised learning oflowdimensional manifold，J. Mach.学习.第4（Jun）（2003）号决议，第119[7]B. Ghojogh，A. Ghodsi，F. Karray，M. Crowley，Local linear embedding and itsvariants：candidate and survey，2020，ArXiv PreprintarXiv：2011.10925。[8]B. Ghojogh，A. Ghodsi，F. Karray，M. Crowley，Generative Localized LinearEmbedding，2021，ArXiv PreprintarXiv：2104.01525.[9]B. Fruchter，Introduction To Factor Analysis，Van Nostrand，1954.[10] 法医小费，C.M.概率主成分分析，J.R. Stat. Soc. 序列B统计。美沙酮61（3）（1999）611[11] B. Ghojogh，A. Ghodsi，F. Karray，M. Crowley，因子分析，概率主成分分析，变分推理和变分自动编码器：测量和调查， 2021 ， ArXiv 预印本 arXiv ：2101.00734。[12] G. Harshvardhan，M.K. Gourisaria，M. Pandey，S.S. Rautaray，机器学习中生成模型的全面调查和分析，Comp.Sci. Rev.38（2020）100285.[13] A. Oussidi，A. Elhassouny，深度生成模型：调查，在：2018年智能系统和计算机视觉国际会议（ISCV），IEEE，2018年，pp。1-8号。[14] Z.潘， W。 Yu， X. Yi，中国山核桃 A. 汗角，加 - 地 Yuan， Y. Zheng， RecentProgress on GenerativeAdversarialNetworks（GANs）：A Survey，IEEE Access 7（2019）36322-36333。[15] E. Luhman，T. Luhman，去噪合成：使用基于去噪模型的快速图像合成模块，Softw。影响（2021）100076.[16] M.F. Sanner，Python：一种用于软件集成和开发的编程语言，J。摩尔Graph.模型17（1）（1999）57

下载后可阅读完整内容，剩余1页未读，立即下载