降维在数据科学和定量分析中的应用

70 浏览量更新于2024-01-25 收藏 337KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

软件影响8（2021）100075原始软件出版物降维在现代数据科学和定量分析中的应用Philip D. 瓦格纳芝加哥大学芝加哥分校哥伦比亚大学社会和经济研究与政策研究所，美国纽约州纽约自动清洁装置保留字：R降维无监督机器学习数据科学定量分析代码元数据A B标准应用环境中的研究人员经常面临高维数据空间。虽然更多的数据通常被认为是一件好事，但研究人员也可能对学习表征数据空间的结构感兴趣。从这个意义上说，研究人员的目标是使复杂的数据空间变得更简单，从而将其减少并投影到低维子空间上。本文重点介绍了我的手稿中的代码即将与剑桥大学出版社合作，将研究人员带入应用的现代降维领域，使用开源代码解决实际问题当前代码版本v1.0用于此代码版本的代码/存储库的永久链接https://github.com/SoftwareImpacts/SIMPAC-2021-33可再生胶囊NA的永久链接法律代码许可证MIT使用Git的代码版本控制系统软件代码语言、工具和服务使用R编译要求，操作环境依赖R（和RStudio建议）如果可用链接到开发人员文档/手册NA支持电子邮件问题philip. gmail.com1. 介绍无监督机器学习由许多对学习非随机结构底层数据感兴趣的技术组成。输入数据是未标记的，这意味着没有地面实况，也没有要估计的结果。相反，无监督学习算法获取未标记的输入数据并从中学习。对于这个广泛定义的任务，无监督机器学习有两种主要方法：聚类和降维。聚类感兴趣的是划分或细分数据以学习结构，而降维感兴趣的是简化（通常是高维）数据空间。在最近的一篇文章中，[1]向读者介绍了广泛使用的聚类算法的实现。在本文之后，我补充了聚类内容，涵盖了无监督机器学习的其他主要领域：降维[2]。在[2]中，我有兴趣向读者介绍一系列现代降维技术，并使用数百行R代码进行演示*通信：芝加哥大学，芝加哥，伊利诺伊州，美国。电子邮件地址：pdwaggoner@uchicago.edu。https://doi.org/10.1016/j.simpa.2021.100075覆盖的技术。文本建立在经典的降维方法，主成分分析（PCA），并表明，大多数现代降维技术可以链接回PCA，这是有用的应用和解释。虽然这些降维方法的目标、算法和结构差异很大，但它们通常可以追溯到PCA，这使得PCA成为一个有用的起点。2. 影响概述代码和手稿对应用研究的影响是帮助那些遇到问题和高维环境的研究人员，这些问题和高维环境需要使用降维来理解他们的数据空间。代码，所有可能通过现有的开源R包，是按技术组织的第二章介绍的第一种技术是主成分分析（PCA），它使用prcomp（基R）和接收日期：2021年3月25日;接收日期：2021年4月20日;接受日期：2021年4月21日2665-9638/©2021作者。由Elsevier B.V.出版。这是一篇开放获取的文章，使用CC BY许可证（http://creativecommons.org/licenses/by/4.0/）。可在ScienceDirect上获得目录列表软件影响杂志首页：www.journals.elsevier.com/software-impactsℎℎ1 −��影响本文报道的工作。警局Waggoner软件影响8（2021）100075factoextra[3] packages. PCA是一种线性降维方法，已经存在了100多年。它感兴趣的是找到输入特征的加权线性组合，以基于最大方差总结数据空间��1=��11��1+��21��2+��（一）第3章继续线性构造，但这次是通过利用局部线性嵌入（LLE）来搜索非线性结构，这是使用lle包[4]应用的。LLE也建立在加权输入特征的线性构造上，如PCA。然而，LLE不是在PCA的情况下基于方差来总结数据，而是对学习潜在流形的完整的非线性轮廓感兴趣，并且因此基于跨所有数据点的逐点基于邻域的近似来最小化误差RSS��，类似于PCA。也就是说，在隐藏层中表示的简化数据空间的编码或汇总版本，而不是像PCA中那样通过线性组合的主成分集表示重要的是，手稿的局限性，以及更广泛的无监督学习，体现在将模式与实质性现象联系起来的困难上。有一些验证方法，例如拟合几种算法和比较模式，这些方法在整个文本中都但最终，无监督降维的过程受到其无法正式预测、预报或与地面实况标记的情况进行比较的限制。在工作中利用无监督方法的研究人员，特别是在结果设置中（例如，涉及人或社会行为）应特别注意激励方法选择、验证结果和报告结果，以符合开放科学的最佳实践，在非洲开展业务的其他机构的更广泛贡献和参与1∑（∑）2��相似的空间==1��−∀��∈��≠.（二）最终，通过这次技术和代码演示之旅，我的中心目标是鼓励研究人员和从业者负责任地第4章开始学习非线性结构，但现在非线性构造算法的基础：使用Rtsne包[5]应用的t分布随机邻居嵌入（t-SNE）和使用umap包[6]应用的均匀流形近似和投影（UMAP）。虽然这两种算法最常用于可视化高维数据空间，但其他任务（如特征提取）也是可能的，如LLE和PCA。通常，t-SNE感兴趣的是在将原始高维数据空间与低维表示��进行比较时��，最小化相对交叉熵方面的误差，��∑log（��）。（三）利用他们现在学到的对该领域的理解和这些技术的相互关联性来应用这些技术来解决他们领域中的实际问题。为此，所有代码都与来自大型民意调查的真实社会科学数据配对，即2019年美国全国选举试点研究[9]。我们的想法是证明这些技术不仅在理论层面上是有用的和相关的，而且它们可以在一个开源的、灵活的计算环境中应用和访问。所有代码都可以在Github：https：//github上公开获取。com/pdwagg goner/dimension-reduction-CUP，并且由章节相关的脚本组织（例如， ch02_DR_waggoner.R第2章的代码，因此��∈第4章 UMAP中介绍的第二种技术的价值打开）。该手稿即将与剑桥大学出版社，但草案版本可在arXiv免费获得：https://arxiv.org/abs/因此其对t-SNE的主要创新是进行两次搜索，旨在学习局部和全局结构，这主要导致可再现的解决方案。为此，我们可以更新t-SNE的损失函数，以相应地考虑两个搜索区域∑��log（��）（1−��）log（1−��）。（四）��∈2103.06885RL。竞合利益提交人声明，他们没有已知的竞争性财务利益或个人关系，可能会出现本文在最后的实质性第5章中转向基于神经网络的非线性降维方法，从使用Kohonen包应用的自组织映射（SOM）开始[7]。SOM是神经网络，但没有隐藏层，它基于三个阶段：竞争，合作和学习/权重更新。被更新的权重是（高维）输入层和输出层中的较低维表示之间的连接器（即，自动编码器是第5章介绍的最后一种技术。这些神经网络架构也可以通过增加隐藏层的数量来加深，从而有机会更新权重，从而（通常）更好地学习，从而提供所谓的“深度自动编码器”。自动编码器包括两个主要步骤：对输入空间进行编码，��= �� （��），然后解码该空格，��基于从编码阶段学习的模式，本文中的自动编码器是使用h2o包应用的[8]。有趣的是，包含解码层是一项创新的限制玻尔兹曼机，它基本上停止在编码层（记录信息损失），给出一个解决方案，非常引用[1]警局Waggoner，无监督机器学习用于政治和社会研究中的聚类，剑桥大学出版社，2021年。[2] 警局Waggoner，Modern dimension reduction，2021，arXiv preprint arXiv：2103.06885[3] A. Kassambara，F. Mundt，Factoextra：提取和可视化多变量数据分析的结果。R包版本，1.5，2017。[4] D. Holger，M. Abel，lle：局部线性嵌入。 R包版本，1.1，2012。[5] 克里耶特湖van der Maaten，Rtsne：T-distributed stochastic neighborembeddingusinga barnes-hut implementation. R包版本，0.15，2018。[6] T. Konopka，umap：均匀流形近似和投影。R包版本，0.2.7.0，2020。[7] R. Wehrens，J. Kruisselbrink，Kohonen：Supervised and UnsupervisedSelf-Organising Maps. R包版本，3.0.10，2019。[8]E. LeDell，N.吉尔，S。Aiello，A.Fu，中国茶条A.坎德尔角克里克，T。克拉列维奇尼科迪姆，P. Aboyoun，M.库尔卡湾马洛赫拉瓦湖Rehak，E.埃克斯特兰德湾希尔，S。维德里奥，S. Jadhawani，A.王河，巴西-地Peck，W.Wong，J. Gorecki，M.Dowle，Y.唐先生，L. DiPerna，H2O.ai，h2o：用于“H2O”可扩展机器学习平台的R接口。R包版本，3.32.0.1，2020。[9] 美国国家选举研究，试点研究，2019年。2

下载后可阅读完整内容，剩余1页未读，立即下载