没有合适的资源?快使用搜索试试~ 我知道了~
软件X 12(2020)100629原始软件出版物RandPro-一个基于随机投影的特征提取的实际实现,用于R中的高维多变量数据分析R. Siddharth,G.阿吉拉印度,卡拉卡尔,Puducherry国立技术学院ar t i cl e i nf o文章历史记录:接收日期:2020年收到修订版2020年11月5日接受2020年保留字:降维Johnson-Lindenstrauss引理RandProR编程软件描述a b st ra ct维数灾难严重影响了高维多元数据分析的性能特征提取是数据分析过程中避免维数灾难随机投影方法是最被低估的特征提取技术,在高维数据分析的情况下表现非常好。该技术具有投影数据无关、计算简单、距离保持等特点。The Johnson–Lindenstrauss lemma is the idea behind random projection它指出高维空间中的小的点集可以嵌入到更小的子空间中,并且以更高的概率近似保持距离。本文描述了随机投影法在流行的统计程序设计语言R中的一个实际实现,并与其他类似的实现进行了比较。随机投影方法的软件包已经上传到Comprehensive R Archive Network(CRAN)仓库中,代码已经在github上发布。RandPro软件包使用不同类型的数据进行测试,包括文本,图像和传感器数据。结果表明,RandPro软件包在相应的低维空间中保留了数据点之间的成对距离,以供进一步处理。©2020作者由爱思唯尔公司出版这是CC BY许可下的开放获取文章(http://creativecommons.org/licenses/by/4.0/)中找到。代码元数据当前代码版本0.2.2用于此代码版本的代码/存储库的永久链接https://github.com/ElsevierSoftwareX/SOFTX-D-20-00006Codeocean计算舱https://codeocean.com/capsule/5704360法律代码许可证GPL-2-使用git的代码版本控制系统软件代码语言、工具和服务使用R编译要求,操作环境依赖R Packages:caret,stats,e1071如果可用,链接到开发人员文档/手册https://cran.r-project.org/web/packages/RandPro/RandPro.pdf问题支持电子邮件r. gmail.com1. 动机和意义在现实世界中收集的大部分数据(转录数据、质谱、DNA微阵列、大型高光谱图像、时间序列数据等)是多变量数据。现有技术的应用使用多变量数据分析来从高维输入数据中提取信息一般而言,*通讯作者。电子邮件地址:gmail.com(R. Siddharth)。https://doi.org/10.1016/j.softx.2020.100629高维数据负面地影响常规多元统计方法的性能。例如,考虑使用高维质量磁共振成像(MSI)数据来对疾病进行分类的制药行业来自图像的数据科学家的重要任务是使用统计技术从高维数据中检测疾病。在分析性能时,输入数据中的维数起着至关重要的作用。更高的维度数量会对底层2352-7110/©2020作者。 由Elsevier B.V.出版。这是一篇开放获取的文章,使用CC BY许可证(http://creativecommons.org/licenses/by/4.0/)。可在ScienceDirect上获得目录列表SoftwareX期刊主页:www.elsevier.com/locate/softxR. Siddharth和G. 阿吉拉软件X 12(2020)1006292±ϵ2=分类算法由于特征集的噪声和无信息性,可能影响分类器的准确性。这些问题在统计学和机器学习中通常被称为结构简化或降维是多维数据分析的必要前提之一,目的是减少高维空间中的维数[2]。特征提取是一种广泛使用的结构简化方法,其中原始高维输入数据用较少的维度近似,仍然保持与原始数据相同的结构。它在MSI分析、文本分析、生物信息学等应用中作为重要的预处理步骤,将高维数据投影到低维空间中[3]。随机投影(RP)方法降低了通过以更高的概率近似地保持数据点之间RP方法基于Johnson-Lindenstrauss(JL)引理实现了距离保持性引理指出,当RP方法是与最突出的方法如主成分分析(PCA)[4]相比较少探索的特征提取技术之一。PCA是数据分析中非常有用的方法,其应用远远超出了降维,并且具有出色的最大方差解释。相比之下,RP方法和PCA方法都是通过将数据与投影矩阵相乘,将高维数据投影到低维空间。关键的区别在于PCA中的投影取决于输入数据,RP方法是完全随机的。这意味着PCA的投影矩阵是基于输入特征集生成的。而RP方法的投影矩阵是由独立同分布(IID)的随机值填充的,只需知道维数即可。即使投影是随机的,RP方法几乎保留了投影低维子空间中任何两个样本之间的所有成对距离,并控制了误差量尽管有许多应用,RP在以下用例中优于PCA案例1-加速高维数据分析:在PCA中选择主成分的过程是昂贵的操作。执行PCA的步骤是(i)从原始数据集计算协方差矩阵(ii)从协方差矩阵推导特征值和特征向量(iii)通过选择前“n”个主成分创建投影矩阵RP方法将高维数据投影到低维空间,由于其随机性和数据无关性,与PCA方法相比,RP方法需要较少的计算资源。与PCA相比,RP方法的过程相当简单。(一)数量;基于Johnson-Lindenstrauss引理计算投影所需的维度的BER(ii)创建填充有IID随机值的投影矩阵(iv)通过与投影矩阵相乘来投影高维输入数据。由于这种简单的计算,RP方法是最适合的应用程序,需要在高维数据分析的速度案例2-分析数据流:物联网和传感器应用程序不会一次提供所有数据。 数据必须在一定时间内更新。对于每个时间间隔,PCA必须找到相应的主成分以投影数据[6]。但在RP方法的情况下,相同的投影矩阵可以重复使用整个数据,由于其数据无关性。这使得RP方法成为分析数据流的可行选择[7]。RP方法被应用于许多应用中,如降维、维数扩展、矩阵完备和分布式估计中特征之间的隐私保护[8]。参考文献[9]讨论了基于RP的理论背景及其相关假设检验尽管RP方法在许多应用中的需求是巨大的,但由于缺乏实际实施,因此使用了被低估的术语在递归R存档网络(CRAN)存储库中,可以实现其他特征提取技术,如主成分分析(PCA),线性判别分析(LDA)[10],奇异值分解(SVD)[11]。但是,基于RP方法的特征提取的直接实现在广泛使用的统计程序设计语言R中是不可用的Python [12]和WEKA [13]的scikit-learn库中的其他实现也缺乏RP方法的一些重要功能。建议的R包的主要目标是提供RP方法的基本功能,例如:(i)使用JL引理找到投影高维数据所需的最小维数(ii)使用可用的标准分布生成投影矩阵。基于RP方法的特征提取和分类的实现已经以RandPro的名义上传到CRAN存储库中[14]。这个软件包帮助R用户执行RP方法为基础的特征提取轻松和简单的功能。拟议工作的主要贡献是识别并实现RP方法的核心功能,以减轻R新手的学习负担。内置的分类器有助于在一个功能中执行特征提取和分类。为R用户提供选项,以创建具有四种广泛使用的分布的随机矩阵。文章组织如下。第二节简要介绍RP方法及其性质,并讨论JL引理的证明。第3节提供了RandPro包中可用功能的详细描述,然后是比较图。这个图表突出了RandPro包在其他类似实现中的独特性。第4节讨论了RandPro包在不同数据集上的评估,第5节总结了文章的未来范围。2. 统计背景RP方法是一种基于投影的特征提取技术,通过将数据从高维空间投影到低维空间而不会扭曲太多的信息,用于结构简化。顾名思义,这种方法选择一个随机的低维子空间来投影高维数据[15]。 考虑具有N行和P列的输入数据矩阵DDNxP。使用P行和k列的随机矩阵RPxk将原始数据矩阵投影到k维子空间中。数据的投影表示为PNxkDNxP.RPxk.在RP方法中,算法复杂度为O(kNP)。如果矩阵是稀疏的,并且填充了c个非零条目,那么复杂度是O(ckP)。Johnson-Lindenstrauss(JL)变换是RP方法的基本准则。在随机矩阵RPxk中,k是用JL引理确定的2.1. Johnson–LindenstraussJL引理指出,原始高维空间中的小数据点集可以嵌入到任意低维空间中,使得点之间的距离几乎保持不变[16]。文献表明该引理已成功地应用于降维、压缩传感、流形学习和图嵌入[17]。引理指出,···R. Siddharth和G. 阿吉拉软件X 12(2020)1006293≥±、=• ∥− ∥克引理给定容错值0<- 1和数据点的数量N,令k是正整数,使得K24logP(1)3ϵ2− 2ϵ3则对于N的任意集合A,点∈CUP 存在一个线性映射f:nP→ nk使得对于所有xi, xj∈ A的( 1−<$ ) <$xi−xj<$2≤ <$f ( xi ) −f ( xj )<$2≤ ( 1+<$ )<$xi−xj<$2(2)符号。N:高维输入数据A:容错值,其中0<≤ 1k:投影数据所需的维数,其中k P
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM Java项目:StudentInfo 数据管理与可视化分析
- pyedgar:Python库简化EDGAR数据交互与文档下载
- Node.js环境下wfdb文件解码与实时数据处理
- phpcms v2.2企业级网站管理系统发布
- 美团饿了么优惠券推广工具-uniapp源码
- 基于红外传感器的会议室实时占用率测量系统
- DenseNet-201预训练模型:图像分类的深度学习工具箱
- Java实现和弦移调工具:Transposer-java
- phpMyFAQ 2.5.1 Beta多国语言版:技术项目源码共享平台
- Python自动化源码实现便捷自动下单功能
- Android天气预报应用:查看多城市详细天气信息
- PHPTML类:简化HTML页面创建的PHP开源工具
- Biovec在蛋白质分析中的应用:预测、结构和可视化
- EfficientNet-b0深度学习工具箱模型在MATLAB中的应用
- 2024年河北省技能大赛数字化设计开发样题解析
- 笔记本USB加湿器:便携式设计解决方案
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功