没有合适的资源?快使用搜索试试~ 我知道了~
软件影响4(2020)100017原始软件出版物generateData-一个2D数据生成器Nuno Fachada a,b,NunoFachadaa,b,Agostinho C.罗莎baHEI-Lab-数字人与环境交互实验室,葡萄牙里斯本Lusófona大学b葡萄牙里斯本里斯本大学高级技术学院LARSyS系统和机器人研究所A R T I C L E I N F O保留字:数据生成2D聚类A B标准generateData是用于生成2D数据簇的MATLAB/Octave函数。数据沿直线创建,根据选定的输入参数,这些直线可以或多或少平行该功能还允许对生成的数据进行微调,包括聚类数、总数据点、平均聚类间隔和其他几个分布属性。代码元数据当前代码版本v2.0.0用于此代码版本的代码/存储库的永久链接https://github.com/SoftwareImpacts/SIMPAC-2020-14法律代码许可证MIT许可证使用Git的代码版本控制系统使用MATLAB/GNU Octave的软件代码语言、工具和服务编译要求、操作环境依赖性MATLAB≥R2011a或GNU Octave ≥ 4.0.0如果可用,链接到开发人员文档/手册https://github.com/fakenmc/generateData/blob/v2.0.0/README.md技术支持邮箱nuno. ulusofona.pt1. 介绍每天都会产生大量的数据,这给数据的存储和处理带来了许多挑战[1然而,仍然有许多情况下,对于预期目的,数据不足和/或昂贵-因此使合成数据生成成为一种有吸引力的替代方案[4一个这样的例子是用于评估聚类算法的数据生成[8,9]。在本文中,我们讨论了生成数据的影响,一个MAT-LAB [10]和GNU Octave [11]函数用于生成2D数据,主要用于测试聚类算法。第2节概述了数据生成算法的工作原理以及一些输出示例。generateData的影响见第3节。这项工作的局限性以及潜在的改进是在第4节中讨论。2. 描述generateData是用于生成2D数据簇的MATLAB/Octave函数。该功能允许微调几个特性通过表1和表2中分别总结的一些必需和可选参数,对生成的数据进行分析。在任何情况下,数据都是沿着直线创建的。这些线相对于纵轴的精确角度是从正态分布中得出的。该分布的平均值和标准差对应于表1中的参数angleMean和angleStd。后者影响支持数据的线的平行程度。标准差为零时,会产生完全平行的线,而较高的值会使线方向逐渐随机化。反过来,线长度从折叠正态分布中绘制,平均值和标准差分别作为参数lengthMean和lengthStd。在直线周围放置点的方法如下。一是线上每个点的投影从可选参数pointDist中指定的分布获得。默认值为均匀分布,即,点投影沿着线均匀地放置。 使用正态分布,线中心被用作平均值,线长度对应于3个标准差-因此,有一个小的机会投影被放置在线之外。在确定点投影之后,使用双变量正态分布将点放置在其投影周围(2D放置,通讯作者:HEI-Lab-Digital Human-Environment Interaction Lab,Lusófona University,Lisbon,Portugal.电子邮件地址:nuno. ulusofona.pt(N. Fachada),acrosa@laseeb.org(A.C.Rosa)。https://doi.org/10.1016/j.simpa.2020.100017接收日期:2020年5月8日;接收日期:2020年5月13日;接受日期:2020年5月21日2665-9638/©2020作者。由Elsevier B.V.出版。这是一篇开放获取的文章,使用CC BY许可证(http://creativecommons.org/licenses/by/4.0/)。可在ScienceDirect上获得目录列表软件影响杂志首页:www.journals.elsevier.com/software-impactsN. Fachada和A.C.罗莎软件影响4(2020)1000172表1所需参数。参数描述angleMean聚类所在直线的平均角度(以弧度为单位)基于. 角度是从正态分布中得出的angleStd线角度的标准偏差。numClusts要生成的聚类数(因此也是线数)。xClustAvgSep沿X轴的线中心的平均间隔。yClustAvgSep沿Y轴的线中心的平均间隔。lengthMean聚类所基于的线的平均长度线从折叠正态分布中得出长度lengthStd线长度的标准偏差。lateralStd聚类“肥胖”,即,的标准偏差从每个点到它在直线上的投影的距离。获得该距离的方式由可选pointOffset参数。totalPoints生成的数据中的总点数。这些将随机使用半法线在聚类之间划分单位标准差分布。默认值),或在垂直于原始行的第二行上,使用正态分布(1D布局)。在任何一种情况下,用作平均值,而标准差由lateralStd参数。放置的类型(1D或2D)由可选的pointOffset参数定义。图1显示了使用generateData创建的四个数据集,参数见表3。3. 影响generateData脚本最初是为了测试AMVIDC聚类算法而创建的[12]。该算法使用最小体积增加和最小方向变化的聚类准则,并受到启发后,与主成分分析(PCA)处理光谱数据的典型布局。更具体地说,发现光谱数据的PCA得分图显示出分散在不同的组中,优先方向,形成低体积集群。generate-Data脚本被设计为生成这种类型的数据,缺乏实际的实验数据,因此可以更好地调整和 测试AMVIDC算法。在参考文献[13]中,Zamberletti等人“调查了湿地景观中个体湿地在维持两栖动物种群中的作用”。湿地景观-Zamberletti等人使用generateData创建随机网络用于运行种群动态模型。该脚本适用于此问题,因为它允许定义确定性拓扑网络参数(例如,簇的数量),同时通过其随机参数添加一些随机变化(例如,平均簇分离)。表3用于图 1 所 示 示 例 的参数。1.一、参数图图 1(a)图 1(b)图 1(c)1 (d)种子rng()1111 1111 123 123角度平均值scin4 −scin2scin2scin2���������角度标准16100������numClusts5 6 4 4xClustAvg 9月10日15 2 2yClustAvgSep10 15 2 2长度平均值12 15 4 4长度标准4 10 1 1横向标准120。十个1总积分8002500 2500 2500pointDist为了评估D3CAS,一种用于处理数据流的动态和面向大数据的聚类算法,Molina&Hasperué [14,15]使用generateData创建数据集,100000个点,足以满足其测试要求。Eddulatif等人。[16-数据分析生成数据集的目的是在许多不同的情况下评估几种聚类算法的分布式和隐私保护版本。在参考文献[19]中,Hao等人提出了一种视频摘要方法,该方法包括生成短视频摘要,同时保持原始视频的整体含义这种方法奏效了通过将具有自动估计的聚类数的稀疏子空间聚类应用于关键帧中的对象的深度特征。 generateData用于生成用于测试准确性的合成数据估计聚类数的方法Olukanmi等人。[20,21]使用generateData来组装具有100万个数据点的sce- narios,目的是评估所提出的x-means-lite和x-means-lite ++聚类算法。非精简版的高度可扩展版本。4. 局限性和可能的改进generateData的主要缺点显然是局限于2D。尽管如此,如何生成数据的基本思想可扩展到具有多个参数(如角度平均值/标准)的三维���轴的偏差和平均间隔作为矢量而不是标量给出。另一个潜在的限制是,该函数只适用于MATLAB或GNU Octave环境。前是一个专有的产品,许多研究人员可能无法访问,而后者是一个有价值的开源,在很大程度上兼容的替代品。然而,Python、R和Julia等语言在科学计算社区中越来越受欢迎[22,23]。 作为因此,我们的目标之一是将generateData移植到这些语言中,让更多的人能看到它表2可选命名参数。名称默认描述allowEmptyfalse允许空集群吗?pointDist使用正态分布(线中心是平均值,线长度等于3个标准差)。pointOffset使用以它们的交点为中心的正态分布在或者,(2)以点投影为中心的分布。N. Fachada和A.C.罗莎软件影响4(2020)1000173图1.一、在MATLAB中使用各种参数使用generateData创建的数据集示例。每个图的参数如表3所示。allowEmpty参数始终设置为false。竞合利益作者声明,他们没有已知的竞争性财务利益或个人关系,可能会影响本文报告的工作致谢资 金 : 这 项 工 作 得 到 了 Fundação para a Ciência e Tecnologia(FCT),葡萄牙赠款UIDB/05380/2020(HEI-Lab)的支持;和LARSyS引用[1]A. L'Heureux,K. Grolinger,H.F. Elyamany,M. A.M. Capretz,大数据机器学习:挑战和方法,IEEEAccess5(2017)7776http://dx.doi.org/10.1109/ACCESS.2017.2696365[2]M. Younas , 大 数 据 的 研 究 挑 战 , SOCA13 ( 2 ) ( 2019 )105http://dx.doi.org/10.1007/s11761-019-00265-x[3]W. Ejaz,A. Anpalagan,物联网中大数据分析的降维,在:智能城市的物联网:技术,大数据和安全性,Springer,2019,pp.31http://dx.doi.org/10.1007/978-3-319-95037-2_3[4] J. Tremblay,A.普拉卡什角Acuna,M. Brophy,V. Jampani,C. Anil,T. To,E.Cameracci,S. Boochoon,S. Birchfield,用合成数据训练深度网络:通过域随机化弥合现实差距,在:IEEE计算机视觉和模式识别研讨会会议论文集,2018年,pp. 969http://dx.doi.org/10.1109/CVPRW.2018.00143[5] A. 卡尔,A.Prakash,M.Y. Liu,E.Cameracci ,J. Yuan ,M. Rusiniak,D.阿库纳,A.托拉尔巴角Fidler,Meta-Sim:学习生成合成数据集,在:IEEE计算机视觉国际会议论文集,2019年,第103页。4551http://dx.doi.org/10.1109/ICCV.2019.00465[6]A.阿纳比-塔沃尔湾Carmeli,E. Goldbraich,A. Kantor,G. Kour,S. Shlomov,N.Tepper,N. Zwerdling,数据不够?深度学习拯救世界!2019年,arXiv预印本arXiv:1911.03118。https://arxiv.org/abs/1911.03118网站。[7] J.李湖,加-地邱湾,澳-地Tang,D. Chen,中国粘蝇D. Zhao河,巴西-地颜,数据不足也能摇滚!学习使用增强的较小数据进行对话,在:Proceedings of 第33届AAAI 人 工 智 能 会 议 , 见 : AAAI-19 , 第 33 卷 , 2019 年 ,pp.6698http://dx.doi.org/10.1609/aaai.v33i01.33016698[8]Y. Pei,O. Zaïane,用于聚类和离群值分析的合成数据生成器,Tech。代表:(TR 06 -15)阿尔伯塔大学,2006年,http://dx.doi.org/10.7939/R3 B23 S。[9]M. Zaït,H. Messatfa,聚类方法的比较研究,Future Gener。Comput. 13(2)(1997)149-http://dx.doi.org/10.1016/S0167-[10] MATLAB R2020a,MathWorks,Natick,Massachusetts,USA,2020,https://www. mathworks.com/products/matlab.html网站。[11] J.W. Eaton,D. Bateman,S.豪贝格河Wehbring,GNU Octave版本5.2.0手册:用于数值计算的高级交互式语言,2020,https://www.gnu.org/software/octave/doc/v5.2.0/。[12] N. Fachada,M.A.T. Figueiredo,V.V. Lopes,R.C. 马丁斯,AC。 Rosa,用最小体积增加和最小方向变化聚类标准对酵母菌株进行光谱鉴别,模式识别。Lett. 45(2014)55http://dx.doi.org/10.1016/j.patrec.2014.03.008[13] P. Zamberletti,M. Zaffaroni,F. Accatino,I.F.克里德角De Michele,湿地之间的连通性对湿地景观中脆弱的两栖动物种群至关重要,生态模型。384(2018)119http://dx.doi.org/10.1016/j.ecolmodel.2018。05.008,http://www.sciencedirect.com/science/article/pii/S0304380018301686。N. Fachada和A.C.罗莎软件影响4(2020)1000174[14] R. Molina,Estudio e implementación de una técnica de clustering dinámico paratrabajar con flujos de datos,拉普拉塔国立大学,拉普拉塔,阿根廷,2018,http://sedici.unlp.edu.ar/handle/10915/82400.[15] R. Molina , W. Hasperué , D3CAS : un Algoritmo de Clustering para el Proce-samiento de Flujos de Datos en Spark,in:XXIV Congreso Muslimtino de Cienciasde la Computación,in:CACIC '18,2018,pp. 452http://sedici.unlp.edu.ar/[16] A. 云 计 算 中 的 隐 私 保 护 数 据 分 析 ( Ph.D. thesis ) , RMIT University ,Melbourne,Australia,2018,https://researchbank.rmit.edu.au/view/rmit:162567.[17] A.阿杜拉蒂夫岛哈利勒,X。Yi,M. Guizani,智能医疗监控框架的安全边缘,IEEE Access 7(2019)31010//dx.doi.org/10.1109/ACCESS.2019.2899323网站。[18] A.阿杜拉蒂夫岛哈利勒,X。Yi,Towards secure big data analysis for cloud-enabled applications with fully homomorphic encryption , J.Parallel Distrib.Comput.137(2020)192http://www.sciencedirect.com/science/article/pii/S0743731519300887http://dx.doi.org/10.1016/j.jpdc.2019.10.008[19] P. Hao,E. Manhando,T.叶角,澳-地Bai,基于稀疏子空间聚类的视频摘要,自动 估 计 聚 类 数 量 , 在 : ACM Multimedia Asia 会 议 记 录 中 , 在 :MMAsiahttp://dx.doi.org/10.1145/3338533.3366593[20] P. Olukanmi,F. Nelwamondo,T. Marwala,Rethinking,《大规模数据集时代的数 据 聚 类 : 一 种 恒 定 时 间 方 法 》 , 神 经 网 络 。 ���Comput. ( 2019 )1http://dx.doi.org/10.1007/s00521-019-04673-0[21] P. Olukanmi,F. Nelwamondo,T. Marwala,Means-Lite++:采样和播种的综合优势,在:2019年第6届软计算机器智能国际会议,在:ISCMI'19,2019,第10页。223http://dx.doi.org/10.1109/ISCMI47871.2019.9004300[22] 维尔塔宁河Gommers,T. E. Oliphant,M. Haberland,T. Reddy,D. 库纳波,E. Burovski,P. Peterson,W. Weckesser,J.Bright等,SciPy 1.0:Python中科学计算的基本算法,NatureMethods17 (3)(2020 )261http://dx.doi.org/10.1038/s41592-019-0686-2[23] S.K. Popuri,M.K. Gobbert,Matlab的比较评估,Octave,R, 茱莉亚在玛雅科技部代表:(HPCF-2017-3)自然和数学科学的UMBC学院,UMBC教师集合,2017年,http://hdl.handle.net/11603/11302。
下载后可阅读完整内容,剩余1页未读,立即下载
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://profile-avatar.csdnimg.cn/default.jpg!1)
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
我的内容管理 收起
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助
![](https://csdnimg.cn/release/wenkucmsfe/public/img/voice.245cc511.png)
会员权益专享
最新资源
- 基于单片机的瓦斯监控系统硬件设计.doc
- 基于单片机的流量检测系统的设计_机电一体化毕业设计.doc
- 基于单片机的继电器设计.doc
- 基于单片机的湿度计设计.doc
- 基于单片机的流量控制系统设计.doc
- 基于单片机的火灾自动报警系统毕业设计.docx
- 基于单片机的铁路道口报警系统设计毕业设计.doc
- 基于单片机的铁路道口报警研究与设计.doc
- 基于单片机的流水灯设计.doc
- 基于单片机的时钟系统设计.doc
- 基于单片机的录音器的设计.doc
- 基于单片机的万能铣床设计设计.doc
- 基于单片机的简易安防声光报警器设计.doc
- 基于单片机的脉搏测量器设计.doc
- 基于单片机的家用防盗报警系统设计.doc
- 基于单片机的简易电子钟设计.doc
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
![](https://img-home.csdnimg.cn/images/20220527035711.png)
![](https://img-home.csdnimg.cn/images/20220527035711.png)
![](https://img-home.csdnimg.cn/images/20220527035111.png)
安全验证
文档复制为VIP权益,开通VIP直接复制
![](https://csdnimg.cn/release/wenkucmsfe/public/img/green-success.6a4acb44.png)