CAinterprTools:解释对应分析的R软件包

111 浏览量更新于2024-01-27 收藏 951KB PDF 举报

在线获取

版本控制系统

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

⃝可在www.sciencedirect.com上在线获取ScienceDirectSoftwareX 1原始软件出版物www.elsevier.com/locate/softxCAinterprTools：一个R软件包，帮助解释对应分析詹马尔科·阿尔贝蒂经典和考古学系，考古农舍，马耳他大学，停车场6，Msida，MSD 2080，马耳他接收日期：2015年6月11日;接收日期：2015年7月16日;接受日期：2015年7月16日摘要对应分析（CA）是一种统计探索技术，经常用于许多研究领域，以图形方式可视化列联表的结构。许多程序，无论是商业的还是免费的，都可以执行CA，但还没有一个程序提供对结果解释的视觉帮助。“CAinterprTools”软件包旨在用于免费的R统计环境，旨在填补这一空白。新到中等R用户被视为目标。15个命令使用户能够轻松获得有助于解释CA结果的图表该包还实现了一些测试，以评估输入表的总惯性和各个维度的重要性2015作者由Elsevier B.V.发布。这是CC BY许可下的开放获取文章（http：//creativecommons.org/licenses/by/4. 0/）。关键词：对应分析;列联表;解释; R;包代码元数据表当前代码版本v0.4永久链接到代码/存储库使用此代码版本https://github.com/ElsevierSoftwareX/SOFTX-D-15-00027法律代码许可证GPLv2使用git的代码版本控制系统软w是使用R（>=3）的代码语言、工具和服务。1 .一、第一章依赖项ca、FactoMineR、InPosition、Hmisc如果可用，链接到开发人员文档/手册https://github.com/gianmarcoalberti/CAinterprTools，http://cainarchaeology.weebly.com/cainterprtools-r-package.html技术支持电子邮件：gianmarcoalberti@tin.itgianmarco. um.edu.mt1. 介绍列联表的使用在许多研究领域都很普遍。考古学家、政治学家、社会学家、生物学家、语言学家（仅举几例）使用列联表总结标称数据。他们还需要统计工具分析交叉表格，例如，为了检测和测量之间关联模式的强度，电子邮件地址：gianmarco. um.edu.mt，gianmarcoalberti@tin.it。名义变量许多统计方法用于这些目的，包括假设检验[1]、对数回归[2]和对数线性建模[3]。除了这些方法外，对应分析（以下简称CA）是一种探索性的统计技术，经常应用于列联表。尽管在20世纪80年代之前，CA在法国以外的地区的普及速度缓慢[4]，但它现在广泛用于考古学[5，6]，海洋生物学[7]，古生物学[8]，市场研究[9]，食物偏好分析[10]，文本分析[11]，犯罪研究[12]和其他研究[13，14]。http://dx.doi.org/10.1016/j.softx.2015.07.0012352-7110/ 2015作者。出版社：Else vier B.V. 这是CC BY许可下的开放获取文章（http：//creat iv commons. o r g/license s/by/4. 0/）。G. Alberti / SoftwareX 127参考现有文献的力学，计算和基本逻辑[4，14-它通过分解总惯性（即，可变性），并且隔离能够捕获数据可变性的最小数量的维度。CA返回一个散点图，其中行和/或列表示为低维空间序列中的点。这些空间保持总惯性的递减量，其中第一维捕获最高量，而第二维将捕获第二大比例，依此类推。行到行）与行具有相似轮廓的程度有关（即，列类别的相对频率）。这同样适用于列到列的距离。点彼此越接近，它们的轮廓就越相似。轴的原点表示质心（即，平均轮廓），并且可以被认为是轮廓之间没有差异的地方。后者的差异越大，轮廓点在远离质心的平面上的分布就越多。至于不同类型的点之间的相对距离（即，行到列），它告诉分析师一些关于组成表格的类别之间的“对应关系”。换句话说，行点越接近列点，则越大（即，离平均值越远）是行简档上该列类别的比例。2. 动机和意义任何统计软件，无论是商业的（例如， Minitab 、STATISTCA、JMP、XLSTAT、EQUIPAT）或免费软件（例如，PAST）[17]，执行CA。这同样适用于最近为R统计编程环境提供的许多包[18]，例如CA在R中的实现也在Greenacre的[ 15 ]以及Beh和Lombardo的[ 14 ]书中描述使用现有的设施，很容易获得的主要输出研究人员感兴趣的，即散点图表示行和/或列点投影在用户选择的子空间。然而，必须注意的是，为了解释CA散点图并对数据结构有一个用户必须查阅屏幕上以表格形式报告的大量统计数据[4，15]。此外，用户必须在这些原始统计数据的基础上从头开始执行一些计算。参考文献[14，15]，作为CA输出的使用和解释指南，我仅举几个例子。理解CA结果最重要的步骤之一是决定有多少维度可以被认为是重要的解释。分析师面临着需要在通过保持许多维度而产生的增加的解释数据变异性与增加的解释数据变异性之间进行权衡。复杂性使得对两个以上维度的解释变得困难。最常用的规则之一是所谓的“平均规则”[ 21 ]：分析师应该保留解释大于平均惯性（以百分比表示）的所有维度，后者等于100除以表的维度（即，行或列的数量为了应用这个规则，用户必须计算表格的维数，用100除以后者，然后查找表格，报告CA维数解释的惯性，并找出哪个维数大于该值。在另一个例子中，用户必须了解哪些行/列类别对给定维度的定义有主要贡献。如果有兴趣发现哪些行类别实际上对维度的定义有贡献，比如1和3，用户必须用行数除以100，检查列出类别对这些特定维度的贡献的表，并跟踪对这些特定维度的惯性的贡献大于设计数字的行类别。这些示例旨在介绍CAinterprTools包的重要性，其目的是双重的。一方面，它提供了有助于解释CA结果（并且与解释CA结果相关）的图表，使用户无需检查和仔细检查表格CA输出，以及查找需要进一步计算的这并不意味着其他程序提供的数值输出没有用。我只是坚持认为，CA解释的视觉辅助可能更容易，更省时，而用户可以随时返回到数字输出，如果他们需要的话。另一方面，该软件包还实现了三个功能，这些功能提供了对总惯性和由各个维度解释的惯性的显著性进行一些假设检验的工具。对于后者，使用了两种不同的方法，一种是Greenacre [15]描述的置换检验，另一种是基于卡方的Malin-vaud值得注意的是，这三个函数，以及包中实现的其他函数，据我所知，还没有从任何统计工具包中获得，无论是免费的还是商业的。最后但并非最不重要的是，该软件包是免费提供的，可以很容易地下载和安装在免费的R统计编程环境中，如下一段所述。3. 软件描述和示例CAinterprTools包可从GitHub存储库中获得。它可以通过几个步骤下载并安装到R中：(1) 安装install.packages（(2) 加载软件包：库（devtools）(3) 通过'devtools's命令从GitHub下载安装github（安装后，可以通过以下方式加载软件包：库（CAinterprTools）。28G. Alberti / SoftwareX 1Fig. 1. (A)由维度1和2定义的子空间的对应分析散点图（数据来自表1）。(B)由三个CA维度解释的惯性条形图，以及指示阈值的参考线，高于该阈值的维度对于CA解释是重要的（C）根据Malinvaud检验报告三个CA维度的统计学显著性的图表该软件包依赖于“ca”、“FactoMineR”、“In-Position”和“Hmisc”（安装CAinterprTools时默认安装和加载），并具有15个命令，其用法在帮助文档和附带的网站（http：//cainarchaeology.weebly 。 com/cinterprtools-r-package.html）。该软件包还附带了Greenacre手册[ 15 ]之后的样本数据集值得强调的是，在设计和实现包的命令时，将新到中等R用户视为目标。因此，它已决定保持命令尽可能简单和简短，无论是在命令通过说明性示例提供了对该封装的特征的描述它考虑了Greenacre [15]首先设计的（虚构的）小数据集，涉及对一家公司的193名员工（分为高级经理，初级经理，高级员工，初级员工，秘书）的吸烟习惯（无，轻度，中度，重度）的调查（表1）。该数据集的选择是为了增强所描述的包的结果与文献和商业程序的可比性事实上，正如Greenacre所指出的，该数据集已被用作许多软件中CA虽然在大型列联表中使用CA是可取的，但为了说明的目的，使用这个相当小的前两个CA维度的散点图见图10。凌晨1在下文中，假设数据集已经作为名为smoke的对象被馈送到R中。虽然由每个维度解释的惯性百分比在散点图中报告，但软件包除了直观地表示由所有CA尺寸引起的总惯性的减少量之外，参考线指示阈值，根据表1样本数据集：一家虚构公司的员工与他们的吸烟习惯交叉列表。没有一光介质重高级管理人员423211初级管理人员437418高级雇员251012451初级员工1824331388秘书106722561456225193这就是所谓的平均法则。该图显示，第一个维度占了惯性的大部分，并且远高于平均规则阈值。用户可能对总惯性的重要性以及尺寸的重要性感兴趣。为此目的，执行了三项职能。命令 malinvaud（ smoke ）在R 控制台中返回一个表和一个图表（图1C），其中每个维度的重要性可以很容易地发现。请读者参考已经提供的文献，一旦前 k 个维度被选择，Malinvaud检验就检查剩余维度的显著性。在这个例子中，三个维度中没有一个在alpha 0.05时是显著的。对于基于置换的测试，命令 sig.tot.inertia.perm（smoke）返回置换总惯性的频率曲线（基于999个模拟表）（图2A）。两条参考线，一条代表观察到的总惯性（ 0.0852 ），一条代表置换总惯性的第 95 百分位数（0.10945，在这种情况下，检验产生非显著性结果，表明不能拒绝行和列之间独立性的假设。这个命令可以用来代替传统的卡方检验，卡方检验指向相同的方向（卡方：16.441，df：12，p：0.171）。一个基于排列的测试（使用999模拟表）是plemented测试的任何一对维度的显着性G. Alberti / SoftwareX 129图二. (A)基于999个模拟表的置换总惯性的密度曲线;还报告了观察到的总惯性和置换总惯性的第95百分位数。(B)1维和2维的排列惯性（基于999模拟表）相互绘制;参考线表示观察到的惯性和排列惯性的第95百分位数;还报告了观察到的惯性的显著性。图3.第三章。柱类别对尺寸1（A）和2（B）定义的贡献;空心点表示对总惯性的贡献（C）列类别对维度1和维度2的贡献的散点图命令sig.dim.perm（smoke，1，2）返回图2B中的散点图，其中1维和2维的置换惯性相互绘制。同样，代表观察到的和置换尺寸的惯性的参考线后者也在轴的标签中报告在该示例中，两个维度在α 0.05时均不显著，维度1和2的p值分别为0.053和0.709。至于CA散点图的解释，由于用户可能有兴趣了解公司成员之间在吸烟习惯方面的相似性行类别）在由后者定义的子空间中（即，列类别）。因此，用户可能希望知道哪种吸烟习惯实际上定义了前两个CA 维度。命令.cntr（smoke，1，T）和.cntr（smoke，2，T）返回图3参考线有助于确定哪些习惯对维度的确定有重要贡献。此外，参数T使得能够在同一图表中显示吸烟习惯对总惯性的贡献（空心点）。"无“吸烟习惯对第一维度的定义有贡献（它也是总惯性的主要贡献者），而”轻“和”重“类别对第二维度的定义有重要贡献。如果想要在同一个图表中耦合上述信息，则命令“scatter.cntr.scatter（smoke，1，2）”返回图3C中的散点图，其中对维度1和维度2的贡献相互绘制可以很容易地看到，不同的吸烟习惯实际上有助于确定这两个维度。根据这些资料，回顾CA散点图，很容易解释尺寸。第一个，这是由非吸烟者决定的，实际上占了数据惯性的大部分。此外，它是反对非吸烟者吸烟，30G. Alberti / SoftwareX 1见图4。(A)行类别与维度1的相关性。(B)行类别与维度1和维度2相关性的散点图。(C)由维度1和维度2定义的子空间上的行类别的显示质量（占总惯性的百分比）。类别，这意味着大多数数据的可变性是由于吸烟者和不吸烟者的区别第二个维度，正如所看到的那样，是由轻度吸烟者和重度吸烟者定义的，是将前者与后者相对立的。在解释了由吸烟习惯类别定义的CA空间之后，下一步将是了解哪个工作人员类别与哪个维度相关联，并最终与哪些吸烟习惯相关联。这一步可以通过两个命令实现：rows.corr（smoke，1 ），它直观地报告行类别与维度 1 的相关性;rows.corr.scatter（smoke，1，2），它显示与维度图1和图2（图4A-B很容易看到，高级雇员，以及在较小程度上，局长，与维度1的高度相关性。这意味着他们当中有相对较多的非吸烟者。初级和高级管理人员与维度2（具体而言，与其负极）的相关性最高（相对而言），这意味着他们中有相对更多的重度吸烟者。初级管理人员类别与第1个维度（具体而言，与其正极）也有很高的相关性，这意味着吸烟者相对于不吸烟者的比例较高（如图所示，由同一维度的负极表示）。这同样适用于初级员工。用户应该意识到，并非所有的点都可以很好地显示在所选的维度中。要评估显示的质量（根据所选尺寸捕获的总惯性的百分比），可以使用命令rows.qlt（smoke，1，2）。可以看出（图4C），说明性示例中的所有行类别都很好地显示在由维度1和2定义的平面上;只有高级经理类别具有相对较差但仍然非常高的显示质量。最后，值得记住的是，远（在尺寸解释、与尺寸的相关性和显示质量方面）也可以从列类别的角度完成。每个描述的命令都有对应的列。4. 影响和结论从前面的描述中可以看出，CAinterprTools软件包并不是为了追求新的研究问题而设计的相反，它的理由和动机在于为用户提供一系列设施，使用户能够获得对理解结果至关重要的CA统计数据事实上，视觉检查所描述的图表比在数值列之间来回移动更容易，更耗时，而还需要强调的是，用于计算某些重要性值的命令在这方面，置换测试，以及Malinvaud的测试，提供的包可能证明是有用的，值得注意的是，没有实现其他地方至今鉴于CA在许多研究领域的广泛使用，并考虑到R在开始时并不那么用户友好，并且具有陡峭的学习曲线，该软件包很可能会在广泛的领域中安装的容易性和使用的简单性可以确保CA用户和R爱好者的积极接受。我已经得到了一些，但令人鼓舞的，关于这样的接待反馈。确认我感谢匿名的审稿人对早期版本的手稿的评论。我决定建立所描述的软件包是在共同监督杰西卡·斯皮特里小姐在马耳他大学（古典与考古学系;主管：尼古拉斯·维拉博士）的考古学硕士论文时形成的。我意识到，使对应分析G. Alberti / SoftwareX 131对学生和更广泛的受众的需求都很有用。我想感谢马耳他大学，在我知道开放获取费用被免除之前很久，他们就热衷于支付出版费用。我也借此机会感谢所有的学生和学者，他们为我提供了关于我的R脚本，包和函数的反馈，直接或间接地与CA的使用有关按字母顺序排列：Eric Beh教授、C Delgado、Josh Harlen、Joshua T Hogue、SnehaKoneru 、 Sebastian Kriesch 、 Carl Lipo 教授、 RosariaLombardo教授、Yonas Yohannes。他们的友好姿态得到了高度赞赏。引用[1] 雷诺公司分析标称数据。北京：清华大学出版社，1977.[2] 艾莉森警局使用sas系统的逻辑回归：理论与方法应用程序. Cary：Wiley-Blackwell;2001.[3] 埃斯蒂·A 分类数据分析。第3版Hoboken：Wiley; 2012.[4] 克劳森公司应用对应分析。在：介绍。萨奇大学社会科学定量应用系列论文。千橡：Sage;1998年。[5] Bolvik en E，Helskog E，Helskog K，Holm-Olsen IM，Solheim L，Bertelsen R.对应分析：主成分的替代方法。《世界考古学》1982年;14：41[6] 阿尔贝蒂湾考古学中列联表的意义：对应分析对遗址内活动区域研究的帮助。J Data Sci 2013;11：479-99.[9] 本尼迪克特·M利用卡方树分析与对应分析进行构图知觉映射。JMark Manag1995;11：571-81.[10] Beh EJ，Lombardo R，Simonetti B.用两种对应分析法研究欧洲人对食物的看法。食品质量偏好2011;22：226-31。[11] Blanco Abellan M. 第十八届微积分教科书世纪欧洲：比较文体分析。J Data Sci 2007;5：597-612.[12] 哈考特BE. 枪的语言：青年，犯罪和公共政策。芝加哥-伦敦：芝加哥大学出版社，2006年。[13] Blasius J，Greenacre M.分类数据的可视化。圣地亚哥-伦敦：学术出版社，1998年。[14] 隆巴尔多河·贝赫·埃杰对应分析：理论、实践与新策略。Chichester：Wiley;2014.[15] 格林阿克湾实践中的对应分析。第2版。博卡拉顿-伦敦-纽约：查普曼&霍尔/CRC-Taylor& Francis集团; 2007年。[16] WellerSC，Romney AK. 公制换算。在：对应分析。NewburyPark-London-New Delhi：SAGE; 1990.[17] 汉默，哈珀DAT，瑞安警察。过去：古生物统计软件包用于教育和数据分析。古电子2001;4：1-9.[18] IhakaR，Gentelman RR. 一种用于数据分析和绘图的语言J Comput Graph Stat1996;5：299-314.[19] Nenadic O，Greenacre M. R中的对应分析，具有二维和三维图形：ca包。统计软件杂志2007;20：1-13.[20] 放大图片作者：J. FactoMineR：一个用于多变量分析的R包。统计软件杂志2008;25：1[21] Lorenzo-Se va U.对应分析中维数选择的霍恩平行分析法。MethodolEur J Res MethodsBeha v Soc Sci2011;7：96-102.[7]AmbrosoS，GoriA，Dominguez-Carrio'C，Gili JM，BerganzoE，[22]第二十二话可能的话，分析那些不可能的和不可能的。版本：EditionsTeixid o'N，etal. 地中海西北部克雷乌斯角软珊瑚al cyoniumacaule和alcyonium palmatum的空间分布格局Mar Biol2013;160：3059-70.[8]FreudenthalM，Mart'ın-Sua' rezE，GallardoJA，DarocaAG，Minwer-巴拉卡特河对应分析在古生物学中的应用。C R Palevol2009;8：1-8.Technip;2006年。[23] Camiz S，Gomes GC.联合对应分析与多重对应分析：一种解决方案到一个未检测问题.In：Giusti A，editor.分类和数据挖掘研究分类，数据分析和知识组织。Berlin-Heidelber g：Springer; 2013.p. 11比8

下载后可阅读完整内容，剩余1页未读，立即下载