数据可视化
Chanson 张春强
2013 年 9 月 30 日
文中主要描述了数据在R语言中的处理方式,方法。
1 简介
“同样的数据给人的感觉可能会千差万别:或冰冷枯燥,让人望而生畏、百思不解其
意;或生动有趣,让人一目了然、豁然开朗。 为了达到后一种效果,我们需要采用一种特
别的方式来展示数据,来解释、分析和应用它。”
在成百上千的语言种类中,有一部分语言有原始的图型化功能, 就个人接触过的
有J语言,Matlab,R语言等。 其中R语言是是用于统计分析、计算和统计制图的优秀工具
和操作环境。 其功能包括:数据存储和处理系统;数组运算工具(其向量、 矩阵运算方面
功能尤 其强大);完整连贯的统计分析工具;优秀的统计制图功能;简便而强大的编程语
言:可操纵数据的输入和输出,可实现分支、循环,用户可自定义功能。 下面简要的描述
了R相关的数据操作功能,给大家分享。
2 R语言中的数据
什么是数据以及如何理解数据,针对R语言中可处理的数据,可以从不同的维度理解:
∙ 文本数据即ASCII格式:常见的有以逗号分隔的csv文件及同类性质的其他分隔符文
件,固定长度字符文件,XML文件;
∙ 二进制数据:如在C语言中使用write函数写入的二进制数据;
∙ 数据库文件或电子表格文件:很常见的数据库文件db,或windows下的xls,xlsx文
件;
∙ 其他统计软件使用的数据文件:SPSS,SAS等行业内专用统计分析软件使用的数
据。
∙ 其他数据:如网页数据。
当将 以上的数据源导入R中后,即成为R中待处理的数据集,它以常规的行列形式呈现。
在专业领域,“行”常常表示为观测值(observations),“列“表示变量集(variables);或者称
为记录,属性等。 同时为了便于理解,可以把数据拆分成一个个单元,无不就剩下字符和
数字。在R中把它们进一步组 合为向量,向量中的元素都有相同的数字或字符的模式mode,
由向量进而创建矩阵,及大于2维度的数组,很明显它们由向量保证了相同的模式。同时在
统计分析计算时,字符型的数据很多时候需要做适当的转换以保证计算的可行。 在R中把
它称之为“因子”,是R中的一种变量类型,并只能取有限的几个不同值。
以上是理解R中数据结构的基础。
同时由向量、 矩阵、 数组的组合,可以构成更复杂,包含多种模式的另一种数据集
――数据框data frame。 其实从以上数据源导入到R中的数据默认为data frame。 在R中真
正处理的也是这种复合的数据类型。
2.1 数据的导入
针对以上数据来源,及目前部门主要数据格式,重点介绍,csv文件、xls/xlsx文件、数
据库文件数据的导入的方法。 文中所示例的数据都是选自R中内置数据mtcars,在R中输
入?mtcars可查看帮助内容。
D e s c r i p t i o n :
The data was e x t r a ct e d from the 1974 Motor Trend US magazine , and
co m pri s es f u e l consumption %
and 10 a s p e c t s o f automobile d e s ig n and performan ce f o r 32
aut o mob i les – (197374 models ) .
Usage :
mtcars
Format :
1