【跨lattice与ggplot2】：两大R绘图系统比较，选哪个更优？

发布时间: 2024-11-07 04:08:28 阅读量: 45 订阅数: 47

ggplot2：数据分析与图形艺术

中译本序, 每当我们看到一个新的软件，第一反应会是：为什么又要发明一个新软件？ggplot2是R世界里相对还比较年轻的一个包，在它之前，官方R已经有自己的基础图形系统（graphics包）和网格图形系统（grid包），并且Deepayan Sarkar也开发了lattice包，看起来R的世界对图形的支持已经足够强大了。那么我们不禁要问，为什么还要发明一套新的系统？, 设计理念, 打个比方，想想我们小时候怎样学中文的。最开始的时候我们要识字，不认识字就没法阅读和写作，但我们并不是一直按照一个个汉字学习的，而是通过句子和具体的场景故事学习的。为什么不在小学时背六年字典呢？那样可能认识所有的汉字。原因很简单，光有单字，我们不会说话，也无法阅读和写作。缺的是什么？答案是对文字的组织能力，或者说语法。, R的基础图形系统基本上是一个“纸笔模型”，即：一块画布摆在面前，你可以在这里画几个点，在那里画几条线，指哪儿画哪儿。后来lattice包的出现稍微改善了这种情况，你可以说，我要画散点图或直方图，并且按照某个分类变量给图中的元素上色，此时数据才在画图中扮演了一定的中心角色，我们不用去想具体这个点要用什么颜色（颜色会根据变量自动生成）。然而，lattice继承了R语言的一个糟糕特征，就是参数设置铺天盖地，足以让人窒息，光是一份xyplot()函数的帮助文档，恐怕就够我们消磨一天时间了，更重要的是，lattice仍然面向特定的统计图形，像基础图形系统一样，有直方图、箱线图、条形图等等，它没有一套可以让数据分析者说话的语法。, 那么数据分析者是怎样说话的呢？他们从来不会说这条线用#FE09BE颜色，那个点用三角形状，他们只会说，把图中的线用数据中的职业类型变量上色，或图中点的形状对应性别变量。有时候他们画了一幅散点图，但马上他们发现这幅图太拥挤，最好是能具体看一下里面不同收入阶层的特征，所以他们会说，把这幅图拆成七幅小图，每幅图对应一个收入阶层。然后发现散点图的趋势不明显，最好加上回归直线，看看回归模型反映的趋势是什么，或者发现图中离群点太多，最好做一下对数变换，减少大数值对图形的主导性。, 从始至终，数据分析者都在数据层面上思考问题，而不是拿着水彩笔和调色板在那里一笔一划作图，而计算机程序员则倾向于画点画线。Leland Wilkinson的著作在理论上改善了这种状况，他提出了一套图形语法，让我们在考虑如何构建一幅图形的时候不再陷在具体的图形元素里面，而是把图形拆分为一些互相独立并且可以自由组合的成分。这套语法提出来之后他自己也做了一套软件，但显然这套软件没有被广泛采用；幸运的是，Hadley Wickham在R语言中把这套想法巧妙地实现了。, 为了说明这种语法的想法，我们考虑图形中的一个成分：坐标系。常见的坐标系有两种：笛卡尔坐标系和极坐标系。在语法中，它们属于一个成分，可自由拆卸替换。笛卡尔坐标系下的条形图实际上可以对应极坐标系下的饼图，因为条形图的高可以对应饼图的角度，本质上没什么区别。因此在ggplot2中，从一幅条形图过渡到饼图，只需要加极少量的代码，把坐标系换一下就可以了。如果我们用纸笔模型，则可以想象，这完全是不同的两幅图，一幅图里面要画的是矩形，另一幅图要画扇形。, 更多的细节在本书中会介绍，这里我们只是简略说明用语法画图对用纸笔画图来说在思维上的优越性；前者是说话，后者是说字。, 发展历程, ggplot2是Hadley在爱荷华州立大学博士期间的作品，也是他博士论文的主题之一，实际上ggplot2还有个前身ggplot，但后来废弃了，某种程度上这也是Hadley写软件的特征，熟悉他的人就知道这不是他第一个“2”版本的包了（还有reshape2）。带2的包和原来的包在语法上会有很大的改动，基本上不兼容。尽管如此，他的R代码风格在R社区可谓独树一帜，尤其是他的代码结构很好，可读性很高，ggplot2是R代码抽象的一个杰作。读者若感兴趣，可以在GitHub网站上浏览他的包：https://github.com/hadley。在用法方面，ggplot2也开创了一种奇特而绝妙的语法，那就是加号：一幅图形从背后的设计来说，是若干图形语法的叠加，从外在的代码来看，也是若干R对象的相加。这一点精妙尽管只是ggplot2系统的很小一部分，但我个人认为没有任何程序语言可比拟，它对作为泛型函数的加号的扩展只能用两个字形容：绝了。, 至2013年2月26日，ggplot2的邮件列表（http://groups.google.com/group/ggplot2 ）订阅成员已达3394人，邮件总数为15185封，已经成为一个丰富、活跃的用户社区。未来ggplot2的发展也将越来越依赖于用户的贡献，这也是很多开源软件最终的走向。, 关于版本更新, 原书面世之时，ggplot2的版本号是0.8.3，译者开始翻译此书时是0.9.0版本；该版本较之0.8.3，内部做了一些大改动。此后，ggplot2频繁升级，目前版本号是0.9.3，当然这也给本书的翻译过程带来了相当大的麻烦。因为译者不但要修正原书中大量过时的代码、重新画图，还要修正过时的理念，以及处理数次版本更新的影响。所幸，在翻译过程中，译者得到了本书审校殷腾飞博士、ggplot2开发者Hadley Wickham和Wistong Chang的大力帮助。, 如果你是老用户，那么可能需要阅读下面的小节。之后ggplot2有过多次更新，尤其是0.9.0之后，ggplot2的绘图速度和帮助文档有了质的飞跃。关于0.9的更新，读者可以从https://github.com/downloads/hadley/ggplot2/guide-col.pdf下载一份细致的说明文档，但原文档比较长，而且有些内部更新问题我们也不一定需要了解，因此这里给一段概述。, ggplot2的帮助文档大大扩充了，过去头疼的问题之一就是一个函数里面不知道有哪些可能的参数，例如theme()函数，现在已经有了详细说明。, 新增图例向导函数guide_legend()和guide_colorbar()，前者可以用来指导图例的排版，例如可以安排图例中元素排为n行m列；后者增强了连续变量图例的展示，例如当我们把颜色映射到一个连续变量上时，过去生成的图例是离散的，现在可以用这个函数生成连续颜色的图例（渐变色）。, 新增几何对象函数geom_map()（让地图语法变得更简单），geom_raster()（更高效的geom_tile()），geom_dotplot()（一维点图，展示变量密度分布）和geom_violin()（小提琴，实为密度曲线）。, 新增统计变换函数stat_summary2d()（在二维网格上计算数据密度），stat_summary_hex()（在六边形“蜂巢”上计算数据密度），stat_bindot()（一维点图密度），stat_ydensity()（密度曲线，用于小提琴图）。, facet_grid()支持X轴和Y轴其中一者可以有自由的刻度（根据数据范围而定），以往要么所有切片使用同样的坐标轴刻度，要么所有都自由。, geom_boxplot()开始支持画箱线图的凹槽（notch），就像R基础图形系统中的boxplot()函数。, 新增函数ggmissing()用来展示缺失值的分布，ggorder()按照数据观察顺序先后画折线图，ggstructure()展示数据热图。, 另外这次更新涉及到一些函数参数名称的变化，如果旧代码在这个版本中报错说有未使用的参数，那么用户需要再次查看帮助文档，确保输入的参数在函数中存在。在所有这些表面的更新背后，实际上ggplot2很大程度上被重写了，例如开始使用R自带的S3泛型函数设计，以及将过去ggplot2的功能继续模块化为一些独立的包，一个典型的例子就是标度部分的功能被抽象到scales包中，从数据映射到颜色、大小等外观属性可以由这个包直接完成。这种分拆也使得其他开发者可使用过去ggplot2内部的一些功能函数。, 0.9.1版本主要解决了0.9.0版本中的一些漏洞。ggplot2在2012年9月4日发布了新的版本0.9.2，其中一些特性和更新有必要提及：, 采用了全新的主题（theme）系统，opts()函数已被标记为“不推荐使用”（deprecated），将在未来版本中被取消，取而代之的是theme()函数，主题元素（theme element）由属性列表构成，支持继承，主题之间可以直接进行合并等操作。详情参见wiki页面：https://github.com/wch/ggplot2/wiki/New-theme-system 。, 依赖于新的gtable包。用来更方便地调整修改ggplot2图形中的图元，ggplotGrob()会返回一个gtable类，这个对象可以利用gtable包中提供的函数和接口进行操作。, 所有“模板”类型的图形函数，比如plotmatrix()，ggorder()等等，已被标记为“不推荐使用”（deprecated），将在未来版本中取消。, 在本书出版之际，ggplot2更新到了版本0.9.3，修复了0.9.2的一些漏洞，其主要更新包括, 不再支持plotmatrix()函数。, geom_polygon()提速，比如世界地图的绘制快了12倍左右。, 新增部分主题，比如theme_minimal()，theme_classic()。, 本书的所有代码和图片都是针对新版本0.9.3的，在内容方面也根据版本更新对原文做了适当的增删填补，以满足读者的需求。, 本书把影响正文阅读的彩图集中放在附录后面，读者可以随时翻阅。, 致谢, 在听说我们翻译完这本书之后，本书原著Hadley很高兴，给我们发邮件说：, I am excited and honoured to have my book translated to Chinese. ggplot2 has become far more popular than I ever imagined, and I'm excited that this translation will allow many more people to learn ggplot2. I'm very grateful that Yihui and his team of translators (Nan Xiao, Tao Gao, Yixuan Qiu, Weicheng Zhu, Taiyun Wei and Lanfeng Pan) made this possible., One of the biggest improvements to ggplot2 since the book was first written is the ggplot2 mailing list. This is a very friendly environment where you can get help with your visualisations, and improve your own knowledge of ggplot2 by helping others solve their problems. I'd strongly encourage you to join the mailing list, even if you think your English is not very good -- we are very friendly people., 我们感谢这本书的译者，包括邱怡轩（第1~2章）、主伟呈（第3~4章）、肖楠（第5~6章）、高涛（第7~8章）、潘岚锋（第9章）、魏太云（第10章、附录以及翻译过程的协调安排和全书的LaTeX排版工作）。所有译者均来自于统计之都（http://cos.name ）。, 爱荷华州立大学的殷腾飞博士、中国人民大学统计学院的孟生旺教授、浙江大学的张政同学通读了译稿，提出了很多有用的建议，殷腾飞博士还提供了大多数新版本中的解决方案，并担任本书的审校。肖凯老师和余光创博士分别对第1~4章、第8~10章以及附录提出了很多修改意见，此外，中国人民大学的陈妍、李晓矛、谢漫锜三位同学、中国再保险公司的李皞先生、百度公司的韩帅先生、eBay公司的陈丽云女士、Mango Solutions公司的李舰先生、京东商城的刘思喆先生、首钢总公司的邓一硕先生、新华社的陈堰平先生在此书的翻译过程中也曾提过不少宝贵的建议，在此一并表示感谢。, 为了更好地服务社区，我们还建立了翻译主页：https://github.com/cosname/ggplot2-translation ，读者可以在这里得到最新的勘误和书中的代码，也可以随时提出任何问题。, 谢益辉, 2013年2月26日

![lattice](https://media.springernature.com/lw1200/springer-static/image/art%3A10.1007%2Fs10659-023-10011-2/MediaObjects/10659_2023_10011_Fig1_HTML.png) # 1. R语言与数据可视化简介 ## 1.1 数据可视化的重要性数据可视化是数据科学中的一个重要领域，它通过图形化的手段，帮助人们更有效地理解、分析和探索数据。R语言作为数据分析与可视化的利器，已经广泛应用于统计分析、金融分析、生物信息学等众多领域。数据可视化的核心价值在于，它能够将数据中的模式、趋势和异常情况以直观的方式呈现给用户。 ## 1.2 R语言及其发展背景 R语言是一种开源的统计编程语言，它在数据处理、统计分析、图形表示等多个方面都有卓越表现。自1997年由Ross Ihaka和Robert Gentleman开发以来，R语言凭借其灵活性、强大的包生态系统以及社区支持，在科研和商业领域获得了极高的认可。它丰富的图形和统计功能，使得R语言成为数据可视化的首选工具之一。 ## 1.3 R语言中数据可视化的常见系统 R语言提供了多种数据可视化系统，其中最著名的包括基础绘图系统、lattice包和ggplot2包。基础绘图系统适合快速简单的图形创建；lattice包则专注于创建多变量数据的分面图形；而ggplot2，基于“图形语法”概念，是目前最流行、最强大的绘图系统，特别适合创建复杂且具有定制外观的图形。接下来的章节将详细介绍lattice和ggplot2绘图系统的使用方法和高级应用。 # 2. lattice绘图系统 ## 2.1 lattice的基本概念 ### 2.1.1 lattice的设计理念 lattice是一个基于R语言的高级绘图系统，它设计的初衷是为了在数据可视化中解决复杂的统计图形绘制问题。与基础图形系统和其他高级绘图系统（如ggplot2）相比，lattice强调以简洁、规范的方式展示多变量数据。它将图形的构造分解成多个独立的组件，每个组件负责一部分绘图任务，从而达到简化用户绘图过程的目的。设计理念中一个核心要素是“图形公式”(formula)，通过这种公式化语言，用户可以简单明了地指定数据与图形属性之间的关系。这不仅使得绘图更加直观，也极大地提高了绘图效率。此外，lattice的设计理念还强调图形的布局和页面安排，允许用户在一幅图中展示多个子图，以适应不同复杂度的数据探索需求。 ### 2.1.2 lattice的主要功能与特点 lattice的主要特点在于其对图形的分组和条件绘图功能。这些功能允许用户根据数据集中的分类变量轻松地创建多个图形的组合，有助于在单个页面上快速比较不同条件下的数据表现。例如，研究者可能需要比较不同年份或不同地区的情况，lattice能够快速生成这样的分组图形。 lattice系统的另一个强大之处在于它的高度模块化。通过使用trellis图形，用户可以很容易地将图形分割为多个区域，每个区域显示不同的数据子集。这样，复杂的数据关系可以被分解并呈现得更加清晰。另外，该系统还支持复杂的图形自定义，包括颜色、符号、线条类型以及图例等各个方面的详细调整，使得最终的图形更加符合出版和报告的标准。 ## 2.2 lattice绘图实战 ### 2.2.1 创建基本图形在R语言中使用lattice包创建基本图形非常直接。首先需要加载lattice包，然后使用`xyplot()`, `bwplot()`等函数创建图形。例如，创建一个点图（scatter plot），展示变量x和y之间的关系，可以使用以下代码： ```R library(lattice) # 假设我们有一个数据框df，包含变量x和y xyplot(y ~ x, data = df) ``` 上述代码会生成一个简单的点图，x轴代表变量x，y轴代表变量y。这只是一个起点，lattice系统真正的强大之处在于其对数据分组和条件绘图的支持。 ### 2.2.2 自定义图形外观在lattice中自定义图形外观是一个相对简单的过程，主要包括调整颜色、符号、图例等属性。下面的例子展示如何修改颜色和符号： ```R # 使用不同的颜色和符号 xyplot(y ~ x, data = df, pch = 16, col = 'red') ``` 此处`pch`参数指定了点的形状，而`col`参数指定了点的颜色。通过简单的参数更改，可以对图形的外观进行大量自定义。 ### 2.2.3 分组和条件绘图 lattice的一个非常有用的特性是条件绘图，通过它可以方便地观察不同组的数据是如何分布的。以下是一个分组绘图的示例代码： ```R # 假设我们有一个分组变量group xyplot(y ~ x | group, data = df, layout = c(2, 1)) ``` 在上述代码中，`|`符号后面跟着分组变量`group`，这告诉lattice系统要按照`group`变量的每个水平来分组数据，并为每个水平生成一个子图。`layout`参数则定义了子图的排列方式，在本例中为2行1列的布局。 ## 2.3 lattice的高级应用 ### 2.3.1 多变量绘图技巧 lattice允许用户在一个图形中展示多变量关系。举个例子，假设我们要展示x和y之间的关系，并根据第三个变量z进行颜色上的区分，可以这样做： ```R # 使用颜色区分第三个变量z xyplot(y ~ x, data = df, group = z, auto.key = TRUE) ``` 此处`group`参数允许我们根据变量z的值来对数据点进行颜色上的区分，而`auto.key`参数则自动为图形添加一个图例，以解释颜色的含义。 ### 2.3.2 lattice图形的布局和整合 lattice提供了一些工具来帮助用户控制图形的布局，如`panel`函数可以用于自定义每个子图的内容。此外，用户还可以使用`par.settings`来统一改变图形的全局设置。这里展示一个如何整合多个图形的例子： ```R # 设置全局的图形参数 trellis.par.set(superpose.symbol = list(col = c("blue", "red"))) # 绘制两个图形，使用相同的数据集但不同的公式 doublePlot <- xyplot(y1 ~ x, data = df1, main = "First Plot") + xyplot(y2 ~ x, data = df2, main = "Second Plot") print(doublePlot) ``` 在上述代码中，我们首先设置了图形的整体参数，然后创建了两个图形并将它们并排放置。通过这些高级技巧，用户可以灵活地创建复杂的图形展示。 ### 2.3.3 lattice图形的交互式探索虽然lattice本身不提供交互式图形的直接支持，但可以通过R的其他包如`latticeExtra`或`iplots`等扩展包来实现一定程度的交互性。通过交互式探索，用户可以对图形进行缩放、高亮数据点等操作，从而更深入地理解数据。例如，如果想增强图形的交互性，可以使用`latticeExtra`包中的`panel献点`功能： ```R # 加载latticeExtra包以增加交互性 library(latticeExtra) # 创建一个增强交互性的图形 xyplot(y ~ x, data = df, type = "p") + panel献点() ``` 这样，在R的图形窗口中，用户就可以对点图进行缩放和点的详细探索。需要注意的是，这种交互性在某些图形界面环境中更为有效，如在RStudio中。通过本章节的介绍，我们对lattice绘图系统有了一个由浅入深的认识。在下一章节中，我们将探索另一个强大的绘图系统ggplot2，并通过实战案例进一步了解其独特之处。 # 3. ggplot2绘图系统 ggplot2是R语言中最流行的数据可视化工具之一，以其强大的绘图能力、灵活的图层系统和简洁的语法著称。它是由Hadley Wickham开发，基于"Grammer of Graphics"理论，通过构建图形的各个组成部分来生成数据的可视化图形。 ## 3.1 ggplot2的基本概念 ### 3.1.1 ggplot2的设计原则 ggplot2的设计哲学是提供一种语法（Grammar

最低0.47元/天解锁专栏

买1年送3月

点击查看下一篇

百万级高质量VIP文章无限畅学

千万级优质资源任意下载

C知道免费提问 ( 生成式Al产品 )

【跨lattice与ggplot2】：两大R绘图系统比较，选哪个更优？

相关推荐

专栏目录

专栏目录

【跨lattice与ggplot2】：两大R绘图系统比较，选哪个更优？

相关推荐

R语言基础与ggplot2绘图

20. R_ggplot2_调整坐标轴显示范围、标签、测度方法汇总.pdf

R语言跨平台图形解决方案：Cairo包的兼容性详解

45分钟搞定R语言之数据库交互及统计绘图

R语言数据库交互与统计绘图快速指南

R语言快速学习：数据库交互与统计图表绘制指南

【R语言图表输出与分享】：高质量图表制作与分享的最佳实践

【R语言ggthemes包秘籍】：数据美化的7大技巧与实战案例

多目标优化实战：R语言solnp包理论与应用深度剖析

专栏目录

最新推荐

KeeLoq算法与物联网安全：打造坚不可摧的连接（实用型、紧迫型）

彻底分析Unity性能： Mathf.Abs() 函数的优化潜力与实战案例

PCI Geomatica新手入门：一步步带你走向安装成功

【FANUC机器人集成自动化生产线】：案例研究，一步到位

深入DEWESoftV7.0高级技巧

【OS单站监控要点】：确保服务质量与客户满意度的铁律

【MTK工程模式进阶指南】：专家教你如何进行系统调试与性能监控

【上位机网络通信】：精通TCP_IP与串口通信，确保数据传输无懈可击

i386环境下的内存管理：高效与安全的内存操作，让你的程序更稳定

【芯片封装与信号传输】：封装技术影响的深度解析

专栏目录