没有合适的资源?快使用搜索试试~ 我知道了~
首页用商业案例学R语言数据挖掘-学习笔记.pdf
商业智能时代已经全面到来,分析型人才的岗位数量在就业市场中呈现井喷式增长。无论是从事产品研发的工程师,还是从事产品推广的市场人员、人力资源和财务会计人员,都需要掌握数据分析技术,否则很有可能被人工智能替代。 本书包括 18 章,涉及使用 R 语言做数据分析和数据挖掘的主要分析方法。其中,第 1、 2 章为数据分析方法概述,第 3 章为 R 语言编程基础,第 4 章到第 8 章为统计学习方法,第 9 章到第 16 章为数据挖掘方法,第 17 章为特征工程,第 18 章为 R 文本挖掘。每章都根据所涉及的知识点的不同,选取了实用的案例,并为读者准备了相应的练习题。 本书作为 CDA 数据分析师系列丛书中《如虎添翼!数据处理的 SPSS 和 SAS EG 实现(第 2 版)》和《胸有成竹!数据分析的 SPSS 和 SAS EG 进阶(第 2 版)》的姊妹篇,将前两本书的内容进行整合并做了重大拓展,而且秉承了该系列丛书的特点:内容精练、重点突出、示例丰富、语言通俗。可以作为广大从业人员自学商业数据分析的读物,适合大中专院校师生学习和阅读,同时也可以作为高等院校商科、社会科学及相关培训机构的教材
资源详情
资源评论
资源推荐

1
R
语言练习题
—— 《用商业案例学
R
语言数据挖掘》
一、编程基础(第 3 章)
1、R 中的基本数据类型(23—24 页)
(1)R 中的基本数据类型包括哪几种?
(2)判断某一数据是否为 numeric。
(3)转换 numeric 数据为 character。
2、向量(24—27 页)
(1)构造 2 个长度相同的一维向量,并进行加减乘除运算。
(2)构造 2 个长度不同的一维向量,并进行加减乘除运算。
(3)产生从 1 到 4 的整数序列。
(4)产生从 1 到 10,步长为 2 的等差数列。
(5)产生 1 个重复值序列。
(6)构建一个向量,并查找其中某一位置上的数据。
(7)构建一个向量,查找非 1 号位上的数据。
(8)构建一个数值型向量,查找其中所有大于 1 的元素。
3、矩阵(27—29 页)
(1)创建一个长为 2,宽为 3 的矩阵,命名为 m1。
(2)创建一个长为 3,宽为 3 的矩阵,按行填充数据,命名为 m2。
(3)求 m1 的转置矩阵。
(4)求 m2 的逆矩阵。
(5)求 m2 的特征值和特征向量。
(6)查找 m1 或 m2 中的元素。
4、数组(29—30 页)
(1)创建一个包含 2 个三行三列元素的数组。
(2)查找数组中的元素。
5、因子(30—31 页)
(1)创建一个向量,包含元素为“bad”、“good”、“good”、“excellent”,然后将其转化为因
子型数据,命名为 f1,并检查 f1 的数据类型。
(2)对 f1 中的因子进行排序,顺序为“excellent”、“good”、“bad”。
6、列表(31—33 页)
(1)构建一个列表 h1,包含 4 种不同类型的数据(数字型、字符型、矩阵、因子)。
作者:稀饭
联系 QQ:2798485733

2
(2)对列表的索引进行命名。
(3)检索列表中的数据(通过下标 + 通过命名后的索引)。
7、数据框(33—34 页)
(1)构建一个包含姓名、年龄和数学成绩的 4 行 3 列的数据框,命名为 d1。
(2)检索该数据框中的元素。
8、R 中的程序控制(34—41 页)
(1)R 中的编程结构有哪几种?
(2)利用顺承结构,打印一个三维数字型向量中的 3 个元素的平方。
(3)利用循环结构,打印一个三维数字型向量中的 3 个元素的平方。
(4)利用分支结构,判断一个给定的数值型数据 a 和 0 之间的关系,并输出判断结果。
(5)构建一个列表,用 lapply 和 sapply 函数对其进行循环(求平均值)。
(6)构建一个矩阵,用 apply 函数对其进行循环(求均值,从列和行 2 个方向)。
(7)构建一个待处理向量及用于其分组的对应向量,然后用 tapply 函数对其循环求均值。
(8)利用 split 函数对上述构造出来的向量按其对应向量的分组关系进行切割。
9、R 中的日期与时间数据类型(42—43 页)
(1)将 1970-05-02 转换为日期类型对象。
(2)计算 1970-05-02 到 1970-01-01 的日期天数。
(3)获取当前的时间,并将当前的时间转换为 R 的时间类型。
(4)构建 2 组时间,并计算这 2 组时间之间的距离。
10、在 R 中读写数据(43—47 页)
(1)在 R 中读取各类型数据。
(2)在 R 中写入各类型数据。
二、描述统计分析与基础绘图(第 4 章)
1、描述性统计分析(51—60 页)
(1)求 iris 数据集第 1 列的均值。
(2)求 iris 数据集第 2 列的中位数。
(3)求 iris 数据集第 3 列的四分位数。
(4)求 iris 数据集第 4 列的极差。
(5)求 iris 数据集第 4 列的方差与标准差。
(6)查看 iris 数据集的前 6 行数据和最后 6 行数据。
(7)利用 summary 和 str 函数分析 iris 数据集。
(8)利用 table 函数分析 iris 数据集第 5 列。
(9)安装 fBasics 包,然后计算 iris 数据集第 1 列的偏度系数。

3
(10)计算 iris 数据集第 2 列的峰度系数。
(11)利用 tapply 函数分析 iris 数据集第 4 组的均值,分类方式选择 iris 数据集的第 5 组。
2、基础绘图
(1)绘制 iris 数据集第 3 列和第 4 列的散点图,类型使用“l”、“b”、“p”、“h”。
(2)绘制 iris 数据集第 5 列的饼图,将 iris 数据集第 5 列的 3 类分别命名为“类型 1”、“类
型 2”、“类型 3”,并加上主标题为“分类”,副标题为“iris”。
(3)绘制 iris 数据集第 3 列的直方图。x 轴的标题为“横轴”,y 轴的标题为“纵轴”,指定
分箱数量为 5。
(4)绘制 iris 数据集第 2 列的箱线图,颜色选择“orange”,要求标识异常值,箱子的长度
指定为 0.5。
三、数据整合与清洗(第 5 章)
1、写出 SQL 语句功能所对应的关键字(81 页)
(1)数据定义 (2)数据查询 (3)数据操控 (4)数据控制
2、加载“sqldf”包,并进行下列 SQL 语句处理(82—85 页)
(1)选择 iris 中的字段(第 2 列 + 第 4 列)
(2)选择 iris 中第 5 列并删去重复值
(3)筛选出 iris 中类型(任意一类)数据
(4)筛选出 iris 中 2、3、5 列数据,并按 5 排序。
3、选出 iris 中的第 4 列,命名为 i1,并进行下列操作(85—86 页)
(1)展示数据前六行 (2)去除重复值
4、选出 iris 中 11—15 行和 4—5 列的数据(87 页)
5、选出 iris 中类型为 iris Setosa 且花萼长度(Sepal.Length)>5(第 1 列)的数据(88 页)
6、选出 iris 第 11—20 行的数据,并按照 Sepal.Length 进行升序排列和降序排列(89 页)
7、选出 iris 第 1—10 行的数据,先按 Sepal.Length 再按 Sepal.width(宽度,第 2 列)降序
排列(89 页)
8、选出 iris 中第 1 列命名为 n1,第 2 列命名为 n2,并进行下列操作(90—91 页):
(1)利用 SQL 语句拼接 n1 和 n2
(2)利用 rbind 拼接 n1 和 n2
(3)利用 SQL 语句拼接 n1 和 n2,要求保留重复的行
9、选出 iris 中第 1—3 行命名为 m1,第 2—4 行命名为 m2,并进行下列操作(93—95 页):
(1)使用 SQL 语句进行笛卡尔积连接
(2)使用 SQL 进行内连接(inner.join / where)
(3)使用 merge 或者 dplyr 包中的 inner-join 进行内连接,公共字段为“Sepal.Length”
(4)使用 merge 或者 dplyr 包中的 left-join 进行左连接
剩余10页未读,继续阅读















安全验证
文档复制为VIP权益,开通VIP直接复制

评论0