R语言大数据分析：离群点与最佳学生检测

需积分: 10 62 浏览量更新于2024-08-06 收藏 25KB DOCX 举报

"这份文档主要介绍了如何使用R语言进行大数据分析，特别是离群点检测和最佳学生识别两个案例。文档通过实际代码演示了如何利用k-means聚类算法进行DB离群点检测，并通过画图和统计方法找出异常值。此外，还提到了一个名为Best_student的例子，可能涉及到数据标准化和评分标准的应用。" 在大数据分析领域，R语言因其强大的统计分析能力和丰富的可视化工具而备受青睐。在文档中提到的第一个知识点是DB离群点检测，这是一种通过计算数据与聚类中心之间的距离来识别异常值的方法。具体步骤包括： 1. **数据读取**：首先，使用`read.csv()`函数读取数据。 2. **数据预处理**：对数据进行归一化或标准化处理，这里使用了`scale()`函数，使得数据具有可比性。 3. **k-means聚类**：设定种子（`set.seed()`)以确保结果可复现，然后用`kmeans()`函数将数据分为3类。 4. **距离计算**：分别计算每个样本到三个聚类中心的欧式距离，使用`rowSums()`和平方差计算。 5. **离群点识别**：找到每行数据中最小的欧式距离，然后通过`quantile()`函数确定95%分位数作为阈值，筛选出可能的离群点。 6. **离群点可视化**：通过`plot()`函数画出所有样本的欧氏距离，用红色标记出离群点。 7. **结果输出**：最终输出离群点对应的样本ID。第二个知识点，"Best_student"例子，虽然没有提供完整的代码，但可以推测这是关于在一组学生成绩数据中找出表现最好的学生的过程。这可能涉及到数据的矩阵化操作，计算各个指标的取值范围，以及制定评分标准。可能的步骤包括： 1. **数据转换**：将数据转换为矩阵形式，便于计算。 2. **构建评分标准**：创建一个矩阵M，其中包含了各指标的最大值和最小值，用于标准化评分。 3. **标准化得分**：根据评分标准，将学生的原始成绩转化为0-1之间的一个分数。 4. **最佳学生识别**：通过比较所有学生的标准化得分，找出总分最高的学生。这两个例子展示了R语言在大数据分析中的应用，不仅可以用于发现数据中的异常情况，还可以帮助评估和比较不同对象的表现。通过这些方法，数据分析师可以深入理解数据，发现隐藏的模式和趋势，从而做出更明智的决策。

考点：

1、DB 离群点检测

分析：利用 kmeans()分为三类，计算各样本间的欧式距离

D=(X −Xi)'( X−Xi )

，X 为

样本数据，Xi 为第 i 个聚类中心点，i=1,2,3。将得出的欧式距离数据构成一个矩阵 Dsit,

然后算出每一行中最小的距离值 y，y 是 1*n 维矩阵，最后找出 y 矩阵的分位数 0.95 的样

本值 a，最后根据 yj>a 的条件，筛选找出离群点数据 y2。

代码：

#读取数据

data=read.csv("C:\Users\kids\Desktop\consumption_data.csv")

#数据中心化

data1=scale(data[2:4])

#标记种子

set.seed(1)

#读取三列数据，将数据分为 3 类

km=kmeans(data1,center=3)

#计算各样本欧式距离

x1=matrix(km$centers[1,],nrow=940,ncol=3,byrow=T)#转化为矩阵

A=sqrt(rowSums((data1-x1)^2)) #算出欧式距离

x2=matrix(km$centers[2,],nrow=940,ncol=3,byrow=T)

B=sqrt(rowSums((data1-x2)^2))

x3=matrix(km$centers[3,],nrow=940,ncol=3,byrow=T)

C=sqrt(rowSums((data1-x3)^2))

#将得到的欧式距离数据生成一个数据框

dist=data.frame(A,B,C)

#算出欧氏距离最小值

y=apply(dist,1,min)

#找出分位数为 0.95 的样本

a=quantile(y, c(0.95))

#进行条件筛选设置，找出大于分位数为 0.95 的样本

sub=which(y>a)

#筛选正常数据

y1=y[-sub]

#找出利群数据

y2=y[sub]

#画图

plot(1:length(y),y,xlim=c(0,length(y)),xlab="样本点",ylab="欧氏距

离",col="green")

points(which(y>1.684321),y2,pch=19,col="red")#对离群点进行红色标记

#输出样本的离群点

data$Id[sub]

下载后可阅读完整内容，剩余8页未读，立即下载

Wing_House

粉丝: 0
资源: 1

R语言大数据分析：离群点与最佳学生检测

R 语言数据分析案例：探索零售数据集并进行销售分析.docx

R语言数据分析案例：从数据导入到可视化的全流程解析.docx

在R语言中进行面板数据分析.docx

R语言数据分析案例.docx

r语言数据分析案例.docx

R语言与回归分析.docx

R 语言分析糖尿病数据.docx

R语言数据分析课 r语言数据分析初级案例.docx

r语言数据分析案例1.docx

r语言数据分析案例2.docx

最新资源