clc; close all; clear all; data0 = xlsread('C:\Users\Lenovo\Desktop\数据信噪比2.xlsx','A2:A78126'); % 读取原始数据 data = xlsread('C:\Users\Lenovo\Desktop\数据信噪比2.xlsx','B2:B78126'); % 读取原始数据 % 提取特征 X = data(:, 1); % 归一化处理 X_norm = (X - mean(X)) ./ std(X); % 计算距离矩阵 D = pdist2(X_norm, X_norm); % 设定K值 K = 8; % 计算K个邻居的距离 [~, idx] = sort(D); K_nearest = idx(2:K+1, :); K_distance = D(sub2ind(size(D), repmat(1:size(D,1), K, 1), K_nearest)); % 计算平均距离 mean_distance = mean(K_distance); % 计算离群分数 outlier_score = sum(K_distance > mean_distance, 1)'; % 设定阈值 threshold = 5; % 确定离群点 outliers = find(outlier_score > threshold); disp('离群点的行号:'); disp(outliers); % 可视化原始数据和离群点 figure; scatter(data0 ,X(:,1) ,'filled'); hold on; %scatter(,X(outliers,1) ,'r','filled'); xlabel('X'); title('Outlier Detection by KNN'); legend('原始数据', '离群点');
时间: 2024-04-21 18:27:40 浏览: 113
计算信噪比
这是一段 MATLAB 代码,它实现了基于 KNN(K-近邻)的离群点检测算法。代码的流程如下:
1. 读取原始数据,存储在变量 `data0` 和 `data` 中,其中 `data` 是需要进行离群点检测的特征数据。
2. 提取特征,将 `data` 中的第一列数据存储在变量 `X` 中。
3. 对特征进行归一化处理,使得数据的均值为0,标准差为1。
4. 计算特征之间的距离矩阵 `D`,其中 `D(i,j)` 表示第 `i` 个样本和第 `j` 个样本之间的距离。
5. 设定 K 值,计算每个样本的 K 个最近邻的距离和索引,并将距离存储在 `K_distance` 中,索引存储在 `K_nearest` 中。
6. 计算每个样本的平均距离 `mean_distance`。
7. 根据 `mean_distance`,计算每个样本的离群分数 `outlier_score`,其中 `outlier_score(i)` 表示第 `i` 个样本的离群分数。
8. 设定阈值 `threshold`,确定离群点的范围。
9. 找到离群点的行号,存储在变量 `outliers` 中。
10. 将原始数据和离群点可视化。
这段代码的主要目的是检测数据集中的异常值,根据 KNN 算法的思想,将每个样本的离群分数计算出来,进而确定哪些样本是离群点。
阅读全文