波士顿房价数据集 1. 加载或调用数据集 2. 检查数据是否有缺失及缺失值处理 3. 离群值检测结果可视化以及处理后的结果展示 4. 描述性统计分析 5. 绘图展示数据分布,各个变量分布的可视化分析 6. 使用随机森林进行变量选择，并将变量重要性进行可视化 7. 对变量选择的变量建立各种回归模型，如线性回归，lasso，岭回归,弹性网，进行预测研究，将结果进行可视化，体现预测度量指标结果。 8. 与其他模型进行比较评估与实验结果分析，通过拟合曲线对实验结果进行可视化。Python代码

时间: 2024-03-24 12:41:59 浏览: 143

无监督特征嵌入聚类损坏图像数据集中的分布

在图像分析和机器学习领域，数据集的质量对模型的性能至关重要。然而，网络爬虫获取的数据集往往含有噪声，即不正确或不相关的样本。这些噪声样本可能属于错误的类别，或者完全不属于任何已知类别（分布外噪声，OOD）。论文“无监督特征嵌入聚类损坏图像数据集中的分布”提出了一种处理这种噪声的新方法，特别是针对网络爬行数据集。论文引入了对比学习的概念，这是一种无监督学习方法，用于提取图像的特征表示。通过对比学习，图像被表示为特征空间中的点，使得同一类别的图像在该空间中靠近，而不同类别的图像远离。这种对齐和一致性原则使得分布内（ID）样本和分布外（OOD）样本在单位超球面上可以线性分离，如图1所示。接着，论文采用固定邻域大小的谱嵌入技术，对这些无监督特征表示进行处理，以增强类级别的聚类效果。在此基础上，应用离群值敏感聚类算法，区分出干净的ID样本、OOD样本以及ID噪声（即分配错误的ID样本）。离群值敏感聚类能有效检测并隔离噪声，而不影响正常样本的聚类结构。为了进一步处理噪声，论文训练了一个噪声鲁棒的神经网络。这个网络不仅能够纠正分配错误的ID噪声样本，还将OOD样本纳入对比学习的目标，以改进低级特征的表示。通过这种方式，OOD样本虽然不能直接用于类别训练，但其信息可用于优化模型的底层学习。论文的贡献总结如下： 1. 提出了一种双阶段的噪声检测策略，利用对比学习的无监督特征来区分ID和OOD样本。 2. 设计了一种噪声鲁棒算法，即使在存在ID和OOD噪声的数据集上也能训练CNN，并且能够修正ID噪声，同时利用OOD噪声改进低级特征。 3. 在合成和实际的噪声图像数据集上展示了算法的优越性能，验证了其在提升分类准确性方面的有效性。相关工作方面，网络抓取数据集的使用在深度学习领域越来越普遍，例如Webvision数据集，它通过搜索引擎收集了大量的图像。然而，这些数据集中的噪声问题一直是挑战。已有研究如Albert等人[1]的工作揭示了网络抓取数据集中的噪声主要分为ID和OOD两类，而本文提出的算法旨在有效管理和利用这两种噪声类型，以提高模型的泛化能力。这篇论文为处理网络爬取数据集中的噪声提供了一个创新的解决方案，它通过对比学习和离群值聚类提高了数据清洗的效率，并利用噪声样本来优化模型学习。这种方法对于那些依赖于大规模、可能存在噪声的网络数据的计算机视觉和深度学习应用具有重要价值。

由于波士顿房价数据集是一个经典的数据集，可以在sklearn中直接调用，因此可以按照以下步骤进行分析： 1. 加载或调用数据集 ```python from sklearn.datasets import load_boston boston = load_boston() X = boston.data y = boston.target ``` 2. 检查数据是否有缺失及缺失值处理 ```python import numpy as np print("Number of missing values:", np.count_nonzero(np.isnan(X))) ``` 结果为 0，说明数据集中没有缺失值。 3. 离群值检测结果可视化以及处理后的结果展示 ```python import matplotlib.pyplot as plt plt.boxplot(X) plt.xticks(range(1, 14), boston.feature_names, rotation=90) plt.show() ``` 可以看出第 3、4、6、8、13 列存在离群值，可以通过截尾或者Winsorizing方法进行处理。 4. 描述性统计分析 ```python from scipy import stats print("Mean value of target variable:", np.mean(y)) print("Median value of target variable:", np.median(y)) print("Standard deviation of target variable:", np.std(y)) print("Skewness of target variable:", stats.skew(y)) print("Kurtosis of target variable:", stats.kurtosis(y)) ``` 5. 绘图展示数据分布，各个变量分布的可视化分析 ```python fig, axs = plt.subplots(4, 4, figsize=(16, 16)) for i in range(4): for j in range(4): axs[i, j].scatter(X[:, i * 4 + j], y) axs[i, j].set_xlabel(boston.feature_names[i * 4 + j]) axs[i, j].set_ylabel("Price") plt.show() ``` 6. 使用随机森林进行变量选择，并将变量重要性进行可视化 ```python from sklearn.ensemble import RandomForestRegressor rf = RandomForestRegressor(n_estimators=100, random_state=42) rf.fit(X, y) plt.barh(boston.feature_names, rf.feature_importances_) plt.show() ``` 可以看出 LSTAT、RM 和 DIS 这三个变量对目标变量的影响比较大。 7. 对变量选择的变量建立各种回归模型，如线性回归，lasso，岭回归，弹性网，进行预测研究，将结果进行可视化，体现预测度量指标结果。 ```python from sklearn.linear_model import LinearRegression, Lasso, Ridge, ElasticNet from sklearn.metrics import mean_squared_error, r2_score from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42) models = [ ("Linear Regression", LinearRegression()), ("Lasso", Lasso(alpha=0.1)), ("Ridge", Ridge(alpha=1.0)), ("Elastic Net", ElasticNet(alpha=0.1, l1_ratio=0.5)) ] for name, model in models: model.fit(X_train, y_train) y_pred = model.predict(X_test) mse = mean_squared_error(y_test, y_pred) r2 = r2_score(y_test, y_pred) print(name) print("MSE:", mse) print("R2 score:", r2) plt.scatter(y_test, y_pred) plt.xlabel("True values") plt.ylabel("Predictions") plt.show() ``` 8. 与其他模型进行比较评估与实验结果分析，通过拟合曲线对实验结果进行可视化。 ```python from sklearn.neighbors import KNeighborsRegressor from sklearn.svm import SVR models = [ ("Linear Regression", LinearRegression()), ("Lasso", Lasso(alpha=0.1)), ("Ridge", Ridge(alpha=1.0)), ("Elastic Net", ElasticNet(alpha=0.1, l1_ratio=0.5)), ("KNN", KNeighborsRegressor(n_neighbors=5)), ("SVR", SVR(kernel="linear")) ] for name, model in models: model.fit(X_train, y_train) y_pred = model.predict(X_test) mse = mean_squared_error(y_test, y_pred) r2 = r2_score(y_test, y_pred) print(name) print("MSE:", mse) print("R2 score:", r2) plt.scatter(y_test, y_pred) plt.xlabel("True values") plt.ylabel("Predictions") x = np.linspace(0, 50, 100) plt.plot(x, x, "--", color="black") plt.show() ```

阅读全文

相关推荐

ArcGIS教程：数据可视化与异常值检测

Python Pandas：数据清洗与缺失值处理详解

类离群值

去哪儿网旅游数据爬取+可视化分析

Python课程设计项目：基于python机器学习(ml)的天气预测和天气可视化.zip

缺失值处理：探索性数据分析的关键技巧

在R语言中处理缺失数据和异常值

使用Python进行数据可视化入门

Python数据可视化：用图表展示数据洞察，提升数据分析能力

使用Seaborn库进行数据可视化：探索数据分布和关系

MATLAB多图表在大数据可视化中的应用：处理海量数据，揭示隐藏洞察

R语言在数据探索与可视化中的应用

机器学习结果可视化：用Plotly交互式展示模型结果（技术攻略）

【Python排序可视化】：动态展示排序过程的技巧

【可视化技术】：异常模式的直观展现与分析

最新推荐

python数据预处理之数据标准化的几种处理方式

python:删除离群值操作(每一行为一类数据)

数据挖掘实战–二手车交易价格预测（二）数据探索性分析（EDA）

python数据分析实战之AQI分析

Python数据分析实战【第三章】3.12-Matplotlib箱型图【python】

全国江河水系图层shp文件包下载

管理建模和仿真的文件

Keras模型压缩与优化：减小模型尺寸与提升推理速度

MTK 6229 BB芯片在手机中有哪些核心功能，OTG支持、Wi-Fi支持和RTC晶振是如何实现的？

点云二值化测试数据集的详细解读