常用机器学习数据集资源

需积分: 0 2 下载量 41 浏览量 更新于2024-08-04 收藏 1.06MB PPT 举报
"这份PPT介绍了一些常用的机器学习(Machine Learning, ML)数据集,包括它们的来源、目的和具体特征。" 在机器学习领域,数据集是验证和训练算法的关键资源。`Kaggle` 是一个知名的竞赛平台,提供了各种各样的数据集用于解决实际问题。`UCI Machine Learning Repository` 是另一个经典的数据集库,包含多种领域的数据。`ImageNet` 数据集主要用于计算机视觉,特别是图像分类和物体识别任务。`MNIST` 数据集是手写数字识别的经典基准,包含10个类别的70,000个样本。`Labeled Faces in the Wild` 是人脸识别的常用数据集,测试模型在自然环境下的面部识别能力。此外,还有许多其他的数据集可供选择,如果需要特定类型的数据集,可以通过搜索引擎,如谷歌,或者谷歌的数据集搜索工具来查找。 - `Iris` 数据集:由R.A. Fisher于1936年创建,目标是预测夏威夷鸢尾花的种类。该数据集包含150个实例,分为3个类别,每个样本有4个特征:花萼长度、花萼宽度、花瓣长度和花瓣宽度。这是一个经典的多分类问题数据集,常用于教学和算法验证。 - `Wine` 数据集:源自意大利的药剂和食品分析技术研究所,目的是通过13种化学成分来判断葡萄酒的产地。数据集共有178个实例,3个类别,13个特征。它常用于多分类问题的训练和评估。 - `Abalone` 数据集:来自澳大利亚塔斯马尼亚的初级产业和渔业部,目标是预测鲍鱼的年龄。数据集包含4177个实例,29个不同的年龄类别,8个特征,包括性别等。这个数据集通常用于回归分析或年龄预测问题。 这些数据集在机器学习研究和实践中扮演着重要角色,它们帮助科学家和工程师评估和改进算法的性能,并推动了机器学习技术的发展。无论是初学者还是专业人士,都能从这些广泛使用的数据集中受益。通过理解这些数据集的特点和应用场景,我们可以更好地设计和调整模型,以应对现实世界中的复杂问题。

import os import numpy as np from osgeo import gdal input_folder = 'G:/xianlinhotel/xlh632envi' output_folder = "G:/xianlinhotel/xlh_nir_rg_632envicai" target_width = 1230 target_height = 910 for filename in os.listdir(input_folder): if filename.endswith(".tif"): tif_path = os.path.join(input_folder, filename) tif_dataset = gdal.Open(tif_path) if tif_dataset is not None and tif_dataset.RasterXSize == 1280 and tif_dataset.RasterYSize == 960: data = tif_dataset.ReadAsArray() x_offset = (tif_dataset.RasterXSize - target_width) // 2 y_offset = (tif_dataset.RasterYSize - target_height) // 2 new_data = data[:, y_offset:y_offset+target_height, x_offset:x_offset+target_width] output_path = os.path.join(output_folder, filename) driver = gdal.GetDriverByName("GTiff") new_dataset = driver.Create(output_path, target_width, target_height, tif_dataset.RasterCount, tif_dataset.GetRasterBand(1).DataType) geotransform = tif_dataset.GetGeoTransform() new_geotransform = (geotransform[0] + x_offset * geotransform[1], geotransform[1], geotransform[2], geotransform[3] + y_offset * geotransform[5], geotransform[4], geotransform[5]) new_dataset.SetGeoTransform(new_geotransform) new_dataset.SetProjection(tif_dataset.GetProjection()) for i in range(1, tif_dataset.RasterCount + 1): new_dataset.GetRasterBand(i).WriteArray(new_data[i - 1]) new_dataset = None # 关闭数据集以保存文件和释放资源 print(f"Saved {filename} to {output_path}") else: print(f"{filename} has invalid size or is not a TIFF file.") tif_dataset = None # 关闭数据集以释放资源 详细解释

2023-05-30 上传