利用近邻法和决策树算法完成对Iris数据集的分类任务,其中近邻法需要实现剪辑近邻和压缩近邻两种优化。决策树算法需要至少实现ID3和C4.5两种;写出代码和设计思路

时间: 2024-01-22 07:18:30 浏览: 25
设计思路: 1. 数据预处理:读取数据集,将数据集分为训练集和测试集,并对数据进行归一化处理。 2. 实现剪辑近邻和压缩近邻两种优化方法,以提高KNN算法的分类准确率。 3. 实现ID3算法和C4.5算法,对数据集进行分类。 4. 对分类结果进行评估,计算分类的准确率。 代码实现: 1.数据预处理 ```python import numpy as np import pandas as pd from sklearn.model_selection import train_test_split from sklearn.preprocessing import StandardScaler # 读取数据集 data = pd.read_csv('iris.data', header=None) # 划分特征和标签 X = data.iloc[:, :-1].values y = data.iloc[:, -1].values # 划分训练集和测试集 X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0) # 归一化处理 sc = StandardScaler() X_train = sc.fit_transform(X_train) X_test = sc.transform(X_test) ``` 2.实现剪辑近邻和压缩近邻两种优化方法 ```python # 剪辑近邻 def clip_neighbors(X_train, X_test, k): y_pred = [] for i in range(len(X_test)): distances = [] for j in range(len(X_train)): distance = np.linalg.norm(X_test[i] - X_train[j]) distances.append((distance, y_train[j])) distances.sort() neighbors = distances[:k] # 剪辑近邻 for neighbor in neighbors: if neighbor[0] == 0: y_pred.append(neighbor[1]) break else: y_pred.append(max(set([neighbor[1] for neighbor in neighbors]), key=[neighbor[1] for neighbor in neighbors].count)) return np.array(y_pred) # 压缩近邻 def compress_neighbors(X_train, X_test, k): y_pred = [] for i in range(len(X_test)): distances = [] for j in range(len(X_train)): distance = np.linalg.norm(X_test[i] - X_train[j]) distances.append((distance, y_train[j])) distances.sort() # 压缩近邻 neighbors = [] for neighbor in distances: if neighbor[0] <= distances[k-1][0]: neighbors.append(neighbor) y_pred.append(max(set([neighbor[1] for neighbor in neighbors]), key=[neighbor[1] for neighbor in neighbors].count)) return np.array(y_pred) ``` 3.实现ID3算法和C4.5算法 ```python # 计算信息熵 def calc_entropy(y): labels = set(y) entropy = 0 for label in labels: p_label = y[y == label].size / y.size entropy -= p_label * np.log2(p_label) return entropy # 计算条件熵 def calc_conditional_entropy(X, y, feature): values = set(X[:, feature]) conditional_entropy = 0 for value in values: sub_y = y[X[:, feature] == value] p_value = sub_y.size / y.size conditional_entropy += p_value * calc_entropy(sub_y) return conditional_entropy # 计算信息增益 def calc_information_gain(X, y, feature): entropy = calc_entropy(y) conditional_entropy = calc_conditional_entropy(X, y, feature) information_gain = entropy - conditional_entropy return information_gain # ID3算法 def id3(X, y, features): if len(set(y)) == 1: return y[0] if len(features) == 0: return max(set(y), key=y.count) information_gains = [] for feature in features: information_gain = calc_information_gain(X, y, feature) information_gains.append(information_gain) best_feature_index = np.argmax(information_gains) best_feature = features[best_feature_index] tree = {best_feature: {}} values = set(X[:, best_feature]) for value in values: sub_X = X[X[:, best_feature] == value] sub_y = y[X[:, best_feature] == value] sub_tree = id3(sub_X, sub_y, np.delete(features, best_feature_index)) tree[best_feature][value] = sub_tree return tree # C4.5算法 def c45(X, y, features): if len(set(y)) == 1: return y[0] if len(features) == 0: return max(set(y), key=y.count) information_gains_ratio = [] for feature in features: information_gain = calc_information_gain(X, y, feature) split_info = calc_entropy(X[:, feature]) if split_info == 0: information_gains_ratio.append(information_gain) else: information_gain_ratio = information_gain / split_info information_gains_ratio.append(information_gain_ratio) best_feature_index = np.argmax(information_gains_ratio) best_feature = features[best_feature_index] tree = {best_feature: {}} values = set(X[:, best_feature]) for value in values: sub_X = X[X[:, best_feature] == value] sub_y = y[X[:, best_feature] == value] sub_tree = c45(sub_X, sub_y, np.delete(features, best_feature_index)) tree[best_feature][value] = sub_tree return tree ``` 4.对分类结果进行评估 ```python # KNN算法分类结果评估 def evaluate_knn(y_pred, y_test): accuracy = sum(y_pred == y_test) / len(y_test) return accuracy # 决策树算法分类结果评估 def evaluate_tree(tree, X_test, y_test): y_pred = [] for i in range(len(X_test)): sub_tree = tree.copy() while isinstance(sub_tree, dict): feature = list(sub_tree.keys())[0] value = X_test[i, feature] sub_tree = sub_tree[feature][value] y_pred.append(sub_tree) accuracy = sum(y_pred == y_test) / len(y_test) return accuracy # 剪辑近邻KNN算法分类结果 y_pred = clip_neighbors(X_train, X_test, 3) accuracy = evaluate_knn(y_pred, y_test) print('剪辑近邻KNN算法分类准确率:', accuracy) # 压缩近邻KNN算法分类结果 y_pred = compress_neighbors(X_train, X_test, 3) accuracy = evaluate_knn(y_pred, y_test) print('压缩近邻KNN算法分类准确率:', accuracy) # ID3算法分类结果 tree = id3(X_train, y_train, np.arange(X_train.shape[1])) accuracy = evaluate_tree(tree, X_test, y_test) print('ID3算法分类准确率:', accuracy) # C4.5算法分类结果 tree = c45(X_train, y_train, np.arange(X_train.shape[1])) accuracy = evaluate_tree(tree, X_test, y_test) print('C4.5算法分类准确率:', accuracy) ```

相关推荐

最新推荐

recommend-type

机器学习实战 - KNN(K近邻)算法PDF知识点详解 + 代码实现

邻近算法,或者说K最邻近(KNN,K-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是K个最近的邻居的意思,说的是每个样本都可以用它最接近的K个邻近值来代表。近邻算法就是将数据...
recommend-type

模式识别课件近邻法,k近邻法,k近邻法及最小错误率分析,快速搜索算法

最近邻法,k近邻法,及最小错误率分析,快速搜索算法,压缩紧邻法,基本原理,内容及应用
recommend-type

Python利用Faiss库实现ANN近邻搜索的方法详解

主要介绍了Python利用Faiss库实现ANN近邻搜索的方法,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面来一起学习学习吧
recommend-type

基于SSM+JSP的企业人事管理信息系统毕业设计(源码+录像+说明).rar

基于SSM+JSP的企业人事管理信息系统毕业设计(源码+录像+说明).rar 【项目技术】 开发语言:Java 框架:ssm+jsp 架构:B/S 数据库:mysql 【演示视频-编号:420】 https://pan.quark.cn/s/b3a97032fae7 【实现功能】 实现了员工基础数据的管理,考勤管理,福利管理,薪资管理,奖惩管理,考核管理,培训管理,招聘管理,公告管理,基础数据管理等功能。
recommend-type

node-v6.12.0-linux-ppc64le.tar.xz

Node.js,简称Node,是一个开源且跨平台的JavaScript运行时环境,它允许在浏览器外运行JavaScript代码。Node.js于2009年由Ryan Dahl创立,旨在创建高性能的Web服务器和网络应用程序。它基于Google Chrome的V8 JavaScript引擎,可以在Windows、Linux、Unix、Mac OS X等操作系统上运行。 Node.js的特点之一是事件驱动和非阻塞I/O模型,这使得它非常适合处理大量并发连接,从而在构建实时应用程序如在线游戏、聊天应用以及实时通讯服务时表现卓越。此外,Node.js使用了模块化的架构,通过npm(Node package manager,Node包管理器),社区成员可以共享和复用代码,极大地促进了Node.js生态系统的发展和扩张。 Node.js不仅用于服务器端开发。随着技术的发展,它也被用于构建工具链、开发桌面应用程序、物联网设备等。Node.js能够处理文件系统、操作数据库、处理网络请求等,因此,开发者可以用JavaScript编写全栈应用程序,这一点大大提高了开发效率和便捷性。 在实践中,许多大型企业和组织已经采用Node.js作为其Web应用程序的开发平台,如Netflix、PayPal和Walmart等。它们利用Node.js提高了应用性能,简化了开发流程,并且能更快地响应市场需求。
recommend-type

zigbee-cluster-library-specification

最新的zigbee-cluster-library-specification说明文档。
recommend-type

管理建模和仿真的文件

管理Boualem Benatallah引用此版本:布阿利姆·贝纳塔拉。管理建模和仿真。约瑟夫-傅立叶大学-格勒诺布尔第一大学,1996年。法语。NNT:电话:00345357HAL ID:电话:00345357https://theses.hal.science/tel-003453572008年12月9日提交HAL是一个多学科的开放存取档案馆,用于存放和传播科学研究论文,无论它们是否被公开。论文可以来自法国或国外的教学和研究机构,也可以来自公共或私人研究中心。L’archive ouverte pluridisciplinaire
recommend-type

实现实时数据湖架构:Kafka与Hive集成

![实现实时数据湖架构:Kafka与Hive集成](https://img-blog.csdnimg.cn/img_convert/10eb2e6972b3b6086286fc64c0b3ee41.jpeg) # 1. 实时数据湖架构概述** 实时数据湖是一种现代数据管理架构,它允许企业以低延迟的方式收集、存储和处理大量数据。与传统数据仓库不同,实时数据湖不依赖于预先定义的模式,而是采用灵活的架构,可以处理各种数据类型和格式。这种架构为企业提供了以下优势: - **实时洞察:**实时数据湖允许企业访问最新的数据,从而做出更明智的决策。 - **数据民主化:**实时数据湖使各种利益相关者都可
recommend-type

机器学习怎么将excel转为csv文件

机器学习是一种利用计算机算法和统计数据的方法来训练计算机来进行自动学习的科学,无法直接将excel文件转为csv文件。但是可以使用Python编程语言来读取Excel文件内容并将其保存为CSV文件。您可以使用Pandas库来读取Excel文件,并使用to_csv()函数将其保存为CSV格式。以下是代码示例: ```python import pandas as pd # 读取 Excel 文件 excel_data = pd.read_excel('example.xlsx') # 将数据保存为 CSV 文件 excel_data.to_csv('example.csv', index=
recommend-type

JSBSim Reference Manual

JSBSim参考手册,其中包含JSBSim简介,JSBSim配置文件xml的编写语法,编程手册以及一些应用实例等。其中有部分内容还没有写完,估计有生之年很难看到完整版了,但是内容还是很有参考价值的。