掌握Max-Min聚类算法:机器学习中的经典解法

版权申诉
0 下载量 172 浏览量 更新于2024-10-24 收藏 3.56MB RAR 举报
资源摘要信息:"max-min算法是一种在数据挖掘和机器学习领域中常用的聚类算法。它主要用于数据集的分类和聚类,通过比较数据集中的数据点,找出数据集中的最大值和最小值,然后将数据点分为两类,一类是最大值,一类是最小值。这种算法的优点是简单易懂,计算速度快,适用于大规模的数据集。但是,它也有缺点,比如可能会忽略数据集中的其他重要信息,因此在实际应用中需要结合其他算法进行改进。" Max-min算法的基本原理是在一个数据集的所有的数据点中,找出最大值和最小值,然后将其他的点与这两个值进行比较,按照与最大值或最小值的距离,将数据点分为两类。这种方法在处理大规模数据集时非常有效,因为它只需要计算一次最大值和最小值,就可以完成整个数据集的分类。 在机器学习领域,max-min算法主要用于聚类分析。聚类是一种无监督学习方法,旨在将相似的对象组合在一起,使同一组内的对象之间的相似度最大化,而与其他组的对象的相似度最小化。Max-min算法就是根据这个原则,将数据点分为最大值和最小值两类,以此来实现聚类。 Max-min算法的优点主要有以下几点: 1. 算法简单易懂:Max-min算法的核心思想非常简单,只需要找出数据集中的最大值和最小值,然后进行比较分类,因此非常容易理解和实现。 2. 计算速度快:由于只需要计算一次最大值和最小值,然后再进行一次比较分类,所以计算速度非常快,特别适合处理大规模数据集。 3. 适用于大规模数据集:由于其计算速度快,因此非常适合处理大规模的数据集。 然而,max-min算法也有其局限性,主要有以下几点: 1. 可能会忽略数据集中的其他重要信息:由于max-min算法只根据最大值和最小值进行分类,可能会忽略数据集中的其他重要信息,比如数据集中的其他值的分布情况。 2. 只能进行二分类:Max-min算法只能将数据集分为最大值和最小值两类,无法处理更复杂的分类问题。 3. 对异常值敏感:由于max-min算法依赖于最大值和最小值,因此对异常值非常敏感。如果数据集中存在异常值,可能会影响分类结果。 总的来说,max-min算法是一种非常有效的聚类算法,特别是在处理大规模数据集时。但是,由于其局限性,我们在实际应用中需要结合其他算法进行改进,以提高分类的准确性和效果。

import deap import random from deap import base, creator, tools, algorithms import numpy as np import pandas as pd # 参数 stations = 30 start_end_stations = [1, 2, 5, 8, 10, 14, 17, 18, 21, 22, 25, 26, 27, 30] min_interval = 108 min_stopping_time = 20 max_stopping_time = 120 passengers_per_train = 1860 min_small_loop_stations = 3 max_small_loop_stations = 24 average_boarding_time = 0.04 # 使用 ExcelFile ,通过将 xls 或者 xlsx 路径传入,生成一个实例 stations_kilo1 = pd.read_excel(r'D:\桌面\附件2:区间运行时间(1).xlsx', sheet_name="Sheet1") stations_kilo2 = pd.read_excel(r'D:\桌面\附件3:OD客流数据(1).xlsx', sheet_name="Sheet1") stations_kilo3 = pd.read_excel(r'D:\桌面\附件4:断面客流数据.xlsx', sheet_name="Sheet1") print(stations_kilo1) print(stations_kilo2) print(stations_kilo3) # 适应度函数 def fitness_function(individual): big_loop_trains, small_loop_trains, small_loop_start, small_loop_end = individual small_loop_length = small_loop_end - small_loop_start if small_loop_length < min_small_loop_stations or small_loop_length > max_small_loop_stations: return 1e9, cost = (big_loop_trains + small_loop_trains) * (stations - 1) * min_interval + average_boarding_time * passengers_per_train * (big_loop_trains + small_loop_trains) return cost, # 创建适应度和个体类 creator.create("FitnessMin", base.Fitness, weights=(-1.0,)) creator.create("Individual", list, fitness=creator.FitnessMin) # 注册初始化函数 toolbox = base.Toolbox() toolbox.register("big_loop_trains", random.randint, 1, 10) toolbox.register("small_loop_trains", random.randint, 1, 10) toolbox.register("small_loop_start", random.choice, start_end_stations) toolbox.register("small_loop_end", random.choice, start_end_stations) toolbox.register("individual", tools.initCycle, creator.Individual, (toolbox.big_loop_trains, toolbox.small_loop_trains, toolbox.small_loop_start, toolbox.small_loop_end), n=1) toolbox.register("population", tools.initRepeat, list, toolbox.individual) # 注册遗传算法操作 toolbox.register("mate", tools.cxTwoPoint) toolbox.register("mutate", tools.mutUniformInt, low=[1, 1, min(start_end_stations), min(start_end_stations)], up=[10, 10, max(start_end_stations), max(start_end_stations)], indpb=0.5) toolbox.register("select", tools.selBest) toolbox.register("evaluate", fitness_function) # 设置遗传算法参数 population_size = 100 crossover_probability = 0.8 mutation_probability = 0.2 num_generations = 100 # 初始化种群 population = toolbox.population(n=population_size) # 进化 for gen in range(num_generations): offspring = algorithms.varAnd(population, toolbox, cxpb=crossover_probability, mutpb=mutation_probability) fits = toolbox.map(toolbox.evaluate, offspring) for fit, ind in zip(fits, offspring): ind.fitness.values = fit population = toolbox.select(offspring, k=len(population)) # 找到最佳个体 best_individual = tools.selBest(population, k=1)[0] # 解码最佳个体 big_loop_trains, small_loop_trains, small_loop_start, small_loop_end = best_individual # 输出结果 print("Big Loop Trains:", big_loop_trains) print("Small Loop Trains:", small_loop_trains) print("Small Loop Start Station:", small_loop_start) print("Small Loop End Station:", small_loop_end)分析代码

2023-04-22 上传
2023-05-23 上传

解析如下代码:from sklearn.svm import OneClassSVM from sklearn.model_selection import train_test_split import numpy as np from deap import creator, base, tools, algorithms # 生成随机数据作为样本 X = np.random.rand(100, 5) # 创建OneClassSVM分类器 clf = OneClassSVM() # 定义优化目标,这里使用评估分类器的准确率 creator.create("FitnessMax", base.Fitness, weights=(1.0,)) creator.create("Individual", list, fitness=creator.FitnessMax) # 定义一些算法参数 POPULATION_SIZE = 10 P_CROSSOVER = 0.9 P_MUTATION = 0.1 MAX_GENERATIONS = 50 HALL_OF_FAME_SIZE = 3 N_PARAMETER = 4 MIN_PARAM = 0.01 MAX_PARAM = 10.0 # 定义适应度评价函数,使用交叉验证计算准确率 def evaluate(individual): clf.set_params(kernel='rbf', gamma=individual[0], nu=individual[1]) accuracy = 0 for i in range(5): X_train, X_test = train_test_split(X, test_size=0.3) clf.fit(X_train) accuracy += clf.score(X_test) return accuracy / 5, # 定义遗传算法工具箱 toolbox = base.Toolbox() toolbox.register("attr_float", lambda: np.random.uniform(MIN_PARAM, MAX_PARAM)) toolbox.register("individual", tools.initRepeat, creator.Individual, toolbox.attr_float, n=N_PARAMETER) toolbox.register("population", tools.initRepeat, list, toolbox.individual) toolbox.register("evaluate", evaluate) toolbox.register("mate", tools.cxBlend, alpha=0.5) toolbox.register("mutate", tools.mutGaussian, mu=0, sigma=1, indpb=0.1) toolbox.register("select", tools.selTournament, tournsize=3) # 定义精英机制 hall_of_fame = tools.HallOfFame(HALL_OF_FAME_SIZE) # 运行遗传算法 population = toolbox.population(n=POPULATION_SIZE) stats = tools.Statistics(lambda ind: ind.fitness.values) stats.register("avg", np.mean) stats.register("min", np.min) stats.register("max", np.max) population, logbook = algorithms.eaSimple(population, toolbox, cxpb=P_CROSSOVER, mutpb=P_MUTATION, ngen=MAX_GENERATIONS, stats=stats, halloffame=hall_of_fame) # 输出优化结果 best_individual = tools.selBest(population, k=1)[0] best_parameters = [] for param in best_individual: best_parameters.append(round(param, 2)) print("OneClassSVM params: gamma={}, nu={}".format(*best_parameters))

2023-04-21 上传

为什么这段python代码用不了?它报错的是AttributeError: 'OneClassSVM' object has no attribute 'score' 错误代码为population, logbook = algorithms.eaSimple(population, toolbox, cxpb=P_CROSSOVER, mutpb=P_MUTATION, ngen=MAX_GENERATIONS, stats=stats, halloffame=hall_of_fame)完整代码如下:from sklearn.svm import OneClassSVM from sklearn.model_selection import train_test_split import numpy as np from deap import creator, base, tools, algorithms # 生成随机数据作为样本 X = np.random.rand(100, 5) # 创建OneClassSVM分类器 clf = OneClassSVM() # 定义优化目标,这里使用评估分类器的准确率 creator.create("FitnessMax", base.Fitness, weights=(1.0,)) creator.create("Individual", list, fitness=creator.FitnessMax) # 定义一些算法参数 POPULATION_SIZE = 10 P_CROSSOVER = 0.9 P_MUTATION = 0.1 MAX_GENERATIONS = 50 HALL_OF_FAME_SIZE = 3 N_PARAMETER = 4 MIN_PARAM = 0.01 MAX_PARAM = 10.0 # 定义适应度评价函数,使用交叉验证计算准确率 def evaluate(individual): clf.set_params(kernel='rbf', gamma=individual[0], nu=individual[1]) accuracy = 0 for i in range(5): X_train, X_test = train_test_split(X, test_size=0.3) clf.fit(X_train) accuracy += clf.score(X_test) return accuracy / 5, # 定义遗传算法工具箱 toolbox = base.Toolbox() toolbox.register("attr_float", lambda: np.random.uniform(MIN_PARAM, MAX_PARAM)) toolbox.register("individual", tools.initRepeat, creator.Individual, toolbox.attr_float, n=N_PARAMETER) toolbox.register("population", tools.initRepeat, list, toolbox.individual) toolbox.register("evaluate", evaluate) toolbox.register("mate", tools.cxBlend, alpha=0.5) toolbox.register("mutate", tools.mutGaussian, mu=0, sigma=1, indpb=0.1) toolbox.register("select", tools.selTournament, tournsize=3) # 定义精英机制 hall_of_fame = tools.HallOfFame(HALL_OF_FAME_SIZE) # 运行遗传算法 population = toolbox.population(n=POPULATION_SIZE) stats = tools.Statistics(lambda ind: ind.fitness.values) stats.register("avg", np.mean) stats.register("min", np.min) stats.register("max", np.max) population, logbook = algorithms.eaSimple(population, toolbox, cxpb=P_CROSSOVER, mutpb=P_MUTATION, ngen=MAX_GENERATIONS, stats=stats, halloffame=hall_of_fame) # 输出优化结果 best_individual = tools.selBest(population, k=1)[0] best_parameters = [] for param in best_individual: best_parameters.append(round(param, 2)) print("OneClassSVM params: gamma={}, nu={}".format(*best_parameters))

2023-04-21 上传