python实现实现AdaBoost算法的示例算法的示例
代码
'''
数据集:Mnist
训练集数量:60000(实际使用:10000)
测试集数量:10000(实际使用:1000)
层数:40
------------------------------
运行结果:
正确率:97%
运行时长:65m
'''
import time
import numpy as np
def loadData(fileName):
'''
加载文件
:param fileName:要加载的文件路径
:return: 数据集和标签集
'''
# 存放数据及标记
dataArr = [] labelArr = [] # 读取文件
fr = open(fileName)
# 遍历文件中的每一行
for line in fr.readlines():
# 获取当前行,并按“,”切割成字段放入列表中
# strip:去掉每行字符串首尾指定的字符(默认空格或换行符)
# split:按照指定的字符将字符串切割成每个字段,返回列表形式
curLine = line.strip().split(',')
# 将每行中除标记外的数据放入数据集中(curLine[0]为标记信息)
# 在放入的同时将原先字符串形式的数据转换为整型
# 此外将数据进行了二值化处理,大于128的转换成1,小于的转换成0,方便后续计算
dataArr.append([int(int(num) > 128) for num in curLine[1:]])
# 将标记信息放入标记集中
# 放入的同时将标记转换为整型
# 转换成二分类任务
# 标签0设置为1,反之为-1
if int(curLine[0]) == 0:
labelArr.append(1)
else:
labelArr.append(-1)
# 返回数据集和标记
return dataArr, labelArr
def calc_e_Gx(trainDataArr, trainLabelArr, n, div, rule, D):
'''
计算分类错误率
:param trainDataArr:训练数据集数字
:param trainLabelArr: 训练标签集数组
:param n: 要操作的特征
:param div:划分点
:param rule:正反例标签
:param D:权值分布D
:return:预测结果, 分类误差率
'''
# 初始化分类误差率为0
e = 0
# 将训练数据矩阵中特征为n的那一列单独剥出来做成数组。因为其他元素我们并不需要,
# 直接对庞大的训练集进行操作的话会很慢
x = trainDataArr[:, n] # 同样将标签也转换成数组格式,x和y的转换只是单纯为了提高运行速度
# 测试过相对直接操作而言性能提升很大
y = trainLabelArr
predict = []
评论0