Python实现联合互信息特征选择：基于sklearn与statsmodels

特征选择

联合互信息特征选择

需积分: 38 6 浏览量更新于2024-09-02 1 收藏 6KB TXT 举报

身份认证购VIP最低享 7 折!

30元优惠券

本资源是一个Python实现的代码文件，主要关注联合互信息特征选择（Joint Mutual Information, JMI）在机器学习中的应用。联合互信息是一种评估两个变量之间关系强度的统计量，它结合了互信息（Mutual Information, MI）和条件互信息（Conditional Mutual Information, CMI），用于特征选择时筛选出与目标变量高度相关的特征。代码首先导入了所需的库，如pandas用于数据处理，numpy用于数值计算，sklearn的metrics模块提供了互信息得分函数，以及statsmodels库用于异常值检测的variance_inflation_factor函数。matplotlib用于可视化，而sklearn.datasets用于加载示例数据集。 1. **读取数据**：read函数负责读取CSV或Excel文件，并进行数据预处理，包括删除包含缺失值的行和转换为数值类型的数据。 2. **读取概率分布**：read_probability函数用于读取一个文本文件，其中存储了类别概率分布，这对于某些分类问题中的特征选择非常重要。 3. **数据分割**：segment函数将数据集划分为输入特征（x）和目标变量（y），通过指定的列号k来分离。 4. **特征选择**：subset函数是核心部分，它根据JMI得分对特征进行排序。score数组包含了每个特征的JMI得分，threshold参数用于设定选择的特征数量。如果threshold大于1，则选择前threshold个得分最高的特征添加到x列表中。JMI得分的计算可能涉及到计算MI和CMI，以及对这些值的标准化，以便于比较不同特征的重要性。这个代码没有提供JMI的具体计算公式，但通常JMI会涉及以下步骤： - 计算单个特征与目标变量的MI（I(X_i; Y)） - 计算特征之间的MI（I(X_i; X_j)） - 计算特征与目标变量条件下的CMI（I(X_i; Y | X_j)） - 最后，JMI是I(X_i; Y)和I(X_i; Y | X_j)的某种调和平均，用于综合评估特征X_i对目标变量Y的独立贡献。值得注意的是，这段代码假设了JMI已经在内部被实现了，或者依赖于未提供的mutual_info_classif函数。在实际应用中，可能需要自定义这部分，根据公式进行计算，例如使用sklearn.metrics.normalized_mutual_info_score函数。总结来说，这个代码提供了使用联合互信息进行特征选择的一个基础框架，适合那些希望通过测量特征与目标变量之间的多维度关联来进行特征优化的机器学习项目。对于理解如何在Python中实施JMI特征选择，这份代码提供了实用的代码示例。

资源详情

资源推荐

import pandas
import math
import ast
import numpy
# from sklearn.metrics import mutual_info_score
from sklearn.metrics import normalized_mutual_info_score
from statsmodels.stats.outliers_influence import variance_inflation_factor
import matplotlib.pyplot as plt
from sklearn import datasets
# from sklearn.feature_selection import mutual_info_classif

def read(path):
print('Reading...')
if path.endswith('.csv'):
data = pandas.read_csv(path)
else:
data = pandas.read_excel(path)
data = data.dropna(axis=1, how='all')
data = data._get_numeric_data()
data = data.dropna()
print("Data set read. Size =", data.shape)
return data

def read_probability(path, cols):
print('Reading...')
file = open(path, 'r')
prob = [{} for i in range(0, 2 * cols + 1)]
col = 0

剩余6页未读，继续阅读

weixin_42170371

粉丝: 11
资源: 14

Python实现联合互信息特征选择：基于sklearn与statsmodels

JMI接口包及接口实现包

JMI示例代码，其中包括客户端与服务端。

NMI 标准化互信息 python实现

将文本文件code.txt中以#开头的注释行删掉，并将结果保存在新的文本文件new.txt中

将文本文件code.txt中以#开头的注释行删掉，并将结果保存在新的文本文件new.txt中。

数据以文件的方式进行存储 a. 待加密文件保存为 document.txt b. 对字符进行哈夫曼编码，保存为二进制格式 code.dat c. 解码，保存为 decode.txt d. 建立哈夫曼树，保存为 HFM.txt

继续编写上面的代码，在“从code.txt读取数独”这一步开始

iec2c my_st_code.st 报错 Error opening library file lib/ieclib.txt: No such file or directory

COPY ./requirements.txt /code/requirements.txt

创建目录，如D:/study/python/1001/ 编程实现以下功能： （模拟菜单选择实现） 存入你的基本信息,在zhangsan.txt文件中 显示你的基本信息 统计zhangsan.txt含有good的文本数 将zhangsan.txt复制到D:/code/中

attachment.add_header('Content-Disposition', 'attachment', filename='code.txt')这串代码有什么用

附件文件'IDcode.txt'中包含全国各地区的地区编码，输入身份证号前6位，输出该编码可能对应的区（县、市）。

sn = code.substring(code.length() - 7); // 7位序列号 style = code.substring(code.length() - 10, code.length() - 7); // 3位款式 spec = code.substring(0, code.length() - 10); // 型号将数据放进集合里，但是不影响下面的代码

（1）书写代码，使之能够正确读取输入文本文件(test.{1, 2, 3}.txt)根据输入文本文件构造哈夫曼编码。把最优的哈夫曼编码写入输出文件{code.test.{1,2,3}.txt}。

PermissionError: [Errno 13] Permission denied: '.hashed_activation_code.txt'

用Pytnon在网页http://code.web.idv.hk/charset/csws1.php上获取通用规范汉字（TGhanzi.txt）每个汉字的部首

最新资源

创建目录，如D:/study/python/1001/ 编程实现以下功能：（模拟菜单选择实现）存入你的基本信息,在zhangsan.txt文件中显示你的基本信息统计zhangsan.txt含有good的文本数将zhangsan.txt复制到D:/code/中