样本熵Python代码
时间: 2024-09-02 13:04:43 浏览: 98
样本熵是信息论中的一个概念,用来量化一个事件集中的信息量。在机器学习中,它通常被用作特征选择的一种度量。具体来说,它反映了数据集的纯度,值越低表示数据集越纯,分类越容易。样本熵的计算公式如下:
H(S) = - Σ (p_i * log2(p_i))
其中,S是数据集,p_i是某个类别在数据集中的概率,Σ表示求和。
下面是一个Python代码示例,用于计算给定数据集的样本熵:
```python
import numpy as np
from collections import Counter
def calculate_entropy(y):
"""
计算样本熵
:param y: 数据集的标签列表
:return: 样本熵的值
"""
# 计算每个类别出现的次数
hist = Counter(y)
# 计算样本熵
total = len(y)
entropy = -sum((p / total) * np.log2(p / total) for p in hist.values())
return entropy
# 示例数据集标签
labels = ['正面', '负面', '正面', '正面', '负面', '正面']
# 计算样本熵
entropy = calculate_entropy(labels)
print(f"样本熵是: {entropy}")
```
请确保在你的Python环境中已经安装了numpy库,否则你需要先安装numpy库:
```python
pip install numpy
```
阅读全文