c4.5算法python代码
时间: 2024-11-12 12:12:48 浏览: 55
C4.5算法是一种用于分类决策树生成的算法,由Ross Quinlan提出。它是ID3算法的改进版本,处理了连续特征,并引入了信息熵的概念来度量划分数据集的质量。以下是使用Python的sklearn库实现C4.5的一个简单示例:
```python
from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import load_iris
# 加载鸢尾花数据集
iris = load_iris()
X = iris.data
y = iris.target
# 创建C4.5决策树分类器
c45_tree = DecisionTreeClassifier(criterion='gini', splitter='best',
max_depth=None) # 参数解释:默认信息熵作为分裂标准
# 训练模型
c45_tree.fit(X, y)
# 预测新样本
new_sample = [[5.1, 3.5, 1.4, 0.2]] # 示例鸢尾花数据
prediction = c45_tree.predict(new_sample)
print(f"预测结果:{prediction}")
```
在这个例子中,`DecisionTreeClassifier`类代表C4.5算法,`criterion='gini'`表示使用基尼指数(C4.5采用),`splitter='best'`表示选择最优分割属性。训练完成后,你可以用它对新的输入数据进行分类。
阅读全文