spam=pd.read_table("spambase.txt",sep=',',header=None) ColName=['X'+str(k+1) for k in np.arange(57)] ColName .append('Y') spam.columns=ColName train=spam.sample(frac=0.7) test=spam[~spam.index.isin(train.index)] xtrain,ytrain=train.drop('Y',axis=1),train['Y'] xtest,ytest=test.drop('Y',axis=1),test['Y'] th=np.percentile(np.var(xtrain),90) #保留90%的属性 sel = VarianceThreshold(threshold=th)
时间: 2023-12-06 21:43:46 浏览: 150
ml_homework_1.rar_spambase_svm实现垃圾邮件分类_uci_uci spambase_垃圾邮件
这是一个使用 Python 语言和 Pandas 库读取名为 "spambase.txt" 的数据集,并将其分为训练集和测试集的代码。其中,"Y" 列为标签,表示数据点是垃圾邮件还是非垃圾邮件。接下来,代码通过计算训练集中特征的方差,并保留90%的特征,使用 VarianceThreshold 进行特征选择。
阅读全文