#TFIDF from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer import pickle # tfidf向量保存 # tfidf = TfidfVectorizer() tfidftransformer_path = './tfidftransformer.pkl' tfidf = pickle.load(open(tfidftransformer_path,"rb")) x_train_df = tfidf.fit_transform(x_train) x_train_df = tfidf.transform(x_train) # tfidf向量保存 # tfidftransformer_path = './tfidftransformer.pkl' # with open(tfidftransformer_path, 'wb') as fw: # pickle.dump(tfidf, fw) # 先前已执行过一次 x_test_df = tfidf.transform(x_test)
时间: 2024-02-29 14:55:14 浏览: 179
tfidf.rar_ tfidf matlab_tfidf_tfidf python_tfidf matlab_tfidf排
这段代码是关于使用 sklearn 库中的 CountVectorizer 和 TfidfVectorizer 进行文本特征提取的过程。其中,使用 pickle 库对 tfidf 变量进行保存和加载,这样可以避免每次执行程序时都需要重新计算 tfidf。通过调用 fit_transform() 和 transform() 方法,将训练数据集和测试数据集转换成 tfidf 特征向量。这些特征向量可以作为机器学习算法的输入。
阅读全文