import pkuseg from sklearn.feature_extraction.text import TfidfVectorizer from sklearn.svm import SVC import joblib #加载 pkuseg 预训练模型 seg = pkuseg.pkuseg() #加载用来微调数据 with open("D:\统计数据原始数据\贵港市港南区:高质量推动农业机械化.txt", 'r', encoding='utf-8') as f: train = f.readlines() #对微调数据进行分词处理 train_seg = [] for line in train: seg_list = seg.cut(line.strip()) train_seg.append(' '.join(seg_list)) #print(train_seg) #加载标签数据 with open("D:\用来微调的模型\分词后贵港市港南区:高质量推动农业机械化.txt", 'r', encoding='utf-8') as f: label = f.readlines() #将标签数据转换为数字标签 label_dict = {} num_labels = 0 for line in label: if line.strip() not in label_dict: label_dict[line.strip()] = num_labels num_labels += 1 y_train = [label_dict[line.strip()] for line in label] #使用 TfidfVectorizer 将文本数据转换为向量表示 vectorizer = TfidfVectorizer() X_train = vectorizer.fit_transform(train_seg) #使用 SVM 进行分类 svm = SVC() svm.fit(X_train, y_train) 产生Found input variables with inconsistent numbers of samples:错误
时间: 2023-06-24 15:09:25 浏览: 77
feat_extr.rar_.ana_extr_extraction_feature extraction_feature_ex
这个错误通常是由于训练数据和标签数据的数量不一致导致的。请检查一下你的训练数据和标签数据的数量是否一致。你可以使用以下代码检查一下:
```python
print(len(train_seg))
print(len(y_train))
```
如果两个输出结果不一样,就说明训练数据和标签数据的数量不一致。需要确保训练数据和标签数据的数量一致后再次运行代码。
阅读全文