python npl 文本分类
时间: 2024-01-26 17:14:40 浏览: 97
以下是使用Python进行文本分类的示例代码:
```python
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.svm import LinearSVC
from sklearn.pipeline import Pipeline
# 定义训练数据
train_data = [
('I love this movie', 'positive'),
('This movie is great', 'positive'),
('I dislike this movie', 'negative'),
('This movie is terrible', 'negative')
]
# 定义测试数据
test_data = [
'I really like this movie',
'This movie is awful'
]
# 创建Pipeline,包括特征提取和分类器
pipeline = Pipeline([
('tfidf', TfidfVectorizer()), # 使用TF-IDF进行特征提取
('clf', LinearSVC()) # 使用线性支持向量机进行分类
])
# 训练模型
pipeline.fit([data[0] for data in train_data], [data[1] for data in train_data])
# 进行预测
predictions = pipeline.predict(test_data)
# 打印预测结果
for text, label in zip(test_data, predictions):
print(f'Text: {text} Label: {label}')
```
这段代码使用了sklearn库中的TfidfVectorizer进行特征提取,将文本转换为TF-IDF特征向量。然后使用LinearSVC作为分类器进行文本分类。训练数据包括一些带有标签的文本样本,测试数据是一些未标记的文本。通过训练模型后,可以对测试数据进行分类预测,并输出预测结果。
阅读全文