使用python实现CNN模型文本分类
时间: 2023-11-09 14:10:59 浏览: 36
要使用CNN模型进行文本分类,需要将文本转换为数字向量,常用的方式是使用词嵌入(Word Embedding),将每个单词映射为一个向量。
以下是一个使用Python实现CNN模型文本分类的示例代码:
```python
import numpy as np
from keras.datasets import imdb
from keras.preprocessing import sequence
from keras.models import Sequential
from keras.layers import Dense, Dropout, Activation, Embedding, Conv1D, GlobalMaxPooling1D
# 设置超参数
max_features = 5000 # 保留最常见的5000个单词
maxlen = 400 # 文本最大长度
batch_size = 32 # 批大小
embedding_dims = 50 # 词嵌入维度
filters = 250 # 卷积核数量
kernel_size = 3 # 卷积核尺寸
hidden_dims = 250 # 隐藏层大小
epochs = 2 # 训练轮数
# 加载数据
(x_train, y_train), (x_test, y_test) = imdb.load_data(num_words=max_features)
# 填充序列,确保所有序列长度相同
x_train = sequence.pad_sequences(x_train, maxlen=maxlen)
x_test = sequence.pad_sequences(x_test, maxlen=maxlen)
# 构建模型
model = Sequential()
# 添加嵌入层
model.add(Embedding(max_features, embedding_dims, input_length=maxlen))
# 添加卷积层和最大池化层
model.add(Conv1D(filters, kernel_size, padding='valid', activation='relu', strides=1))
model.add(GlobalMaxPooling1D())
# 添加全连接层和输出层
model.add(Dense(hidden_dims))
model.add(Dropout(0.2))
model.add(Activation('relu'))
model.add(Dense(1))
model.add(Activation('sigmoid'))
# 编译模型
model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])
# 训练模型
model.fit(x_train, y_train, batch_size=batch_size, epochs=epochs, validation_data=(x_test, y_test))
# 评估模型
score, acc = model.evaluate(x_test, y_test, batch_size=batch_size)
print('Test score:', score)
print('Test accuracy:', acc)
```
该示例使用了Keras深度学习框架,加载了IMDB电影评论数据集,并将每个评论转换为一个长度为400的向量。然后搭建了一个包含嵌入层、卷积层、全连接层和输出层的CNN模型,并使用二元交叉熵作为损失函数,Adam作为优化器进行训练。最后评估模型的准确率。