pytorch+文本分类

在PyTorch中进行文本分类，可以使用torchtext库来处理文本数据。下面是一个简单的例子，展示了如何使用torchtext来加载IMDB电影评论数据集，并使用卷积神经网络（CNN）进行情感分类。首先，需要安装torchtext库： ```shell pip install torchtext ``` 然后，可以使用以下代码来加载IMDB数据集，并将其分为训练集和测试集： ```python import torch from torchtext import datasets from torchtext.data import Field, LabelField, BucketIterator SEED = 1234 torch.manual_seed(SEED) torch.backends.cudnn.deterministic = True TEXT = Field(tokenize='spacy', tokenizer_language='en_core_web_sm') LABEL = LabelField(dtype=torch.float) train_data, test_data = datasets.IMDB.splits(TEXT, LABEL) train_data, valid_data = train_data.split(random_state=random.seed(SEED)) ``` 接下来，可以使用预训练的词向量来初始化单词嵌入。这里使用GloVe词向量： ```python MAX_VOCAB_SIZE = 25_000 TEXT.build_vocab(train_data, max_size=MAX_VOCAB_SIZE, vectors="glove.6B.100d", unk_init=torch.Tensor.normal_) LABEL.build_vocab(train_data) ``` 然后，可以定义一个CNN模型： ```python import torch.nn as nn import torch.nn.functional as F class CNN(nn.Module): def __init__(self, vocab_size, embedding_dim, n_filters, filter_sizes, output_dim, dropout): super().__init__() self.embedding = nn.Embedding(vocab_size, embedding_dim) self.convs = nn.ModuleList([ nn.Conv2d(in_channels=1, out_channels=n_filters, kernel_size=(fs, embedding_dim)) for fs in filter_sizes ]) self.fc = nn.Linear(len(filter_sizes) * n_filters, output_dim) self.dropout = nn.Dropout(dropout) def forward(self, text): # text = [sent len, batch size] text = text.permute(1, 0) # text = [batch size, sent len] embedded = self.embedding(text) # embedded = [batch size, sent len, emb dim] embedded = embedded.unsqueeze(1) # embedded = [batch size, 1, sent len, emb dim] conved = [F.relu(conv(embedded)).squeeze(3) for conv in self.convs] # conved_n = [batch size, n_filters, sent len - filter_sizes[n] + 1] pooled = [F.max_pool1d(conv, conv.shape[2]).squeeze(2) for conv in conved] # pooled_n = [batch size, n_filters] cat = self.dropout(torch.cat(pooled, dim=1)) # cat = [batch size, n_filters * len(filter_sizes)] return self.fc(cat) ``` 最后，可以训练模型并进行预测： ```python import torch.optim as optim device = torch.device('cuda' if torch.cuda.is_available() else 'cpu') BATCH_SIZE = 64 train_iterator, valid_iterator, test_iterator = BucketIterator.splits( (train_data, valid_data, test_data), batch_size=BATCH_SIZE, device=device) INPUT_DIM = len(TEXT.vocab) EMBEDDING_DIM = 100 N_FILTERS = 100 FILTER_SIZES = [3, 4, 5] OUTPUT_DIM = 1 DROPOUT = 0.5 model = CNN(INPUT_DIM, EMBEDDING_DIM, N_FILTERS, FILTER_SIZES, OUTPUT_DIM, DROPOUT) optimizer = optim.Adam(model.parameters()) criterion = nn.BCEWithLogitsLoss() model = model.to(device) criterion = criterion.to(device) def binary_accuracy(preds, y): rounded_preds = torch.round(torch.sigmoid(preds)) correct = (rounded_preds == y).float() acc = correct.sum() / len(correct) return acc def train(model, iterator, optimizer, criterion): epoch_loss = 0 epoch_acc = 0 model.train() for batch in iterator: optimizer.zero_grad() predictions = model(batch.text).squeeze(1) loss = criterion(predictions, batch.label) acc = binary_accuracy(predictions, batch.label) loss.backward() optimizer.step() epoch_loss += loss.item() epoch_acc += acc.item() return epoch_loss / len(iterator), epoch_acc / len(iterator) def evaluate(model, iterator, criterion): epoch_loss = 0 epoch_acc = 0 model.eval() with torch.no_grad(): for batch in iterator: predictions = model(batch.text).squeeze(1) loss = criterion(predictions, batch.label) acc = binary_accuracy(predictions, batch.label) epoch_loss += loss.item() epoch_acc += acc.item() return epoch_loss / len(iterator), epoch_acc / len(iterator) N_EPOCHS = 5 for epoch in range(N_EPOCHS): train_loss, train_acc = train(model, train_iterator, optimizer, criterion) valid_loss, valid_acc = evaluate(model, valid_iterator, criterion) print(f'Epoch: {epoch+1:02}') print(f'\tTrain Loss: {train_loss:.3f} | Train Acc: {train_acc*100:.2f}%') print(f'\t Val. Loss: {valid_loss:.3f} | Val. Acc: {valid_acc*100:.2f}%') test_loss, test_acc = evaluate(model, test_iterator, criterion) print(f'Test Loss: {test_loss:.3f} | Test Acc: {test_acc*100:.2f}%') ```

阅读全文

pytorch+文本分类

相关推荐

Pytorch+Bert多标签文本分类源码教程与实战

利用Pytorch+BERT进行高效情感分析

动物图像分类系统开发教程：PyQt+Flask+PyTorch+resnet实现

深度学习+Pytorch+LSTM+文本分类实战

python基于pytorch+bert的中文文本分类源码.zip

基于pytorch+bert的中文文本分类项目源码（大作业项目）.zip

python毕业设计-基于pytorch + bert的多标签文本分类源码+文档.zip

Pytorch+GAN

python毕业设计-基于pytorch + bert的多标签文本分类（源码+文档）.zip

基于pytorch + bert的多标签文本分类的python源码（高分课程设计）.zip

基于pytorch+bert的中文文本多标签分类python源码（课程设计）.zip

pytorch + visdom 处理简单分类问题的示例.pdf

python毕业设计&课程设计-基于pytorch+bert的中文文本多标签分类源码.zip

python毕业设计&课程设计-基于pytorch+bert的中文文本多标签分类（源码+文档）.zip

Pytorch + NLP的项目实践

Pytorch + NLP 的项目实践

高分毕设：基于Pytorch+OpenCV+CLIP的视频文本检索系统实现

Pytorch+BERT+BiLSTM+CRF实现命名实体识别教程

pytorch+transformer

AiLearning：数据分析+机器学习实战+线性代数+PyTorch+NLTK+TF2.zip

大家在看

10-银河麒麟高级服务器操作系统SPx升级到SP3版本操作指南

Solidworks PDM Add-in Demo

ArcGIS API for JavaScript 开发教程

任务执行器-用于ad9834波形发生器(dds)的幅度控制电路

线切割报价软件，CAD线切割插件，飞狼线切割工具箱

最新推荐

图像去雾基于基于Matlab界面的（多方法对比，PSNR，信息熵，GUI界面）.rar

易语言例程：用易核心支持库打造功能丰富的IE浏览框

管理建模和仿真的文件

STM32F407ZG引脚功能深度剖析：掌握引脚分布与配置的秘密（全面解读）

给出文档中问题的答案代码

Docker构建与运行Next.js应用的指南

"互动学习：行动中的多样性与论文攻读经历"

【热传递模型的终极指南】：掌握分类、仿真设计、优化与故障诊断的18大秘诀

python经典题型和解题代码

宠物控制台应用程序：Java编程实践与反思