pytorch加载imdb数据集
时间: 2023-07-03 09:30:40 浏览: 250
在 PyTorch 中,可以通过 torchtext 库来方便地加载 IMDB 数据集。以下是加载 IMDB 数据集的示例代码:
```python
import torchtext
from torchtext.datasets import IMDB
# 定义字段
TEXT = torchtext.data.Field(lower=True, batch_first=True, fix_length=500)
LABEL = torchtext.data.Field(sequential=False)
# 加载数据集
train_data, test_data = IMDB.splits(TEXT, LABEL)
# 构建词汇表
TEXT.build_vocab(train_data, vectors=torchtext.vocab.GloVe(name='6B', dim=100))
LABEL.build_vocab(train_data)
# 构建迭代器
train_iter, test_iter = torchtext.data.BucketIterator.splits(
(train_data, test_data), batch_size=32, device=torch.device('cuda'), shuffle=True)
```
在以上代码中,首先定义了两个字段 `TEXT` 和 `LABEL`,分别用于表示文本和标签。然后使用 `IMDB.splits` 方法加载数据集,并使用 `build_vocab` 方法构建词汇表。最后,使用 `BucketIterator` 构建迭代器,用于迭代数据集中的每个 batch。
阅读全文