(train_data, train_labels), (test_data, test_labels) = imdb.load_data(num_words=10000) print("训练记录数量:{}, 标签数量:{}".format(len(train_data), len(train_labels))) print(train_data[0]) train_data = keras.preprocessing.sequence.pad_sequences(train_data, value=0, padding='post', maxlen=256) test_data = keras.preprocessing.sequence.pad_sequences(test_data, value=0, padding='post', maxlen=256) print(train_data[0])
时间: 2023-11-29 14:05:28 浏览: 127
imdb数据集(训练数据和测试数据)
这段代码加载了 IMDB 数据集,该数据集包含 50,000 条来自互联网电影数据库 (IMDB) 的电影评论。其中,25,000 条评论用于训练,另外 25,000 条评论用于测试。在加载数据时,`num_words=10000` 表示仅保留训练集中最常见的 10,000 个单词,并将其它单词替换为特殊的占位符。具体来说:
- `train_data` 和 `test_data` 是整数列表,表示电影评论中单词的索引。每个单词都有一个唯一的整数编号,表示其在词汇表中的位置。
- `train_labels` 和 `test_labels` 是 0 和 1 的整数列表,其中 0 表示负面评论,1 表示正面评论。
接下来,代码使用 `pad_sequences` 函数将所有评论填充为长度相同的序列,以便于输入到神经网络中。具体来说:
- `padding='post'` 表示在序列的末尾进行填充。
- `value=0` 表示使用值为 0 的占位符进行填充。
- `maxlen=256` 表示所有序列的最大长度为 256 个单词。如果序列长度不足 256 个单词,则在末尾进行填充;如果序列长度超过 256 个单词,则截断超出部分。
最后,代码打印了训练集中第一个评论的原始文本和填充后的序列。
阅读全文