(train_data, train_labels), (test_data, test_labels) = imdb.load_data(num_words=10000) print("训练记录数量:{}, 标签数量:{}".format(len(train_data), len(train_labels))) print(train_data[0]) train_data = keras.preprocessing.sequence.pad_sequences(train_data, value=0, padding='post', maxlen=256) test_data = keras.preprocessing.sequence.pad_sequences(test_data, value=0, padding='post', maxlen=256) print(train_data[0])
时间: 2023-11-29 12:05:28 浏览: 124
这段代码加载了 IMDB 数据集,该数据集包含 50,000 条来自互联网电影数据库 (IMDB) 的电影评论。其中,25,000 条评论用于训练,另外 25,000 条评论用于测试。在加载数据时,`num_words=10000` 表示仅保留训练集中最常见的 10,000 个单词,并将其它单词替换为特殊的占位符。具体来说:
- `train_data` 和 `test_data` 是整数列表,表示电影评论中单词的索引。每个单词都有一个唯一的整数编号,表示其在词汇表中的位置。
- `train_labels` 和 `test_labels` 是 0 和 1 的整数列表,其中 0 表示负面评论,1 表示正面评论。
接下来,代码使用 `pad_sequences` 函数将所有评论填充为长度相同的序列,以便于输入到神经网络中。具体来说:
- `padding='post'` 表示在序列的末尾进行填充。
- `value=0` 表示使用值为 0 的占位符进行填充。
- `maxlen=256` 表示所有序列的最大长度为 256 个单词。如果序列长度不足 256 个单词,则在末尾进行填充;如果序列长度超过 256 个单词,则截断超出部分。
最后,代码打印了训练集中第一个评论的原始文本和填充后的序列。
相关问题
import tensorflow as tf from tensorflow import keras import numpy as np # 加载 IMDB 数据集 imdb = keras.datasets.imdb (train_data, train_labels), (test, test_labels) = imdb.load_data(num_words=00) # 将整数序列填充为相同的长度 train_data = keras.preprocessing.sequence.pad_sequences(train_data, value=0, padding='post', maxlen=256) test_data = keras.preprocessing.sequence.pad_sequences(test_data, value=0, padding='post', maxlen=256) # 构建模型 model = keras.Sequential() model.add(keras.layers.Embed(10000, 16)) model.add(keras.layers.GlobalAveragePooling1D()) model.add(keras.layers(16, activation=tf.nn.relu)) model.add(keras.layers.Dense(1, activation=tf.sigmoid)) # 编译模型 model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy']) # 训练模型 history = model.fit(train_data, train_labels, epochs=40, batch_size=512, validation_data=(test_data, test_labels), verbose=1) # 在测试数据上评估模型 results = model.evaluate(test_data, test_labels) print('Test loss:', results[0]) print('Test accuracy:', results[1])test_data = keras.preprocessing.sequence.pad_sequences(test_data, value=0, padding='post', maxlen=256) NameError: name 'test_data' is not defined
这个错误的原因是在使用 `test_data` 变量之前没有定义它。你需要先加载测试数据集 `test_data`,然后再使用 `pad_sequences` 函数对其进行填充。
你可以尝试在以下代码中添加加载测试数据集的语句:
```python
import tensorflow as tf
from tensorflow import keras
import numpy as np
# 加载 IMDB 数据集
imdb = keras.datasets.imdb
(train_data, train_labels), (test_data, test_labels) = imdb.load_data(num_words=10000)
# 将整数序列填充为相同的长度
maxlen = 256
train_data = keras.preprocessing.sequence.pad_sequences(train_data, value=0, padding='post', maxlen=maxlen)
test_data = keras.preprocessing.sequence.pad_sequences(test_data, value=0, padding='post', maxlen=maxlen)
# 构建模型
model = keras.Sequential()
model.add(keras.layers.Embedding(10000, 16))
model.add(keras.layers.GlobalAveragePooling1D())
model.add(keras.layers.Dense(16, activation=tf.nn.relu))
model.add(keras.layers.Dense(1, activation=tf.sigmoid))
# 编译模型
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
# 训练模型
history = model.fit(train_data, train_labels, epochs=40, batch_size=512, validation_data=(test_data, test_labels), verbose=1)
# 在测试数据上评估模型
results = model.evaluate(test_data, test_labels)
print('Test loss:', results[0])
print('Test accuracy:', results[1])
```
这样你就不会再遇到 `NameError: name 'test_data' is not defined` 错误了。
import tensorflow as tf from tensorflow import keras import numpy as np # 加载 IMDB 数据集 imdb = keras.datasets.imdb (train_data, train_labels), (test_data, test_labels) = imdb.load_data(num_words=10000) # 将整数序列填充为相同的长度 maxlen = 256 train_data = keras.preprocessing.sequence.pad_sequences(train_data, value=0, padding='post', maxlen=maxlen) test_data = keras.preprocessing.sequence.pad_sequences(test_data, value=0, padding='post', maxlen=maxlen) # 构建模型 model = keras.Sequential() model.add(keras.layers.Embedding(10000, 16)) model.add(keras.layers.GlobalAveragePooling1D()) model.add(keras.layers.Dense(16, activation=tf.nn.relu)) model.add(keras.layers.Dense(1, activation=tf.sigmoid)) # 编译模型 model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy']) # 训练模型 history = model.fit(train_data, train_labels, epochs=40, batch_size=512, validation_data=(test_data, test_labels), verbose=1) # 在测试数据上评估模型 results = model.evaluate(test_data, test_labels) print('Test loss:', results[0]) print('Test accuracy:', results[1])优化代码
以下是对代码的优化:
1. 使用更加简洁的导入方式:
```
from tensorflow import keras
import tensorflow as tf
import numpy as np
```
2. 将模型的架构定义为一个函数,这样可以使代码更加清晰:
```
def build_model():
model = keras.Sequential([
keras.layers.Embedding(10000, 16),
keras.layers.GlobalAveragePooling1D(),
keras.layers.Dense(16, activation=tf.nn.relu),
keras.layers.Dense(1, activation=tf.sigmoid)
])
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
return model
```
3. 使用 EarlyStopping 和 ModelCheckpoint 回调函数来提高模型的性能:
```
early_stop = keras.callbacks.EarlyStopping(monitor='val_loss', patience=5)
model_checkpoint = keras.callbacks.ModelCheckpoint('best_model.h5', save_best_only=True)
history = model.fit(train_data, train_labels, epochs=40, batch_size=512,
validation_data=(test_data, test_labels), verbose=1,
callbacks=[early_stop, model_checkpoint])
```
4. 使用更加简洁的方式来输出测试结果:
```
loss, accuracy = model.evaluate(test_data, test_labels)
print(f'Test loss: {loss}, Test accuracy: {accuracy}')
```
综上所述,我们可以对代码进行如下的优化:
```
from tensorflow import keras
import tensorflow as tf
import numpy as np
def build_model():
model = keras.Sequential([
keras.layers.Embedding(10000, 16),
keras.layers.GlobalAveragePooling1D(),
keras.layers.Dense(16, activation=tf.nn.relu),
keras.layers.Dense(1, activation=tf.sigmoid)
])
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
return model
# 加载 IMDB 数据集
(train_data, train_labels), (test_data, test_labels) = keras.datasets.imdb.load_data(num_words=10000)
# 将整数序列填充为相同的长度
maxlen = 256
train_data = keras.preprocessing.sequence.pad_sequences(train_data, value=0, padding='post', maxlen=maxlen)
test_data = keras.preprocessing.sequence.pad_sequences(test_data, value=0, padding='post', maxlen=maxlen)
# 构建模型
model = build_model()
# 使用 EarlyStopping 和 ModelCheckpoint 回调函数来提高模型的性能
early_stop = keras.callbacks.EarlyStopping(monitor='val_loss', patience=5)
model_checkpoint = keras.callbacks.ModelCheckpoint('best_model.h5', save_best_only=True)
# 训练模型
history = model.fit(train_data, train_labels, epochs=40, batch_size=512,
validation_data=(test_data, test_labels), verbose=1,
callbacks=[early_stop, model_checkpoint])
# 在测试数据上评估模型
loss, accuracy = model.evaluate(test_data, test_labels)
print(f'Test loss: {loss}, Test accuracy: {accuracy}')
```
阅读全文