# 加载IMDB数据集 # (x_train, y_train), (x_test, y_test) = imdb.load_data(num_words=10000) data = pd.read_csv(r'D:\Users\lzm577\Desktop\dayta\movie_SSL.csv') print(data.head(10)) # 将序列填充到相同的长度 maxlen = 10000 training_samples = 7000 validation_samples = 3000 max_words = 10000 tokenizer = Tokenizer(num_words=max_words) tokenizer.fit_on_texts(data['text']) sequences = tokenizer.texts_to_sequences(data['text']) word_index = tokenizer.word_index print('Found %s unique tokens.' % len(word_index)) data = pad_sequences(sequences, maxlen=maxlen) labels = np.array(data[:, 1:]) print('Shape of data tensor:', data.shape) print('Shape of label tensor', labels.shape) indices = np.arange(data.shape[0]) np.random.shuffle(indices) data = data[indices] labels = labels[indices] x_train = data[:training_samples] y_train = labels[:training_samples] x_val = data[training_samples:training_samples+validation_samples] y_val = labels[training_samples:training_samples+validation_samples]
时间: 2024-04-28 07:25:44 浏览: 153
Keras用IMDB数据源(imdb.npz + imdb_word_index.json)
这段代码主要是用于加载IMDB数据集,并对数据进行预处理。
首先使用IMDB数据集的API加载数据集,并限制词汇表大小为10000。然后,读取一个csv文件并打印出前10行数据。
接下来,将每个文本序列填充到相同的长度,并将序列转换为数字索引。使用Tokenizer类对文本进行标记化,将每个单词与一个唯一的整数相关联。此外,还计算了词汇表中的单词数量。
然后,使用pad_sequences函数将序列填充到最大长度,将数据处理成一个张量。使用numpy库中的arange函数生成一个数据集的索引数组,对数据集进行随机化处理,然后将数据集分成训练集和验证集。
最后,将处理后的数据集返回,包括训练集和验证集的输入数据和标签。
阅读全文