TensorFlow 2.1.0版tf.data教程:探索新特性

4 下载量 50 浏览量 更新于2024-08-30 收藏 386KB PDF 举报
"tf.data官方教程 – – 基于TF-v2" 在TensorFlow v2中,`tf.data` API是构建高效、可扩展的数据输入管道的关键工具,它允许开发者轻松地从各种数据源读取数据,并进行预处理,以适应深度学习模型的需求。这篇教程主要围绕`tf.data.Dataset`这一核心概念展开,详细讲解如何利用`tf.data`构建数据输入通道。 1. **基础知识** - **Dataset结构介绍**:`tf.data.Dataset`是数据序列的抽象表示,它可以由单一元素或由其他`Dataset`组合而成。每个`Dataset`对象都可以生成一系列元素,这些元素可以是任何张量类型。 2. **读取输入数据** - **读取Numpy数组**:可以直接将Numpy数组转换为`Dataset`,方便在训练过程中使用。 - **读取Python生成器中的数据**:通过生成器函数,可以动态生成数据,`tf.data.Dataset.from_generator`将这些生成器转换为`Dataset`。 - **读取TFRecord数据**:TFRecord是一种二进制文件格式,常用于存储TensorFlow数据。`tf.data.TFRecordDataset`类可以读取这些文件。 - **读取text数据**:`tf.data.TextLineDataset`可以从文本文件中逐行读取数据。 - **读取CSV数据**:`tf.data.experimental.CsvDataset`类用于解析CSV文件,将其转换为`Dataset`。 3. **数据集元素batching** - **最简单的batching**:使用`dataset.batch(batch_size)`将连续的元素打包成批次。 - **填充batching**:`padded_batch`函数允许将不同大小的元素填充到统一大小的批次中,这对于处理不同长度的序列尤其有用。 4. **训练工作流程** - **数据repeat多个epoch**:`dataset.repeat(num_epochs)`使数据集重复指定次数,用于训练过程中的多次迭代。 - **随机shuffle输入数据**:`dataset.shuffle(buffer_size)`对数据进行随机打乱,有助于训练过程中的泛化。 5. **数据预处理** - **使用Dataset.map()进行数据预处理**:`map`函数接受一个函数作为参数,该函数会在每个元素上应用,可用于数据转换,如归一化、解码等。 - **使用非TF函数进行数据预处理**:通过`tf.py_function`可以将Python函数引入到数据管道中,处理更复杂的数据操作。 - **解析tf.Example protocol buffer messages**:`tf.data.Dataset.from_tensor_slices`和`tf.parse_example`可用于解析protobuf消息。 - **时间序列windowing**:用于处理时间序列数据,如使用`dataset.window`创建滑动窗口,`dataset.flat_map`将窗口展开为单独的样本。 - **重采样**:`tf.data.Dataset.sampling`和`tf.data.experimental.rejection_resample`用于根据特定条件进行样本的随机采样。 6. **在高阶API中使用tf.data** - **在tf.keras中使用tf.data**:Keras模型支持直接使用`tf.data.Dataset`作为输入,简化模型训练过程。 - **在tf.estimator中使用tf.data**:Estimator框架也可以与`tf.data`结合,提供灵活的数据输入方式。 `tf.data` API的设计目标是让数据处理变得简单、高效,通过它可以构建出复杂的数据处理流程,无论是图像、文本还是时间序列数据,都能轻松应对。通过组合不同的操作,开发者可以构建出适应各种需求的定制化数据输入通道,从而更好地优化模型训练。

import time import tensorflow.compat.v1 as tf tf.disable_v2_behavior() from tensorflow.examples.tutorials.mnist import input_data import mnist_inference import mnist_train tf.compat.v1.reset_default_graph() EVAL_INTERVAL_SECS = 10 def evaluate(mnist): with tf.Graph().as_default() as g: #定义输入与输出的格式 x = tf.compat.v1.placeholder(tf.float32, [None, mnist_inference.INPUT_NODE], name='x-input') y_ = tf.compat.v1.placeholder(tf.float32, [None, mnist_inference.OUTPUT_NODE], name='y-input') validate_feed = {x: mnist.validation.images, y_: mnist.validation.labels} #直接调用封装好的函数来计算前向传播的结果 y = mnist_inference.inference(x, None) #计算正确率 correcgt_prediction = tf.equal(tf.argmax(y, 1), tf.argmax(y_, 1)) accuracy = tf.reduce_mean(tf.cast(correcgt_prediction, tf.float32)) #通过变量重命名的方式加载模型 variable_averages = tf.train.ExponentialMovingAverage(0.99) variable_to_restore = variable_averages.variables_to_restore() saver = tf.train.Saver(variable_to_restore) #每隔10秒调用一次计算正确率的过程以检测训练过程中正确率的变化 while True: with tf.compat.v1.Session() as sess: ckpt = tf.train.get_checkpoint_state(minist_train.MODEL_SAVE_PATH) if ckpt and ckpt.model_checkpoint_path: #load the model saver.restore(sess, ckpt.model_checkpoint_path) global_step = ckpt.model_checkpoint_path.split('/')[-1].split('-')[-1] accuracy_score = sess.run(accuracy, feed_dict=validate_feed) print("After %s training steps, validation accuracy = %g" % (global_step, accuracy_score)) else: print('No checkpoint file found') return time.sleep(EVAL_INTERVAL_SECS) def main(argv=None): mnist = input_data.read_data_sets(r"D:\Anaconda123\Lib\site-packages\tensorboard\mnist", one_hot=True) evaluate(mnist) if __name__ == '__main__': tf.compat.v1.app.run()对代码进行改进

212 浏览量

以下代码有什么错误,怎么修改: import tensorflow.compat.v1 as tf tf.disable_v2_behavior() from PIL import Image import matplotlib.pyplot as plt import input_data import model import numpy as np import xlsxwriter num_threads = 4 def evaluate_one_image(): workbook = xlsxwriter.Workbook('formatting.xlsx') worksheet = workbook.add_worksheet('My Worksheet') with tf.Graph().as_default(): BATCH_SIZE = 1 N_CLASSES = 4 image = tf.cast(image_array, tf.float32) image = tf.image.per_image_standardization(image) image = tf.reshape(image, [1, 208, 208, 3]) logit = model.cnn_inference(image, BATCH_SIZE, N_CLASSES) logit = tf.nn.softmax(logit) x = tf.placeholder(tf.float32, shape=[208, 208, 3]) logs_train_dir = 'log/' saver = tf.train.Saver() with tf.Session() as sess: print("从指定路径中加载模型...") ckpt = tf.train.get_checkpoint_state(logs_train_dir) if ckpt and ckpt.model_checkpoint_path: global_step = ckpt.model_checkpoint_path.split('/')[-1].split('-')[-1] saver.restore(sess, ckpt.model_checkpoint_path) print('模型加载成功, 训练的步数为: %s' % global_step) else: print('模型加载失败,checkpoint文件没找到!') prediction = sess.run(logit, feed_dict={x: image_array}) max_index = np.argmax(prediction) workbook.close() def evaluate_images(test_img): coord = tf.train.Coordinator() threads = tf.train.start_queue_runners(coord=coord) for index,img in enumerate(test_img): image = Image.open(img) image = image.resize([208, 208]) image_array = np.array(image) tf.compat.v1.threading.Thread(target=evaluate_one_image, args=(image_array, index)).start() coord.request_stop() coord.join(threads) if __name__ == '__main__': test_dir = 'data/test/' import glob import xlwt test_img = glob.glob(test_dir + '*.jpg') evaluate_images(test_img)

2023-07-08 上传
329 浏览量