Tensorflow高级实践：自定义input_fn进行特征预处理

PDF格式 | 101KB | 更新于2024-08-30 | 98 浏览量 | 举报

在TensorFlow中，利用tf.contrib.learn模块进行深度学习时，建立输入函数（input_fn）是处理复杂特征和进行数据预处理的关键步骤。在实际业务场景中，由于特征可能包含大量、多样且可能存在各种问题，如缺失值、噪声、不同类型和大小不一等，预先清洗和整理特征变得至关重要。为了保持代码简洁和易于维护，我们可以将预处理逻辑封装在一个单独的函数中，这个函数就是input_fn。 `input_fn`的作用是创建一个定制化的数据输入管道，它接受数据并将其转换为模型所需的格式。当使用tf.contrib.learn中的方法，如`.fit()`、`.evaluate()`和`.predict()`时，可以直接传递这个函数，使得模型能够自动处理预处理后的数据。在使用`input_fn`时，通常的步骤包括： 1. 数据加载：首先，从外部源（如CSV文件）加载特征和标签数据，如示例中的`load_csv_with_header`函数，将数据类型转换为模型所需的格式。 2. 数据预处理：在`input_fn`内部实现数据清洗、转换、填充缺失值、标准化或编码等操作。这部分可以根据具体业务需求灵活编写，例如处理类别变量、归一化数值特征等。 3. 数据产出：函数返回一个字典，其中键对应特征列，值为处理后的张量（Tensor），以及标签（如果有的话）。这个字典的结构通常是`{feature_column_1: Tensor, feature_column_2: Tensor, ...}`。 4. 调用模型方法：最后，将`input_fn`作为参数传递给`.fit()`、`.evaluate()`或`.predict()`，模型根据这些预处理的数据进行训练、评估或预测。例如，一个简单的`input_fn`可能如下所示： ```python def my_input_fn(): # 加载和预处理数据 features, labels = load_and_preprocess_data() # 创建特征和标签的张量映射 feature_columns = ... # 根据需要定义特征列 feature_tensors = {fc.name: tf.constant(value) for fc, value in zip(feature_columns, features)} label_tensor = tf.constant(labels) # 返回数据和标签 return feature_tensors, label_tensor ``` `input_fn`是TensorFlow中处理复杂数据输入的关键组成部分，它允许开发者集中管理预处理逻辑，使模型训练更加高效且易于维护。理解并熟练使用`input_fn`能够显著提升在实际业务场景下机器学习模型的开发效率。

Tensorflow 利用利用tf.contrib.learn建立输入函数的方法建立输入函数的方法

在实际的业务中，可能会遇到很大量的特征，这些特征良莠不齐，层次不一，可能有缺失，可能有噪声，可能规模不一致，可

能类型不一样，等等问题都需要我们在建模之前，先预处理特征或者叫清洗特征。那么这清洗特征的过程可能涉及多个步骤可

能比较复杂，为了代码的简洁，我们可以将所有的预处理过程封装成一个函数，然后直接往模型中传入这个函数就可以啦~~~

接下来我们看看究竟如何做呢？

1. 如何使用如何使用input_fn自定义输入管道自定义输入管道

当使用tf.contrib.learn来训练一个神经网络时，可以将特征，标签数据直接输入到.fit(),.evaluate(),.predict()操作中。比如在笔

记04中就使用到了，复看一下代码：

# 将特征与标签数据载入

training_set = tf.contrib.learn.datasets.base.load_csv_with_header(

filename=IRIS_TRAINING, target_dtype=np.int, features_dtype=np.float32)

test_set = tf.contrib.learn.datasets.base.load_csv_with_header(

filename=IRIS_TEST, target_dtype=np.int, features_dtype=np.float32)

# 然后将两个数据喂给.fit()函数去训练

classifier.fit(x=training_set.data,

y=training_set.target,

steps=2000)

当原始数据不需要或几乎很少需要一些额外的预处理时，使用以上的方式到也不为过。然而在实际的业务中我们往往需要去做

大量的特征工程，于是tf.contrib.learn支持使用一个用户自定义的输入函数input_fn来封装数据预处理的逻辑，并且将数据通过

管道输送到模型中。

1.1 解剖解剖input_fn函数的结构函数的结构

以下是一个input_fn函数的基本结构：

def my_input_fn():

# Preprocess your data here...(首先预处理你的数据）

# ...then return 1) a mapping of feature columns to Tensors with

# the corresponding feature data, and 2) a Tensor containing labels

# 然后返回新的特征数据与标签数据（都是以tensor的形式）

return feature_cols, labels

输入函数的主体包括一个特定的预处理输入数据的逻辑，比如去除一些脏数据，弥补缺失数据，归一化等等。

输入函数的返回是两个部分：

（1）处理后的特征：feature_cols，格式是一个map，key是特征的名称，value是tensor形式的对应的特征列数据

（2）标签数据：labels，一个包含标签数据的tensor

1.2 如何将特征数据转换成如何将特征数据转换成tensors形式形式

如果你的特征/标签是存储在pandas的dataframe中或者numpy的array中的话，你就需要在返回特征与标签的时候将它们转换

成tensor形式哦~那么怎么转换呢，来看一个小例子。

对于连续型数据，你可以使用tf.constant创建一个tensor:

feature_column_data = [1, 2.4, 0, 9.9, 3, 120] feature_tensor = tf.constant(feature_column_data)

对于稀疏型数据，类别下数据，你可以使用tf.SparseTensor来创建tensor:

sparse_tensor = tf.SparseTensor(indices=[[0,1], [2,4]],

values=[6, 0.5],

dense_shape=[3, 5])

可见，可见，tf.SparseTensor有有3个参数，分别是：个参数，分别是：

（（1））dense_shape

这是tensor的shape,比如dense_shape=[3，6],表示tensor有3*6共2个维度；dense_shape=[2,3,4]表示tensor有2*3*4共3个维

下载后可阅读完整内容，剩余4页未读，立即下载

身份认证购VIP最低享 7 折!

30元优惠券

weixin_38650951

粉丝: 5

Tensorflow高级实践：自定义input_fn进行特征预处理

Tensorflow中tf.ConfigProto()的用法详解

TensorFlow-2.x教程：TensorFlow 2.x版本的教程和示例，包括CNN，RNN，GAN，自动编码器，FasterRCNN，GPT，BERT示例等。TF 2.0版入门实例代码，实战教程

Tensorflow：tf.contrib.rnn.DropoutWrapper函数(谷歌已经为Dropout申请了专利！)、MultiRNNCell函数的解读与理解

tf.contrib.learn.preprocessing替代

面向机器智能的 TensorFlow 实践代码实现，基于tensorflow1.4版本.zip

tensorflow2.0中from tensorflow.contrib import learn修改

tensorflow2.0中from tensorflow.contrib import learn替代

tensorflow2.0中from tensorflow.contrib import learn修改代码

在tensorflow2.0怎么用from tensorflow.contrib import learn

最新资源