Tensorflow高级实践：自定义input_fn进行特征处理 - CSDN文库

tf.contrib.learn

PDF格式 | 103KB | 更新于2024-09-03 | 67 浏览量 | 举报

收藏

在Tensorflow中，利用tf.contrib.learn模块构建输入函数是一项重要的实践技巧，特别是在处理大量、复杂特征的数据集时。这种方法使得代码更为整洁，能够有效地进行特征预处理和模型训练。本文将详细介绍如何使用`input_fn`自定义输入管道，以及其在实际业务中的应用。首先，让我们回顾一下在基本的`tf.contrib.learn`框架中，我们通常如何处理数据。在训练神经网络时，例如在教程中，数据可以通过`load_csv_with_header`函数加载并直接传递给`.fit()`、`.evaluate()`和`.predict()`方法，如示例所示： ```python training_set = tf.contrib.learn.datasets.base.load_csv_with_header(filename=IRIS_TRAINING, target_dtype=np.int, features_dtype=np.float32) test_set = tf.contrib.learn.datasets.base.load_csv_with_header(filename=IRIS_TEST, target_dtype=np.int, features_dtype=np.float32) classifier.fit(x=training_set.data, y=training_set.target, steps=2000) ``` 然而，这种做法并不适用于所有情况，特别是当特征需要复杂的预处理，如缺失值处理、数据标准化、特征转换等。此时，`input_fn`的作用就显得尤为重要。 `input_fn`是一个用户自定义的函数，它的结构通常包括以下几个关键部分： 1. **函数定义**： ```python def my_input_fn(): # 这里是预处理和数据加载的逻辑 ``` 2. **数据加载**：在函数内部，你需要定义数据加载和解析的步骤。这可能包括读取文件、选择列、填充缺失值、转换数据类型等操作。 3. **创建迭代器**：输入函数应返回一个`tf.data.Dataset`对象，它负责按批次处理数据并将其转换为模型所需的格式。这可能涉及到数据的batching（批量处理）和shuffle（随机化）。 4. **标签处理**：如果你的数据包含标签，需要将它们从数据集中分离出来，并确保它们与输入数据匹配。 5. **数据产出**：最后，`input_fn`通常返回一个字典，其中包含特征键值对和标签（如果有的话），格式如下： ```python { 'x': feature_tensor, # 输入特征 'y': label_tensor, # 可选：目标变量 'num_epochs': None, # 数据是否无限循环，None表示默认 'shuffle': True, # 是否在每个epoch开始时打乱数据 'batch_size': batch_size # 批量大小 } ``` 通过`input_fn`，你可以灵活地定制数据预处理流程，并将其与模型无缝集成。这在处理大规模、多样化特征集，以及需要实时调整数据处理策略的场景中尤其有用。理解并熟练运用`input_fn`是提高Tensorflow工作效率和代码可维护性的重要一步。

Tensorflow 利用利用tf.contrib.learn建立输入函数的方法建立输入函数的方法

主要介绍了Tensorflow 利用tf.contrib.learn建立输入函数的方法,小编觉得挺不错的，现在分享给大家，也给大家

做个参考。一起跟随小编过来看看吧

在实际的业务中，可能会遇到很大量的特征，这些特征良莠不齐，层次不一，可能有缺失，可能有噪声，可能规模不一致，可

能类型不一样，等等问题都需要我们在建模之前，先预处理特征或者叫清洗特征。那么这清洗特征的过程可能涉及多个步骤可

能比较复杂，为了代码的简洁，我们可以将所有的预处理过程封装成一个函数，然后直接往模型中传入这个函数就可以啦~~~

接下来我们看看究竟如何做呢？

1. 如何使用如何使用input_fn自定义输入管道自定义输入管道

当使用tf.contrib.learn来训练一个神经网络时，可以将特征，标签数据直接输入到.fit(),.evaluate(),.predict()操作中。比如在笔

记04中就使用到了，复看一下代码：

# 将特征与标签数据载入

training_set = tf.contrib.learn.datasets.base.load_csv_with_header(

filename=IRIS_TRAINING, target_dtype=np.int, features_dtype=np.float32)

test_set = tf.contrib.learn.datasets.base.load_csv_with_header(

filename=IRIS_TEST, target_dtype=np.int, features_dtype=np.float32)

# 然后将两个数据喂给.fit()函数去训练

classifier.fit(x=training_set.data,

y=training_set.target,

steps=2000)

当原始数据不需要或几乎很少需要一些额外的预处理时，使用以上的方式到也不为过。然而在实际的业务中我们往往需要去做

大量的特征工程，于是tf.contrib.learn支持使用一个用户自定义的输入函数input_fn来封装数据预处理的逻辑，并且将数据通过

管道输送到模型中。

1.1 解剖解剖input_fn函数的结构函数的结构

以下是一个input_fn函数的基本结构：

def my_input_fn():

# Preprocess your data here...(首先预处理你的数据）

# ...then return 1) a mapping of feature columns to Tensors with

# the corresponding feature data, and 2) a Tensor containing labels

# 然后返回新的特征数据与标签数据（都是以tensor的形式）

return feature_cols, labels

输入函数的主体包括一个特定的预处理输入数据的逻辑，比如去除一些脏数据，弥补缺失数据，归一化等等。

输入函数的返回是两个部分：

（1）处理后的特征：feature_cols，格式是一个map，key是特征的名称，value是tensor形式的对应的特征列数据

（2）标签数据：labels，一个包含标签数据的tensor

1.2 如何将特征数据转换成如何将特征数据转换成tensors形式形式

如果你的特征/标签是存储在pandas的dataframe中或者numpy的array中的话，你就需要在返回特征与标签的时候将它们转换

成tensor形式哦~那么怎么转换呢，来看一个小例子。

对于连续型数据，你可以使用tf.constant创建一个tensor:

feature_column_data = [1, 2.4, 0, 9.9, 3, 120]

feature_tensor = tf.constant(feature_column_data)

对于稀疏型数据，类别下数据，你可以使用tf.SparseTensor来创建tensor:

sparse_tensor = tf.SparseTensor(indices=[[0,1], [2,4]],

values=[6, 0.5],

dense_shape=[3, 5])

可见，可见，tf.SparseTensor有有3个参数，分别是：个参数，分别是：

（（1））dense_shape

这是tensor的shape,比如dense_shape=[3，6],表示tensor有3*6共2个维度；dense_shape=[2,3,4]表示tensor有2*3*4共3个维

下载后可阅读完整内容，剩余3页未读，立即下载

查看更多

身份认证购VIP最低享 7 折!

30元优惠券

weixin_38637878

粉丝: 3

大学生入口

最新资源