基于高斯过程的大规模顺序回归问题的神经网络模型

136 浏览量更新于2023-10-12 收藏 2.1MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5301基于高斯过程的Yanzhu Liu，Fan Wang，Adams Wai KinKong南洋理工大学50 Nanyang Avenue，Singapore，639798网址：yzliu@ntu.edu.sg，fan005@e.ntu.edu.sg，网址：www.example.com，adamskong@ntu.edu.sg摘要基于深度神经网络（DNN）的方法具有对复杂数据的出色表示能力，是用于顺序回归问题的最新技术，该问题旨在将实例分类为顺序类别。然而，DNN无法捕捉不确定性并产生概率解释。作为一种概率模型，高斯过程（GPs）提供了不确定性信息，但对于大型数据集缺乏可扩展性。本文采用共轭和非共轭序似然方法，改进了传统的一般规划方法.在此基础上，它提出了一个深度神经网络，在顶部有一个GP层，通过随机梯度下降方法对神经网络参数和GP参数进行端到端的训练。有序似然函数中的参数被学习为神经网络参数，使得所提出的框架能够为训练集产生拟合的似然函数，并对测试点进行概率预测三个真实世界的基准-图像美学评级，历史图像分级和年龄组估计-的实验结果1. 介绍有序回归是一个监督学习问题，旨在预测具有自然顺序的离散标签。一个示例是明显年龄组估计，其基于诸如“婴儿”、“儿童”、“青少年”、“青年”、“年轻人”、“成年人”、“中年“和“老年”的顺序标度对面部图像进行分级。有序回归可以被视为度量回归的一种特殊情况，其中回归目标是离散和有限的，并且相邻标签之间的差异不一定相等。如果忽略标签之间的顺序关系，问题就变成了多类分类。近年来，深度神经网络（DNN）引起了人们的广泛关注，并在许多分类问题上表现良好。有一些作品[16][12][1] [13]使用DNN解决有序回归问题。它们都是通过考虑类别间的序关系，将序回归问题转化为如果将有序回归视为多类分类和度量回归之间的桥梁，则现有的基于DNN的有序回归方法从分类方面看待它。因此，他们更多地关注一个实例是否属于某个类别，而不是与其基础真值类别的接近程度。利用深度学习的表示能力和可扩展性，基于DNN的有序回归方法是最先进的。然而，它们也继承了标准DNN的局限性：无法像概率模型那样判断模型是否确定其输出。高斯过程作为一种概率模型，能够学习函数的分布，并能够为预测提供置信区间。为了从代表性和校准的概率建模中受益，最近已经投入努力将DNN和GP结合起来（[5][6][3]）。然而，大多数现有的尝试都是以单独的方式工作的：DNN用于提取特征，然后在深度特征上训练传统的GP [24]。Hinton Salakhutdinov[8]提出了一种端到端模型，但他们使用了大量未标记的数据来无监督地预训练深度信念网络（DBN），然后使用有限的标记数据对DBN + GP模型进行微调。对于大数据集，阻碍组合模型进行端到端训练的主要障碍是，如果以随机小批量方式进行优化，则不能保证GP的性能，特别是对于非高斯似然。Hensman等人[7]提出了一种变分方法，允许对GP分类进行随机优化据我们所知，目前还没有通过DNN和GP混合网络对有序数据进行建模的工作。本文将GP回归应用于有序回归5302通过涉及双S形似然函数，这是一种非共轭似然。Chu等人[4]采用高斯函数作为序似然函数，主要是因为它便于计算MAP或期望传播优化，但失去了对理想序似然的精确估计。遵循[7]中的变分方法，作为嵌入卷积神经网络的网络层，所提出的用于有序回归的GP以随机小批量方式进行训练。似然函数中的参数也被训练为网络参数。因此，所提出的方法产生拟合的可能性和预测的不确定性。本文的贡献突出如下：1. 据我们所知，该方法是适用于大型数据集的顺序回归深度概率模型的首次尝试2. 它扩展DNN和GP混合网络与随机优化的共轭和非共轭序数似然。3. 将有序似然函数中的参数学习为神经网络参数，使得所提出的框架能够为训练集产生拟合的似然函数。本文的其余部分组织如下。第2节回顾了有序回归的文献。第3节和第4节描述了建议的似然函数和网络架构。第5节报告了实验结果，第6节给出结论性评论。2. 相关工作Niu等人声称[16]中的适应DNN是第一个用于顺序回归的深度学习模型。对于一个m秩有序回归问题，他们构造了m-1个二元分类器，第k个二元分类器和单个CNN用于组合所有分类器并输出实例的k-1个预测。最终的预测从这些k-1个输出中解码。Liu等[12]更多地关注小数据集的有序回归，提出了通过DNN从三个实例中探索有序数据关系。将m阶有序回归问题转化为m个二元分类问题，该问题的三元组元素来自不同的秩作为输入。第k个分类器回答了k+ 1？”使用m个单独的CNN，并通过多数投票进行实例的预测。在这两种方法中，都需要解码器来恢复预测的秩。从有序分类器的输出中提取。[13]提出了一种用于有序回归的约束DNN（CNNPOR）其最小化了具有回归约束的多类分类损失，该CNNPOR在没有解码的情况下获得了实例的预测，并在零-一错误方面实现了最先进的正交回归性能。上述方法都是从分类的角度来处理有序回归问题它们没有捕捉到实例的秩与地面真值的接近程度。换句话说如果一个实例属于秩k，它被预测为k-1的概率不一定比被预测为k-2的概率高。在文献中，有手工制作的基于特征的方法从回归的角度解决有序回归问题。对于m阶有序回归问题，假设存在一个将实例映射到实数线的隐函数。存在m-1个边界，将实直线分成m个连续的区间，对问题的m个类别作出响应。这种类型的有序回归方法的目标是学习映射函数和边界。[4]（GPOR）提出将GP回归推广到有序回归.他们使用高斯似然作为理想有序似然的近似由于求解GP的计算量很大，GPOR仅在小的手工特征数据集上执行。为了减少计算成本的推断GP，许多变分方法已被提出的GP回归。Hensman等人[7]示出了一种变分的方法，使GP被优化的随机小批量的方式，如果可能性是高斯。在[7]中，Hensmanet al.扩展了多类分类的方法，它具有非共轭似然性（见第3节）。本文将其推广到非共轭似然的有序回归.3. 有序回归的可标度变分高斯过程考虑了m阶有序回归问题。具有标记实例的训练集D={（xi ，yi）|xi∈X，yi∈Y}是giv en，其中X是输入空间，Y ={1，2，···，m}是标号空间，Y中数的自然序表示秩的顺序.目标是预测任何新输入xt∈ X的秩标签yt∈ Y。3.1. 高斯过程回归高斯过程是随机变量的任意有限子集服从多元高斯分布的随机过程。它定义了潜函数f上的分布p（f）。假设f的先验分布为零均值多变量高斯分布，p（f）=N（f|0，Knn），其中Knn为协方差矩阵5303n*.nmk1i=1iiK(a)一个秩的高斯似然函数（b）一个秩的Logistic似然函数（c）为a5-秩序回归问题图1：Likestive函数示例Knn=K（x，x）且K（·，·）是一个核函数。高斯过程回归的似然函数定义为p（y|f）=f+ε，其中ε<$N（0，σ2I）。利用高斯似然函数，给定新输入向量x的边际似然和预测分布可以解析地导出为：p（y）= N（y|0，Knn+ σ2I）（1）和3.2.1一个非共轭序似然函数除了上面介绍的高斯噪声外，我们还将有序回归的似然性扩展到任何累积密度函数的差异。在本文中，我们只讨论逻辑似然，与高斯似然相比，它更接近无噪声似然（图1）。该方法可以自然地扩展到其他似然函数。更具体地，逻辑似然性可以写为：p（y*|x，D）= N（y|K（K+σ2I）−1y，b−fbk−1−fnp（y =k|f）= sig（ki）−sig（i）（5）K -K（K+σ2I）−1K ）（2）i iσ σ其中，Kn和K是协方差矩阵Kn=K（x，x）且K=K（x，x）。3.2. 序数Likes在有序回归中，定义了无噪声似然其中sig（·）是sigmoid函数，sig（x）=1/（1+e−x）。3.3. 正交回归的可分级变分高斯过程高斯过程对于大型数据集是低效的，当签署人：p（yi=k|fi）=.1，如果bk−1fi≤bk0，否则（三）训练，这需要对矩阵Knn+σ2I求逆，并且O（N）和O（N2）用于基于逆计算预测分布解决这个稀疏伪输入高斯过程（SPGP）其中−∞=b060• Adience Face Benchmark [10]有8个年龄组的15966张人脸图像：0 -2、4-6、8-13、15-20、15- 20、25- 32、38-43和60岁以上。的图像不同年龄组的数据不平衡。图5显示了示例人脸图像，表1在第四列中列出了该数据集被用来评估GP-DNNOR的可扩展性以及在具有不平衡训练样本的相对大数量的秩上的性能在实验中，五重分区遵循[10]进行公平比较。GP-DNNOR 在 TensorFlow 中实现， GPs 层使用GPflow实现[15]。GP层从x′到E（x′）的计算操作是一个标准的GP回归，通过引入一个潜变量Z作为伪输入来支持基于批处理的计算。所有深度方法都采用VGG-16作为基本架构，卷积层和全连接层都是从ImageNet上预训练的权重进行微调的在所有三个数据集的GP-DNNOR训练中，小批量的大小为150，f和b的学习率均为0.0001。GP-DNNOR的最后一个全连接层中的神经元数量为100，诱导点的数量设置为150. 在实验中，图像被调整为256×256像素，并在学习过程中被随机裁剪为224×224像素在本节的其余部分，我们首先将GP-DNNOR与其他概率和非概率模型进行比较，然后得出GP-DNNOR提供的不确定性信息的重要性。我们采用平均绝对误差（MAE）和准确性作为比较指标。请注意，准确度不足以评估有序回归，因为它只计算正确分类的样本和忽略的有序错误的数量。如果两种方法A和B将输入样本分配到第三阶和第十阶，但其基础真值标签是第二阶，则它们在精度方面的误差完全相同。MAE被认为更适合于评价有序回归，它将更多的权重放在测量真实和预测秩之间的距离上。5.1. 与概率模型比较的结果据我们所知，GP-DNNOR是第一次尝试将概率属性引入深度有序回归。我们将我们的方法与CNNm- GP[2]进行了比较，CNNm-GP是一种端到端模型，GP分类层位于DNN的顶部。CNNm-GP更侧重于多类分类，其顶层使用多类逆链接似然函数[7]，而GP-DNNOR则是针对有序回归设计的，具有更复杂的有序似然。此外，如图2所示，GP-DNNOR包括一个学习决策界的学习层ariesb={b1，b2，. . . ，bm-1}，如第4节所述评估概率方法的实验是一致的，在上述三个数据集上进行了分类。表2总结了MAE和准确度方面的结果。5309表2：与概率模型城市意象美学历史彩色图像Adience Face准确度（%）Mae准确度（%）Mae准确度（%）MaeCNNm-GP[2]63.170.4149.98±2.900.84±0.0846.1±10.00.78±0.11GP-DNNOR68.290.3246.60±2.980.76±0.0557.4±5.50.54±0.07对于图像美学和Adience Face数据集，我们提出的GP-DNNOR在准确度和MAE方面都优于CNNm-GP，而对于历史彩色图像数据集，它的准确度低3.4%，但MAE更好。我们注意到，历史彩色图像数据集作为一个分类问题是非常困难的，未经训练的人类注释者只能达到26%的准确率[17]。由于其相邻等级之间的模糊边界的属性，GP-DNNOR，作为一种有序回归方法，它被训练来减少MAE，在分类到精确等级时落后。值得注意的是，被GP-DNNOR错误分类的样本可能落入相邻秩中，而被CNNm-GP错误分类的样本分布更随机。值得注意的是，存在CNNm- GP和GP-DNNOR的一些变体，例如，分别和联合训练的虽然这些变化没有达到GP-DNNOR的预期实验结果，但它们对所提出的方法的不同组分的贡献在图像美学数据集上分别用高斯和Logistic序似然训练CNN和GP时，准确率为67。百分之十四，六十七。37%，MAE为0。35，0。34、分别类似地，用高斯有序似然而不是提出的Logistic似然进行训练，达到了67。32%的准确率和0。34MAE.5.2. 与非概率模型为了全面评估所提出的方法，GP-DNNOR还与最先进的深度有序回归方法进行了比较，这些方法不包含有关不确定性的信息。RED-SVM[11]，Niu等人的方法[16]和CNNPOR[13]是一般有序回归的基线方法，传统的非概率和非有序多类DNN（由CNNm表示）的结果引用自[13]。表3给出了GP-DNNOR与非概率模型的比较结果。据观察，GP-DNNOR对于所有三个数据集一致地实现最佳MAE性能。在精度方面，GP-DNNOR在城市图像美学和历史色彩数据集上分别比CNNPOR给出的最佳基准低0.8%和3.52%，但在Adience人脸数据集上性能最好应该强调的是，在交流方面，这些方法比GP-DNNOR表现得更好精确性不是概率性的，并且不能提供不确定性信息。作为参考，非概率模型的比较表明，GP-DNNOR发挥了有序回归的优势，通过减少MAE，并提出了可比的准确性性能。此外，GP-DNNOR还能够解释预测的不确定性信息5.3. 不确定度分析与其他基于高斯过程的模型一样，GP-DNNOR方法也提供了一种概率性的正交回归方法.它不仅根据后验均值为测试样本分配标签，而且还提供了不确定性信息，即，模型将测试样本分配给特定标签的可能性。如图所示在图6中，给定一组测试样本，GP-DNNOR将 b3

下载后可阅读完整内容，剩余1页未读，立即下载