没有合适的资源?快使用搜索试试~ 我知道了~
用于数据集复杂性评估的累积谱梯度(CSG)指标的准确性与效率
3215、用于数据集复杂性评估的Fre'de' ricBranchaud-Charron1,Andre wAchkar2,Pierre-MarcJodoin11Universite' de Sherbrooke,2Miovision Inc.1 2∗{frederic.branchaud-charron,pierre-marc.jodoin}@aachkar@miovision.com usherbrooke.ca摘要在本文中,我们提出了一个新的措施来衡量图像分类问题的复杂性。给定一个注释的图像数据集,我们的方法计算一个复杂性的措施,称为累积谱梯度(CSG),这与卷积神经网络(CNN)的测试精度密切相关。CSG度量是从光谱聚类框架中类之间的概率分歧中推导出来的我们表明,这个指标correlates与数据集的整体可分性,从而其固有的复杂性。正如将要展示的那样,我们的度量可以用于数据集缩减,以评估哪些类更难解开,并近似于CNN所期望的在11个数据集和三个CNN模型上获得的结果表明,我们的方法比以前的复杂性测量更准确,更快。1. 介绍设计用于训练深度卷积神经网络(CNN)的基于图像的数据集的数量在过去几年中一直在增加[8,11,23,25,29,35,44]。其中一个原因是CNN在分类图像数据方面无可争议的效率[9,17,23,39]。在构建用于训练CNN的新图像数据集时出现的一个常见挑战是识别分类问题的挑战程度,哪些类最难解开,以及相应地训练CNN所需的最小数据集大小。到目前为止,还没有一个标准的框架来进行这种终止。评估图像数据集复杂性的常用方法是通过训练、微调和比较来自多个CNN的结果,测试精度是复杂性的常用度量。然而,这个过程是耗时的,最重要的是,需要一个完全注释的数据集,而在构建它的过程中是不可用的这项工 作得到了MITRNT B1 208594 和Mitacs accel- eration IT08995的支持。不幸的是,人们不能仅仅通过查看其架构来预测CNN的准确性正如Zhanget al. [45]在他们试图理解为什么深度神经网络具有良好的泛化能力时,深度神经网络可以很容易地在任何输入数据(包括纯随机噪声)上实现零训练误差。这强调了CNN将任何输入数据投影到线性可分空间(因此具有零训练误差)的唯一能力,同时有时具有较差的泛化能力。他们的结论是,神经网络的结构、超参数、深度和优化器不能单独用来预测其泛化能力。评估分类问题的复杂性可以从分析手头的数据开始,目标是导出有用的复杂性度量(c-度量)[2,3,14,18,41]。C-措施的目标是假设具有重叠类的数据集比具有良好分离类的数据集更难分析,以评估纠缠类的程度。C-测度已被证明对许多应用有效,例如分类器选择[7],自动噪声过滤调整[38],数据集缩减[26]和超参数调整[31]。不幸的是,现有的c-测度尚未针对用于训练深度神经网络的大型图像数据集进行设计。虽然一些c-测度假设类在其原始特征空间中是线性可分的[18],但其他c-测度仅适用于两类问题[2,3,19]。此外,一些c-度量非常慢并且内存昂贵,因为它们需要分析其大小与训练样本的数量和/或特征维度大小相当的矩阵[3,14]。现有c-度量的另一个重要限制是它们处理原始输入数据。虽然这对一些分类问题是有效的[7],但它不适合深度神经网络,因为它们的学习过程允许它们将输入数据投影到不同的、更容易分离的空间上。在本文中,我们提出了一种新的c-措施,适应现代图像分类问题。我们的方法不像以前的方法那样处理原始输入数据,而是首先将输入图像投影到一个低维的LA上,3216帐篷空间这允许分析其特征更好地适应CNN学习的数据。然后,我们的方法估计成对的类重叠的蒙特卡罗方法,从而导致类间相似性矩阵。以下利用谱聚类理论,我们计算了一个K×K的拉普拉斯矩阵,其中K是类的个数。 最后这个矩阵的谱被用来导出我们的累积谱梯度(CSG)c-测度。我们提出的c-测度的主要优点如下:1. 它自然地与数据集中的类别数量和图像数量成比例;2. 我们的度量是快速计算,不需要计算过大的矩阵;3. 它对数据的分布没有预先假设;4. 它提供了一个强大的洞察力,哪些类是容易分离的,那些是纠缠在一起的;5. 该度量与CNN泛化能力高度相关;6. 它可以很容易地用于数据集缩减。2. 以前的作品C-测度的目标是描述分类问题的难度。虽然过去已经提出了几种c-测度,但Ho和Basu的c-测度是迄今为止使用最广泛的[18]。他们提出了12种不同的描述符,称为F1,F2,F3,L1,L2,L3,N1,N2,N3,N4,T1和T2。F1是Fisher判别比,F2测量类间重叠,F3是可以用树桩决策函数正确分类的点的最大分数。L1、L2和L3度量数据的线性可分性,而N1、N2、N3和N4是估计类间重叠的最近邻度量。至于T1,它测量可以适合于类的特征空间的超球体的总数,T2是训练样本的总数N除以数据的维数d之间的比率。虽然Ho和Basu的c-度量已被证明对小型非图像数据集有效[7],但这些度量不太适合分析大型和复杂的图像数据集。例如,F1、F2、F3、L1、L2和L3假设数据是线性可分的,这在考虑现代图像数据集时是过于简单的假设。 F1要求d×d矩阵的计算,这对于大d(即,对于中等到大图像)和F3来说是有问题的通过独立地考虑每个特征来测量每个类的线性可分性,当N和d都很大时,这是非常慢的。当N变大时,T1也非常慢,因为它需要在每个数据点周围生长一个超球体,而T2不是一个很好的复杂度预测器,这将在结果部分中显示。虽然Ho和Basu此外,尽管最近提出了Ho-Basu c-测度的推广[2,12,41],但没有明确解决大型图像数据集的分类问题。还 提 出 了 其 他 C 措 施 。 例 如 , Baumgartner 和Somorjai [3]提出了一种适用于具有高维数据的小型生物医学数据集的度量。不幸的是,他们的c-测度是针对两类问题的,假设数据是线性可分的,并且需要去N×d矩阵的复合,仅当N和d都很小。杜因和佩卡尔斯卡[14]量化了数据集的复杂性,其度量来源于大小为N×M的耗散矩阵,其中N是训练集大小,M是从训练集中随机采样的“表示”向量的数量 他们报告了七个方面的结果-包括两个图像数据集的所有数据集,其中包含2000个或更少的黑白数字。作者使用欧氏距离来衡量两张图像之间的相似性,这是一种不能很好地推广到现实世界图像的度量[43]。像我们一样,一些方法从数据集构建一个图来表征类内和类间关系[15,34]。这种方法需要构建一个N×N距离矩阵,这对于大型数据集来说是有问题的内存。例如,[28]中的中心得分需要计算ATA,其中A是N×N邻接矩阵。据我们所知,Liet al. [27]是唯一提出了专门应用于现代图像数据集和深度神经网络的c度量他们称他们的测量为内在维度,这是模型达到最佳性能所需的最小他们表明,增加更多的神经元超过内在尺寸并不能提高测试的准确性。不幸的是,与我们寻求做的相反,他们的措施需要通过网格搜索方法对图像分类CNN进行多次训练,这是缓慢而繁琐的。关于c-测度的更多细节可以在[28]最近的调查论文中找到3. 该方法3.1.类重叠在我们的C-措施的核心是类重叠的概念。设x为输入图像,φ(x)∈IRd为该图像的嵌入.如稍后将讨论的,φ可以是将X投影到新的维度空间的任何函数,在该新的维度空间中,具有相似内容的图像靠近在一起,并且另一个更远的地方。 两个类Ci和Cj之间的重叠是指特征空间中的总面积,对于 该 总 面 积 , |Ci )>P( φ(xk )|Cj)当φ(xk)是3217ΣΣC类J。因此,类重叠可以用公式表示为[36]:min(P(φ(x)|Ci),P(φ(x)|Cj))dφ(x).(一)IRd不幸的是,对于非参数分布和当d(嵌入空间的维数)很大时,该积分的直接计算过于复杂。由于两个类别之间的重叠与其分布的相似性有关,因此可以使用概率分布距离函数,例如Kullback-Leibler散度或Kolmogorov-Smirnov检验作为等式2的替代。(一).一个这样的函数是Jebara等人的概率积核。[22]:P(φ(x)|Ci)ρP(φ(x)|Cj)ρdφ(x)(2)IRd这是Bhattacharyya核(和Hellinger距离)在ρ= 1/2时的推广。 在计算Eq. (2)它和计算Eq一样复杂。(1)对于任意的ρ值,当ρ= 1时,出现简化。在这种情况下,内核成为这个数据集的复杂性。为此,我们依赖于我们在本节中简要回顾的谱聚类理论[42]设G是无向相似图G=(V,E)其中V是由边E连接的节点的集合。一个边Eij是连接两个节点i和j的弧,并且其权重wij≥0编码这两个节点之间的距离。 权重为0意味着i和j之间没有联系,而大权重意味着强相似性(在我们的例子中,权重为1意味着i和j是相同的)。所有边的权值被放在一个n×n的邻接矩阵W中,其中n是节点的总数 注意,由于图的无向性质,W是对称的和半正定的,这意味着wij=wji。谱聚类的目标是将图G划分成若干个子图,使得子图之间的边具有最小权值。 一组子图{G1,...,Gl}有效,当GiGj=,i/= j和G1. l= G. 最佳G的分割是一个切割具有最小成本的分割:costCut(G1,.,G1)=wij,i和j在不同的子图中。谱聚类提供了一个优雅的框架,重新两种分布IRd P(φ(x)|Ci)P(φ(x)|Cj)dφ(x),用最小割覆盖子图 它建立在一个拉普拉斯矩阵,其最简单的形式为L=D−W是一个分布在另一个分布下的期望值:EP(φ(x)|C)[P(φ(x)|Cj)]或EP(φ(x)|C)[P(φ(x)|Ci)]。其中D是度矩阵Di=jwi,j. L是对称的,i,j度量和半正定,它包含n个特征值将类间差异公式化为期望函数允许使用蒙特卡罗来近似它:1ME[P(φ(x)|C)] φP(φ(x)|C)(3){λ0 , ... , λn−1} 是 实 数 且 非 负 的 , 其 中 λ0= 0 且λi+1≥λi。这组特征值称为L的谱。 有趣的是,与特征值可以被看作指示向量,P(φ(x)|Ci)jMmjm=1可以用来切割图形。此外,其关联特征值的大小与其切割的成本有关[33]。作为其中{φ(x1),.,φ(xM)}是M个样本i.i.d. 从P(φ(x)|Ci)。因此,我们可以通过平均以下概率来近似两类分布之间的分歧:类Ci的M个样本在类Cj中,反之亦然。 计算类间分歧导致K × K相似性矩阵S,其中K是类的总数,Sij是Ci和Cj。由于P(φ(xm))的基本模型|Cj)是先验的未知,我们用K-最近估计器近似它:KC这样,与最低本征值相关联的本征向量是与最小成本的分区相关联的本征向量。3.3. 类间邻接矩阵我们制定我们的C-措施内的频谱聚类- ING框架,每个节点是一个类索引。在我们的例子中,W和L是K×K矩阵,其中K是类的总数。因此,权重wi,j是类别Ci和Cj的似然分布之间的距离。因此,一个简单的数据集,每对类都有p(φ(x)|Cj)=jMV(四)小的重叠将产生稀疏拉普拉斯矩阵L其频谱包含小的本征值。另其中V是类Cj中k个最接近φ(x)的样本周围的超立方体的体积,M是类C j中选择的样本的总数,KCj是类Cj的φ(x)周围的邻居的数量。3.2. 谱聚类K×K相似性矩阵S通过类重叠体现了数据集我们的目标是从S中提取一个度量,∫∫3218另一方面,具有更强类别重叠的更复杂的数据集将导致具有更大特征值的谱。由于相似性矩阵S是用Jebara核的Monte-Carlo近似获得的,所以它不是对称的,因此不能用作邻接矩阵W.相反,我们将每列Si视为每个类都是具有相似似然分布的两个类bitions也将具有类似的签名向量Si,反之亦然。 然后,我们计算W遵循Bray-Curtis3219=1 − kikjk。(五)数据集CSG急诊室mnist 105.510.91mnist 95.040.78mnist 84.530.69mnist 73.790.61mnist 63.310.51mnist 52.700.39mnist 42.160.30mnist 31.520.18mnist 20.840.13MNIST0.120.01图1:[左] MNIST的十个噪声版本的频谱和[右]我们的CSG c-测量,误差率(E.R.)AlexNet CNN(最佳彩色图)。距离函数[16]:我们通过处理原始图像获得的MNIST数据集的光谱(最底部的青色曲线)。由于MNIST包含10个类,其谱包含10个本征值。作为一个简单的数据集,MNIST然后,我们在类之间随机交换元素,以迫使它们的分布强烈重叠,使这种嘈杂的MNIST版本更加复杂。我们首先在两个类(MNIST 2)之间交换元素,然后在三 个 类 ( MNIST 3 ) 之 间 一 直 到 10 个 类 ( MNIST10)。如可以看到的,这些噪声版本的MNIST导致频谱轮廓的温和进展纠缠类越多,本征值越大. 此外,越早出现强光谱梯度-curs(λi+1−λi)数据集越困难(这个梯度),ΣK |S- S型|在谱中,不连续性也称为本征间隙。聚类文献[42])。伊杰·吉克|S+Sjk|因此,数据集的整体复杂性与以下因素有关:这个方程意味着当类i和类j的 分 布不重 叠 时, w i j= 0,当分布相同时,wij=1。3.4. 运行时改进光谱曲线下的面积以及本征间隙的位置。为了解释这两个观测结果,我们首先通过其水平位置对本征间隙进行归一化:λi+1−λi使用Bray-Curtis函数以及Monte-Carlo方法计算邻接矩阵W(等式2)。(3))为40λ.(六)K−i比简单的实现快一倍(等式(2))一个K=10的类问题。这就解释了为什么我们的方法速度快,即使样本数量很少也能得到很好的结果我们得出的数字如下。首先,让我们提到计算最密集的操作是概率分布函数(pdf)P(φ(x))的逐点估计。|C)的范围内。自从计算机当量(2) 需要P(φ(x))的M个估计|Cj),K×K相似性矩阵S需要总共K2×Mpdf估计,K-i的归一化是我们度量的核心根据最大本征能隙出现的位置,它的最大值只能是K-i。因此,切割图的难度与最大本征间隙的位置有关。我们的c-测度(累积谱梯度(CSG))是nor的累积最大值(cummax)归一化本征间隙:CSG=cumm ax(λ)i.(七)其中K是类的数量,M是数量的样本。因为EQ。(5)由于不需要额外的pdf估计,我们的方法需要总共 K2×M个pdf估计来计算邻接矩阵W。然而,由于Bray-Curtis距离函数结合了两个R-K向量Si和Sj,它在W的每个入口wij处包含了2×K×M样本的统计量。 如果原始实现使用相同数量的样本,即wij可以用2×K×M来计算,样品和Eq. (2),则计算W需要总共4×K3×M个pdf估计,即4×K多的pdf估计比我们的方法。 由此我们得出结论当K= 10时,我们的方法比简单的实现快40倍。请注意,这些发现与实证结果一致。3.5. CSG复杂性度量如前所述,具有低本征值谱的数据集指示低类间重叠,从而指示容易分离的类。为了说明这一点,我们把图。1我在曲线下面积相同的两个光谱之间,如果有一个cummax,我们的CSG测度将大于具有最左边本征间隙的光谱。噪声MNIST数据集的CSG值显示在图的右侧。1以及使用AlexNet CNN获得的测试错误率[24]。可以看出,我们的CSG c度量与数据集的复杂性高度相关我们的方法总结在算法1中。4. 结果4.1. 嵌入如前所述,输入图像x被投影到具有函数φ(x)的嵌入空间。在本文中,我们测试了四个投影函数:1. Raw;恒等函数φ(x)=x;2. t-SNE; t-SNE函数[30],将原始输入图像向下投影到2D空间;WKik3220算法一:CSGc-measure算法数据:数据集={(φ(x1),t1),..., (φ(xN),tN)}Args:M,k结果:CSG评分计算类间相似性矩阵S,公式如下:(3)(4)类Ci,Cj的n对计算W(等式(五))L←D −W{λ1,…λK} ← EigenValues(L)计算CSG(等式(七))返回CSG3. CNNAE; 9层CNN的嵌入-自动编码器训练了100个epoch;4. CNNAEt-SNE;应用于CNN自动编码器的嵌入的t-SNE函数。4.2. 数据集为了衡量我们的方法的性能,我们使用了几个不同难度的图像分类数据集。在这些数据集中,六个包含10个类,一个包含11个类,三个包含两个类。这些数据集总结在表1中,并根据测试错误率(E.R.)用AlexNet CNN获得[24]。请注意,我们用batch-norm [20]替换了AlexNet本地响应范数,在每个数据集上训练了500个epoch,批量大小为32,SGD优化器的参数与原始文件相同,但没有数据增强。我们使用Keras [10],Tensorflow [1]和Nvidia Titan X GPU。数 据 集 是 众 所 周 知 的 MNIST [25] 和 CI-FAR 10[23]。还有MNIST [8],一个由非常规字体组成的18,724个字母的合成数据集,以及街景门牌号(SVHN)数据集[35],这是最具挑战性的数字分类数据集之一,其中包含73,257张低分辨率街道号码图像。我们还使用了MioTCD [29],这是一个由交通摄像机拍摄的648,959辆车辆的大型数据集,具有不同的方向角度,分辨率,一天中的时间和天气条件。STL- 10 [11]是一个类似于CIFAR-10的10类数据集,但更大的图像(96×96而不是32×32)和更少的训练样本(5,000而不是50,000)。[14]食,是一种。两类数据集(热狗vs无热狗),其中498个样本来自Food-101数据集[6]。我们还使用了著名的Inria行人数据集[13],其中包含38,634张行人或非行人的RGB图像,以及Pulmo-X [21],这是一个用于结核病检测的两类肺部胸部X射线数据集,包含662张图像。最后,CompCars [44]是一个包含1,716种不同品牌汽车类别的数据集和不同机型在我们的实验中,我们选择了计数最高的10个品牌,并将图像大小调整为128×128,数据集急诊室KN内容MNIST0.011050k手写数字MIO-TCD0.0311649k交通图像非MNIST0.051018.7k印刷体数字SVHN0.081073.3k印刷体数字INRIA0.1023.6k行人CIFAR100.121050k各种真实图像Pulmo-X0.232662肺部X线检查鲜食谱0.382500食品图片STL-100.68105k各种真实图像CompCars0.70106k汽车图片表1:用于验证我们的方法与测试错误率(E.R.)的数据集AlexNet CNN的[24],类的数量K,训练集大小N和简短的摘要。每堂课有500个我们遵循每个数据集的特定评估方法,即我们在与数据集一起提供的训练和测试集上训练和测试了这些方法。对于没有预先确定的训练/测试分割的两个数据集(不是MNIST和Pulmo-X),我们进行了80-20的训练/测试分割,并保持相同的类比例。4.2.1超参数我们的算法有两个主要的超参数:M- ber的MonteCarlo方法在方程中使用的每类的样本(3)以及k是计算 等 式 中 每 个 类 的 相 似 性 分 布 的 邻 居 的 数 量(四)、在表2中,我们显示了我们的c-measure与CNNAE t-SNE 嵌 入 之 间 的 Pearson 相 关 性 得 分 和AlexNet在六个10类数据集上的错误率(上表)以及我们的Algo 1的平均处理时间(下表)。可以看出,k和M的选择对结果的质量几乎没有影响(除了当M非常小时)。此外,虽然运行时几乎与M成线性关系,但我们的方法仍然很快,时间低于3秒,即使每个类M= 400个样本这表明我们的方法不需要仔细调整其超参数。我们在测试的其他嵌入中也发现了这一点因此,我们将在本节的剩余部分使用M=100和k= 34.3. 实验结果4.3.1与其他C-措施的比较我们将我们的方法与最广泛实施的c-措施进行了比较,即。[2018 - 12 - 18][2018 - 08 - 19 00:01:00]我们使用作者提供的C++ DCol库[37]处理了6个10类数据集。因此,我们遵循作者提供的原始方法,这意味着没有嵌入。此外,我们测试了从谱理论导出的另外两个 度 量 : 最 大 特 征 值 ( maxΛ ) 和 曲 线 下 面 积(AUC)。这些方法3221K1 3 5 7 9 1120.81 0.79 0.80 0.75 0.76 0.73500.97 0.97 0.96 0.96 0.970.97 0.97 0.98 0.98 0.97 0.972000.98 0.98 0.98 0.983000.97 0.97 0.98 0.97 0.984000.97 0.97 0.97 0.97250M1002003004000.020.300.601.221.822.420.020.300.611.211.822.380.020.290.601.231.822.420.020.300.601.191.782.410.020.290.601.201.832.390.020.270.601.221.792.39图2:10类数据集的拉普拉斯谱。图2六个10类数据集的拉普拉斯谱。可以看出,频谱图从表2:相关值[上表]和平均亲-对于超参数M和k的各种组合,Algo 1以秒为单位的处理时间[下表]。从最简单的数据集(MNIST)到稍微复杂一点的数据集(不是MNIST、CIFAR 10和SVHN),一直到最复杂的数据集(STL-10和CompCars)。请注意,我们将使用CNNAE t-SNE嵌入来保留本节。至于处理时间,我们的方法比最好的c-措施F4,N1和N3更快注意左边的值是执行Algo的时间1,而括号中的值sis是训练CNNAE和/或运行t的处理时间表3:AlexNet在6个数据集上的准确性与Ho-Basu [18]的10个c-测量值之间的相关性以及我们的方法,其中有四个嵌入,相关的p值和处理时间以及括号中训练自动编码器的时间(在CIFAR 10上测量)。在文献中已知与节点之间的相似性有关[40]。这些结果比我们的CSG指标表现得更差表3中报告了结果以及我们使用四种嵌入的方法。第一列包含AlexNet CNN的错误率与每个c-度量之间的Pearson相关性得分。可以看到,我们使用CNNAE,t-SNE和CNN AE t-SNE嵌入的方法比任何现有的c-测量具有更好的性能,p值低于0。05巴。最好的嵌入是CNN AE t-SNE,显著性p值低于0。01. 为了说明这种嵌入如何与数据集复杂性相关,我们将SNE。虽然处理时间很长(超过一个小时),但它比以前的最佳方法N3快得多。1t-SNE嵌入的性能是由于这样的事实,即虽然t-SNE不改变最近的邻居,但它不保留长距离,这导致卷积较低的低维表示。因此,在这种表示中体积的近似更好。在表4中,我们提供了我们的CSG c-度量,其中包含三个CNN模型的测试误差率以及它们的Pearson相关性和p值。可以看出,我们的c度量不仅与AlexNet相关,而且与更近的ResNet-50 [17]和XceptionNet [9]相关。此外,即使使用CNN t-SNE嵌入,我们与CNN错误率的相关性和p值也显着优于现有的最佳c度量[18]。事实上,使用嵌入似乎不利于现有c-测度的整体性能。所有嵌入的所有现有c-测度的结果都可以在补充材料中找到我们还测试了我们的方法对两类图像分类问题。我们使用了Inria,SeeFood和PulmoX数据集以及CIFAR10的鹿狗子集。表5中报告的结果表明,我们的方法与CNN模型,特别是AlexNet,相关性很好。我们的相关性得分也优于Ho-Basu的最佳c-测度(尽管略有差距),尽管它是专为两类问题设计的。1时间是在CIF AR 10上使用IntelXeon XeonXeonCPUE5-1620和NVIDIATITAN X计算的定时皮尔逊山口C测度Corr.p值时间(s)N40.0690.8963,744F30.2670.6103,924F10.5010.31172F20.4220.40572T10.3570.48736,108T20.6360.17572N20.6520.16136,180F40.7250.1033,644N10.7410.09217,748N30.7730.07236,216最大iλiCNNAE t-SNECNN t-SNE0.880.020.3(18900)iAE0.94≤0.010.3(18900)CSG Raw0.696.12550(不适用)CSG CNNAE0.823.0443.6(13300)3222图3:我们的c-measure和AlexNet准确度,同时减少了MioTCD数据集的大小。表4:[Top] CSG c-测量以及6个数据集上3个CNN模型的测试错误率。[底部] CNN错误率与N2和N3 Ho-Basu我们的CSG c-测量[18]和CNN之间的Pearson相关性和p值数据集CSGAlexNetResNet-50Xception鲜食谱0.950.380.340.21PulmoX0.550.230.160.11鹿狗0.390.200.020.02INRIA0.320.100.070.03N3 Ho-Basu/CNN Corr0.9760.8520.862N3 Ho-Basu/CNN p-val0.010.1480.138CSG/CNN校正0.9950.8600.887CSG/CNN p值0.0060.1300.113表5:[Top] CSG c-测量以及4个10类数据集上3个CNN模型的测试错误率。[底部]我们的方法与CNN之间以及N3 c-测量[18]与CNN之间的Pearson相关性和p值。4.3.2数据集缩减数据集缩减(也称为实例选择[26])包括尽可能多地减少数据集中的元素数量,而不会失去训练的CNN准确性。这样做的一种方式是通过迭代地从数据集中移除元素直到CSG测量急剧增加的点。我们首先在MIO-TCD数据集上测试了我们的方法[29],这是一个用于2017年CVPR挑战的大型数据集,CNN方法的准确率高达98%。如此高的准确度表明数据集过于完整,可以在不影响CNN准确度的情况下减少。各种减速比的结果如图3所示。正如我们所看到的,CSG(红点)在减速比低于80%时保持大致不变,但在此之后急剧增加。这与AlexNet测试错误率(蓝线),尽管它花了不到5分钟的时间来产生CSG措施和5天的AlexNet结果。我们对所有比率使用相同的CNNAE嵌入。我们在CSG点和错误率值之间得到了0.956的Pearson相关性,如图3所示。数据集约简还可以用于测量两个大小非常不同的数据集之间的相似性,如CI-FAR 10(每个类5,000个训练样本)和STL-10(每个类500个训练样本)。虽然这些数据集具有视觉上相似的内容,但其CNN错误率却非常不同(见表1)。为了测量这些数据集之间的真实距离,我们逐步减少了每个CIFAR10类的样本数量,以达到STL的样本数量10.表6中的结果显示了我们的度量与数据集中样本数量之间的紧密联系。只有500个样本,CIFAR 10获得了CSG分数和CNN准确性,与STL-10相似但不完全相同。这表明数据集相似但不完全相同,可能是由于CIFAR 10Frog类已被STL-10(补充材料)中的Monkey类取代。同样,生成CSG分数大约需要一分钟(在训练嵌入之后),CNN错误率需要4天。4.4. 混淆矩阵虽然我们的c-度量可以用与CNN准确度相关的单个度量来衡量数据集的整体复杂性,但我们也可以使用相似性矩阵W(等式2)。(5))来分析类间距离。因此,可以使用相异性矩阵S= 1-W来可视化数据集在2D中通过诸如多维缩放的算法(MDS)[5]的文件。这导致图中的曲线。4.虽然MNIST的类都很好地分离,但CI-FAR 10图显示猫和狗类以及鹿和鸟彼此接近,可能是由于相似的上下文。至于MioTCD,自行车,摩托车和行人类都在同一个附近,主要是因为错误率数据集CSGAlexNetResNet-50XceptionCompCars2.930.700.880.86STL-103.070.690.630.69CIFAR101.000.180.190.06SVHN1.150.080.070.03非MNIST0.720.050.040.03MNIST0.110.010.050.01方法Pearson相关N3/CNN校正0.7730.7270.681N3/CNN p值0.0540.1020.136N3CNN t-SNE/CNN Corr0.8370.7650.837N3CNN t-SNE/CNN p值0.0630.1240.144CSGCNN t-SNE/CNN校正0.9680.9350.951CSGCNN t-SNE/CNN p值0.010.0060.0033223图4:MNIST、CIFAR10和MioTCD的W矩阵的2D图数据集CSG错误率CIFAR101.100.18CIFAR10减少=45001.100.19CIFAR10减少=35001.260.20CIFAR10减少=25001.440.24CIFAR10减少=15002.160.28CIFAR 10减少=5002.590.42STL-103.160.68图5:[顶部]我们的W矩阵和[底部] AlexNet它们的小图像分辨率,它们通常包含更多压缩伪像,因此比其他类的特征更少,使它们与无特征的背景混淆如图5,W矩阵与真实混淆矩阵(这里是AlexNet)密切相关。在这里,猫和狗以及鹿和鸟很容易混淆。5. 结论在这项工作中,我们提出了一种新的复杂性度量设计的图像分类问题称为累积谱梯度(CSG),这是更准确和更快的比以前的方法。我们表明,我们的度量有很多用途,如实例选择和类disentanglement。我们还表明,CSG与标准CNN架构可实现的准确性非常匹配,这是评估图像数据集时的一个重要特征。表6:减少CIFAR10每个类的样本数量对我们的CSG度量和AlexNet测试错误率的影响我们未来的研究方向是确定一个程序来比较不同类别数的分类问题类的随机子集的分析可用作一种通用表示。另一个重要的方向将是推广我们的方法分割和定位问题。到目前为止,还不清楚如何用谱聚类来描述这些问题另一个未来的工作将是将我们的相似矩阵W在神经网络的优化过程中,以最大限度地减少类间分歧。我们的直觉是,类间重叠的先验知识可以用来迫使优化器进一步分离纠缠在一起的类,有点像三元组丢失。最后,我们的指标并不局限于图像分类数据集,也可以用于机器学习的其他领域,如语音识别和自然语言处理(NLP)。这些字段已经使用了最先进的嵌入,如Word2Vec [32],因此自然会落入我们的CSG框架中。引用[1] M. 阿巴迪山口Barham,J.Chen,Z.Chen,中国山核桃A.Davis,J.迪恩M. Devin,S.盖马瓦特湾Irving,M. Isard等人张量流:一个大规模机器学习系统。在OSDI,第16卷,第265-283页[2] N. Anwar,G. Jones和S.象头神不平衡数据分类问题的数据复杂性度量日志统计Anal. Data Mining,7(3):196 -211,2014.3224[3] R. Baumgartner和R. Somorjai高维生物医学数据欠采样分类中的数据复杂性评估专利Rec. Letters,27(12),2006.[4] D.贝克热狗-不是热狗。 [联机]。 可用:网址https:www.kaggle.com/dansbecker/hot-dog-not- hot-dog,2017.[5] I. Borg和P. Groenen 现代多维尺度:理论与应用第40卷Wiley Online Library,2003.[6] L. Bossard,M. Guillaumin和L.范古尔Food-101 -用随机森林挖掘判别成分。在Proc.ECCV,2014中。[7] A. L. Brun,A.S. 小布里托湖S. Oliveira,F.Enembreck,以及R.萨布林提出了一种面向分类问题难度的动态分类器选择框架。专利Rec. ,76:175[8] Y. 布拉托夫不懂。[联机]。可查阅:www.kaggle.com/lubaroli/notmnist,2017年。[9] F.胆Xception:使用深度可分离卷积的深度学习。在Proc. CVPR,第1800-1807页[10] F.Chollet等人Keras[在线]可用:https://github.com/fchollet/keras,2015.[11] A. Coates,A. Ng和H.李你无监督特征学习中单层网络的分析。在Proc. AIS-TATS,第215-223页[12] L. Cummins和D.桥使用元案例库选择案例库维护算法。在 智 能 系 统 的 研 究 和 开 发 XXVIII , 第 167-180 页 。Springer,2011.[13] N. Dalal和B.Triggs Inria person数据集。[联机]。可用:http://pascal. 因里阿尔佩斯。fr/data/human,2005年。[14] R. Duin和E.佩卡斯卡对象表示、样本大小和数据集复杂性。Springer,2006年。[15] L.加西亚A. de Carvalho和A. Lorena标签噪声对分类问题复杂性的影响。神经计算,160:108[16] M. Greenacre和R.普里米切里奥样本间距离的测量:非欧几里德生态数据的多变量分析,第5-1页[17] K.他,X。Zhang,S. Ren和J. Sun.用于图像识别的深度残差学习。 在proc CVPR,第770-778页,2016年。[18] T. Ho和M.巴苏监督分类问题的复杂性度量IEEE transonPAMI,24(3):289-300,2002年。[19] D. Hoiem,Y.Chodpathumwan和Q.戴. 诊断物体探测器错误。Springer,2012.[20] S. Ioffe和C.赛格迪批次标准化:通过减少内部协变量偏移来加速深度网络训练。在Proc. ICML,第448-456页[21] S. Ja e ge r,S. Candemi r,S. Antani,Y. X. J. Wan'ng,P.- X. Lu和G.托马斯两个公共胸部x光数据集用于肺部疾病的计算机辅助筛查。Quantitative imaging inmedicine and surgery,4(6):475,2014.[22] T.杰巴拉河Kondor,和A.霍华德概率积核JMLR,5(7):819[23] A. Krizhevsky和G.辛顿从微小的图像中学习多层特征。技术报告,2009年。[24] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。在Proc. NIPS,第1097-1105页[25] Y. 勒昆角Cortes和C.伯吉斯Mnist手写数字数据库。ATT Labs [Online]. 可 查 阅 : http : //yann. 乐 村 。com/exdb/mnist,2,2010.[26] E. L e y v a,A. Gon za'lez和R. 佩雷斯。一组复杂性度量,旨在将元学习应用于实例选择。IEEE Trans onKnowledge and Data Eng. ,27(2):354[27] C. Li,H.法尔霍尔河Liu,and J. Yosinski.测量客观景观的内在维度。InProc. ICL
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功