视觉目标检测和分类的多面圆锥分类器

161 浏览量更新于2023-10-16 收藏 750KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1用于视觉目标检测和分类的多面圆锥分类器Hakan CevikalpEskisehir Osmangazi大学Meselik Kampusu，26480，埃斯基谢希尔，土耳其hakan. gmail.com让·昆兹曼B.P. 53，38041 Grenoble Cedex 9，France电子邮件：imag.fr摘要我们提出了一个家庭的准线性判别，优于目前的大利润率的方法在滑动窗口视觉对象检测和开集识别任务。在这些任务中，分类问题在数值上是不平衡的-正（对象类）训练和测试窗口比负（非类）训练和测试窗口少得多-并且在几何上是不对称的-正样本通常形成紧凑的、视觉上连贯的组，而负样本则更加多样化，包括任何不是来自目标类的中心样本的东西。使用训练样本覆盖这样的负类是困难的，并且在“开集”应用中是加倍困难的，其中运行时负可能源于在训练期间根本没有看到的类。因此，需要这样的判别式，其决策区域集中于严格限制阳性类别，同时仍然考虑两个类别重叠区域中的阴性。本文引入了一类正区域为畸变L1球的拟线性“多面锥”判别式该方法具有与线性支持向量机（SVM）相当的属性和运行时复杂度，并且可以使用与SVM相关的约束二次规划从二进制或仅正样本中训练它们我们的实验表明，他们显着优于线性支持向量机和现有的一类判别在广泛的目标检测，开集识别和传统的闭集分类任务。1. 介绍传统的机器学习分类器，如大边缘判别式[6，9，4]，旨在用于“闭集”场景[29]，其中类标签相互排斥和穷举，并且在测试时看到的每个类在训练期间都是已知的这些方法试图将每个测试样本归因于一个类，即使它与任何已知的训练样本几乎没有相似之处-这种语义是脆弱的没有有意义的类的类）和新类（在训练期间没有预见的类）可能在测试时间发生。相反，要做到这一点，除了传统的类间决策界限之外，他们还需要估计每个目标类的某种内点或验证区域视觉对象检测也应该受益于严格约束阳性类的判别器。在滑动窗口检测中，辨别问题是高度不对称的，因为正样本（正确地框定目标类的实例的窗口）形成可变但连贯的外观类，而负样本（任何不是框定良好的对象实例的东西）更加多样化。此外，数据是高度不平衡的，因为负（非对象）训练和测试窗口比正（对象）训练和测试窗口多得多。由于这两个原因，判别式关注于紧密地限制正类是有用的，而传统的判别式（诸如支持向量机（SVM））将两个类视为相等的、可互换的替代物。由于窗口可能无法成为正的许多方式，大多数SVM支持向量变成在[15，28]中投影类密度的散点图）。在这两种应用中，都需要可靠的、可扩展的、非对称的判别式，其专注于将阳性类别建模为被阴性的分散的海洋包围的紧凑的、连贯的集合。不这样做的陷阱如图所示。1.这是一个识别问题，其中不可预见的类出现在运行时，但对象检测器面临类似的问题与不可预见的种类硬否定。本文介绍了一个新的家庭的准线性判别，实现这些目标，使用多面体决策边界的基础上通过L1锥的线性部分通过在正类上提供更严格的界限，这种几何系统地优于基于半空间的261262图1.SVM返回的决策超平面成功地分离了它的训练类，狗（阳性）和人（阴性）。然而，它也会将猫、马、鱼和椅子等新类的实例分配给狗类，有时比狗本身的置信度更高。问题是接受区域过大- SVM只试图将狗和人分开，而不是绑定狗类。一个更紧的（例如多面体或椭圆形）决策边界改进了这种定位，减少了由不可预见的类和异常值引起的错误分类决策规则，如线性SVM在开集识别问题和检测问题与不可预见的硬负。事实上，它往往提高性能，即使在传统的闭集问题。训练被制定为一个有效的凸规划的线性SVM，运行时间也类似于线性SVM。相关工作：最近的几项工作介绍了discriminants或检测器，放弃了对称的二进制分类框架，并采用损失函数，旨在提供更严格的建模的积极类。这些方法通常被称为例如，支持向量数据描述（SVDD）[31]旨在找到一个包含大多数正类样本的闭合紧超球面，而广义特征值近似支持向量机（GEPSVM）[23]找到一个最适合正类的超平面，同时避免了筛选器从大量的负面样本中逐步切出紧凑、连贯的正面区域，用于人脸和人物检测。其他方法，如加性核[32]和随机特征[26]，试图通过显式地将样本映射到高维空间来近似固定复杂度设置中的核分类器，该高维空间提供非线性类分离，限制正类区域。另一种策略由Dundar等人的结肠直肠癌检测器例示。[8]该方法通过联合优化一组超平面分类器来学习多面体的接受区域，每个超平面分类器被设计为针对阴性样本的子组对阳性样本进行然而，所需的负集的划分对于大规模问题来说是昂贵的，并且如果负集不能自然地分离成明确定义的簇则是有问题的，特别是当总体性能对划分的数量和详细形式都敏感时。有几种其他方法用于构建近似约束正类的多面体[13，14，1，21，24]，但这些方法要么与训练集大小的比例很差，遭受局部最优或过度拟合，或者需要辅助聚类或标记，这使得它们不适合大规模应用。相比之下，我们的方法有一个凸公式，以确保全局最优的解决方案，他们的规模有效地大型问题，他们不需要负样本进行聚类，他们抵制过拟合使用一个强大的边缘为基础的成本函数。2. 多面体圆锥分类器我们的分类器使用[13]的多面体圆锥函数– essentially projections of hyperplane sections through 这种选择提供了一个方便的家庭的紧凑和凸（适当的权重）区域的形状，用于区分相对较好地本地化的正类从更广泛的负。它自然允许强大的基于边缘的学习，并且自由参数的数量保持适度，从而控制过拟合和运行时间。多面锥函数和广义多面锥函数分别具有以下形式fw，γ，c，b（x）= w（x−c）+γx−c1−b（PCF）（1）fw ， γ ， c ， b （ x ） = w<$ （ x-c ） + γ<$|x-c |− b（ EPCF）（2）这里x∈IRd是测试点，c∈IRd是锥顶点，w∈IRd是权重向量，b是偏移。对于PCF，单位时间1=尽可能的否定其他形式的最佳拟合-Σdi=1 |表示向量L1|denotes thevector L1而γ是一个正整数，超平面分类器在[18，5，2]中提出。切维卡尔普和Triggs [3]使用基于类的凸模型级联1“一类”这个名称响应重量，而对于EPCF，|u|=（|u1|、...、|其中，γ ∈IR d表示分量模，γ ∈ IR d是相应的权向量。|)⊤ denotesthe component-wise modulus and γ∈ IRdis a cor-responding weight vector.我们的多面体圆锥分类器使用这些形式的函数，其中决策区域f（x）0为正数，<263−γ2i=1Jj−权重向量到w ≡. −w∈IR2d且a gain令b=b，给出了针对多个向量的SVM形式w_n_x_n+w_b>0，但是现在是在2d维度上。PCF和EPCF的上述±1裕度转换为熟悉的±1SVM裕度，允许我们使用标准SVM软件获得最大裕度培训2.因此，在增强的特征向量上运行熟悉的SVM二次程序就足够了：arg min w、b1周+C+Σ伊古里Σ+C−jjS.T. wx +b+i≥+1，i∈I+，（三）图2.顶部：对于多面体圆锥分类器，正接受区域是“风筝状”轴对齐八面体，包含线性形式位于L1圆锥上方（内部）的点。底部：基于（左）PCF和（右）EPCF决策函数的2D分类器的典型接受区域。f（x）>0表示负数。类似地，我们的基于间隔的训练方法强制f（x）≤ −1为正数，f（x）≥+1为负数。在这两种情况下，正区域基本上是通过以c为中心的L1锥的超平面截面，特别是区域x∈IRd，其中超平面z= w<$（x−c）−b位于L1锥z=γ<$x−c <$1之上(PCF) 或对角标度的L1锥z= γε|x-c|为diag（γ）（x-c）参见图2。注意，对于b> 0，γ> 0<的PCF，|u i|是∞范数）和任意τ，则区域f（x）<τ在IRd中是凸紧的，且包含顶点c. 类似地，对于b> 0，γ> 0的EPCF，|wi|<γ i，i=1，.，d，且任何τ，区域f（x）<τ又是凸紧的，并且它又包含c。在学习过程中，但目前我们只是让决策区域自由地适应训练数据：在任何情况下，紧凑的正类几何上，在上述约束下，结果区域是具有2d顶点的有界八面体，一个顶点沿着从c开始的每个正和负坐标半轴。因此，连接相对顶点的线在c处相交，使该区域具有变形但仍轴对齐的八面体在EPCF中，区域宽度可以沿着每个轴独立地缩放，而在PCF中，它们耦合在一起，但更有限形式的各向异性仍然是可能的。为了在输入特征向量上定义基于边缘的分类器x从。这一点，我们为BMPCF增加了特征向量，w<$$>x<$$>+<$b−<$≤−1，j∈I，i，j≥0，其中，I1是正训练样本和负训练样本的索引集，I2是样本的容限约束违反的松弛变量，并且C1是对应的将PCF和EPCF特征向量分别插入到上述训练过程中，给出了我们的多面圆锥分类器（PCC）和扩展多面圆锥分类器（EPCC）方法。请注意，尽管它们表面上是线性对称形式，但这些分类器本质上是不对称的：它们迫使正极位于多面体圆锥区域的内部，负极位于多面体圆锥区域的外部，多面体圆锥区域通常是紧凑的并且以正极为中心。我们的公式对过拟合具有鲁棒性，并且由于标准SVM技术（如切割平面方法）[12]以及快速原始空间解算器（例如，[30])可以使用上述过程并不试图优化圆锥顶点的位置c，因为这将导致非凸问题。至少在局部优化c是可能的，但这里我们只是将其设置为正训练集中的预定训练阳性的平均值、中点或坐标中值都可以用于此，并获得良好的结果。在我们的实验中，我们使用平均数。请注意，分类器将其最高的正置信度分数分配给圆锥顶点附近的样本。2.1. 一级EPCC（OC EPCC）由于其灵活性，EPCC通常优于线性SVM和PCC，但其正接受区域只有在|w i|<γ i对于所有i-I.E.当超平面部分具有比L1椎体的每一个面这有时不能适用于特征空间维度，沿着特征空间维度，负片并不围绕所有侧面上的正片尽管这样的EPCCtor toxx-c∈IRd+1和权重向量接受区域通常仍然比w. −wx−∈IRd+1，且令b=b。然后PCF的决定相应的线性SVM，以确保更紧密的边界我们想强制执行|W |<γ，i = 1，. . . ，d. 更多-−γi i函数采用了类似的线性SVM形式w_n_x_n+w_b>0而<0表示N个顶点。.类似地，对于EPCF，我们在EPCC中，1001保证金是唯一可以修复[2]只有当我们同意忽略可选的紧凸-将特征向量增加到x向量x-c∈IR2d，区域约束< γ（PCC）或|W |<γ，i = 1，...，d（EPCC）。|x-c|∞i i我264nnWγ⊤算法1基于随机梯度的一类EPCC求解器初始化w1，γ1，T >0，α0>0，αw>0，αγ>0，n+是正例数，n-是反例数，n= n++ n−产品描述：对于t∈ 1，...，没做αt← α0/t;wt−1 = wt;γt−1=γt;对于i∈randperm（n），-复合材料次梯度λw+xi，如果yi=1&yi（w<$（xi-c）+γ<$|xi− c|− 1）≥ 0n+ttgt=λw−xi，如果yi=−1&yi（w<$（xi− c）+γ<$|xi− c|− 1− ρt）≥ 0nn− ttλw，否则。xi− s，如果yi=1&yi（w<$（xi− c）+γ<$|xi− c|− 1）≥ 0n+nttgt =-xi-s，如果yi=−1&yi（w<$（xi−c）+γ<$|xi−c|−1−ρt）≥ 0γn− ntt-s，否则。– Update polyhedral conewt←wt−αtgtγt←γt−αtgt以“”结尾如果wt−wt−1w，则中断结束，<&<总的重量比例，从而防止退化的解决方案，并且负数据对于此是必要的。为了确保EPCC在开集问题和只有正样本的问题上工作良好接受区沿轴i的宽度为O（b/γi），因此我们需要保证γi不会收缩到零。最简单的方法是用b=1的偏移缩放来代替±1的裕量缩放并包括对γi和ge的负成本惩罚新的正-负裕度[0，1]的度量宽度，使得这些量将趋于增加，从而保持接受区域宽度小并且集合良好分离。这导致以下3. 实验我们在合成和真实数据集上测试了所提出的多面体圆锥分类器3，用于对象检测，开集识别和经典闭集多类区分。为了比较，我们报告了其他几种线性和准线性方法的结果，包括SVM，[5]的单侧最佳拟合超平面分类器（ 1 S-BFHC ）， GEPSVM[23] ，单类 SVM（SVDD）[31]和[32]的加法核方法此外，我们使用二阶多项式核函数测试了核SVM（KSVM）对于开集识别问题，我们还将所提出的方法与[29] 的 1-vs-SetMachine方法进行了比较。我们无法针对[8]的多面体分类器进行测试，因为该软件不可用。我们强调指出，我们的多面体分类器最好被视为线性SVM的替代品，它们在下面的测试中系统地优于线性SVM，无论argminλww +1中国+1-sγ应用程序和使用的功能，只有适度的-w，γ2S.T. w（x⊤n+ii-c）+ γ|Xi⊤n−jj- C| − 1≤ i，i ∈ I+，内存使用和运行时间的增加。核SVM和类似的基于实例的方法通常具有更好的绝对精度，但它们通常太慢，w（xi-c）+ γ |xi− c|− 1 ≥ 1 − j，j ∈I−，n = 1，n = 2，n =1，n=（OC-EPCC）（四）这里λ是w的正则化权重，s>0是用户提供的增加γ的成本惩罚向量。在这些类型的应用程序中的实际使用，除了可能作为分类器级联的最后阶段与更快的早期阶段，如我们的方法。这也适用于培训：在下面的人脸检测研究中，最终的训练集大小约为250k，本文采用简单随机梯度（SG）方法我265在算法1中给出，以解决该优化问题。3我们的代码可在www.example.com上http://mlcv.ogu.edu.tr/softwarepcc.html。26630的情况。9方法AP评分（%）贝叶斯最优九十89EPCC86岁。62OC-EPCC84. 87PCC79岁。90加性核七十六。80SVDD七十一14GEPSVM44. 25SVM二十二岁85表1.2D合成数据集的平均精度（%）最小优化[25]很难处理这种规模的数据集。因此，在目标检测测试中包含内核化方法的结果是不切实际的。但是，我们测试了[32]的加法核方法，它近似于核化方法。为了评估性能，我们报告分类率或PASCAL VOC风格平均精度（AP）评分[10]。对于多类问题，我们使用了一对休息（OAR）公式，因为这对所有方法都是最好的。3.1. 合成数据图3示出了所提出的圆锥分类器在由随机点组成的合成2D数据集上，阳性类是高斯型的，平均值为（3），轴对齐的标准差为（0。1），而负类是一个混合-具有相同标准差的高斯分布的真实性，以及围绕正分布的几个平均值定量分析，表1给出了从这些分布中采样的250个阳性/ 750个阴性检测集的经验平均精密度最好的准确度是由最佳贝叶斯分类器，然后EPCC。单类EPCC（OC-EPCC）也做得很好，即使这里测试的版本是单独使用阳性样本训练的。线性SVM的表现很差，因为问题不是线性可分的。一种将数据显式映射到18维特征空间的加性核方法做得更好，但不如我们只使用3维或4维嵌入的方法。3.2. 目标检测实验3.2.1人脸检测实验为了允许直接比较方法，我们训练了几个滑动窗口人脸检测器，这些检测器除了所使用的（准）线性分类器外是相同的，测试了提出的PCC和EPCC方法、[5]的1 S-BFHC超平面拟合分类器、线性SVM和加法核。为了训练，我们使用了从网络上收集的20000张正面直立的脸。对于负集，我们从无面部区域随机采样了10000个窗口，(a)（b）第（1）款(c)（d）其他事项图3. 2D合成数据集（a）和由（b）PCC、（c）EPCC、（d）OC-EPCC返回的决策边界。更亮的像素对应于更高的分数。表示为620维LBP+HOG特征向量。请注意，与人脸检测中的常见情况一样，正训练样本比特征维度多得多。为了允许部分轮廓姿态变化，我们使用光谱聚类将阳性训练集划分为三组，并在每组上训练给定类型的单独分类器每个初始探测器被用来扫描一组收集额外的硬底片，并重新训练分类器以创建最终的检测器。训练集的最终大小约为250k。使用[11]的标准滑动窗口方法进行测试，检测器窗口水平步进3个像素，垂直步进4个像素，尺度为1.15，并使用贪婪非最大值抑制。我们在两个数据集上测试了生成的检测器，2845图像人脸检测数据集和基准（ FDDB ） [17] ，以及ESOGU Faces4，其中包括667张高分辨率彩色图像，其中2042张带注释的正面人脸。两者都包括各种图像位置和比例、复杂背景、遮挡和照明变化的人脸表2给出了上述检测器和三个公开可用的检测器的平均精度分数：Kalal等人的增强正面人脸检测器。[20]，Ce- vikalp Triggs的短级联[3]和OpenCV Viola-Jones检测器复杂背景下的相同图像subim-年龄被重新缩放并裁剪为35×28的大小，然后表示http://mlcvdb.ogu.edu.tr/facedetection.html267方法FDDBESOGUEPCC七十一989岁。1PCC67岁278岁8SVM三十七6四十七7加性核55. 778岁71S-BFHC七十5八十0Cevikalp-Triggs [3] 74岁187岁4Kalal等人[20个]66岁。379岁。7方法AP评分（%）运行时间EPCC八十五61 .一、8PCC83岁61 .一、8SVM八十41 .一、6加性核八十919号。11S-BFHC78岁51 .一、6费尔岑斯瓦尔布[11]86岁。93 .第三章。5[16]第十六话84. 1–表2. FDDB和ESOGU Faces数据集上各种人脸检测器的平均精度（%）。[33]第33段。后者的检测器的分数不是严格可比的，因为它们使用了不同的非公开可用的训练集和具有非线性末级的多级级联，而我们的检测器仅使用了单个线性级。尽管如此，所提出的EPCC方法仍然取得了最好的结果 ESOCU 和第二个最好的 FDDB 的 CevikalpTriggs的方法之后，这也是第二次ESOCU。在剩下的单阶段方法中，1 S-BFHC在两个数据集上都排名第三，PCC紧随其后，SVM排名最后，这表明简单的半空间接受区域在这里是不够的，阳性类需要更紧密地绑定以获得良好的结果。(EPCC PCC和1 S-BFHC都将它们限制在有限区域内）。使用加性核来提供非线性决策边界是对线性SVM的显著改进，但其精度仍然低于所提出的方法和1 S-BFHC，这表明它不能像它们那样约束正区域。3.2.2行人检测实验我们在INRIA Person数据集上训练和测试了一系列类似的检测器[7]，再次测试了线性EPCC，PCC，1 S-BFHC，SVM和Additive Kernels，每个设置都相同。我们使用了Felzenszwalb等人的潜在训练方法。[11]训练一对对称的无分部根。根是通过应用K-Means聚类到镜像对。我们使用HOG功能，如[11]：8×8像素单元，窗口步长为8像素，金字塔比例间隔为1.07。为了比较，我们引用了Felzenszwalb等人发表的结果。[11]（HOG上的线性潜在SVM，使用一个sym-度量对根，每个根具有8个部分-总共[7]（HOG上的简单线性SVM，没有延迟，多个根或部分）。表3显示了每个图像的准确度和测试时间。EPCC检测器实现了最佳结果表3.INRIA Person数据集的平均精度（%）在受过训练的人中。由于它缺少部分，它不太匹配Felzenszwalb多根、多部分检测器的得分，但它确实优于HussainTriggs方法，尽管后者具有更好的特征和两个PCC在这方面也做得很好。请注意，尽管它们在精度上有所提高，但EPCC和PCC的运行时间与SVM非常相似（只有[11]的一半），因此EPCC是线性SVM的有希望的替代品。与人脸检测结果相比，加性核函数与线性SVM相比在准确性上几乎没有提高，尽管它是测试的最慢的方法。3.3. 视觉目标分类实验3.3.1PASCAL VOC 2007数据集实验我们使用流行的卷积神经网络特征集在PASCAL 2007Visual Object Classifica- tion数据集上运行测试我们运行了Krizhevsky等人的预训练ILSVRC 2012 Caffe实现[19]。[22]第二十二话调整为256×256，为所示的每种方法产生4096维特征向量。用于可比性在文献中，我们使用了库存ILSVRC功能，而没有在PASCAL数据集上对其进行微调。结果在表4中给出，作为PASCAL VOC平均精度评分。所提出的方法与加性核和KSVM一起实现了所有类别的最佳精度。表现最好的是OC-EPCC，使用阳性和阴性类的样本进行训练。它在相同的特征上显著优于线性SVM，平均获得约4%的收益，在瓶子、公共汽车、椅子、餐桌、狗、盆栽植物、沙发和电视监视器等类别上获得超过5%的收益。附加核函数比线性SVM改进了结果，但它使用了三倍大的特征空间。GEPSVM是这里表现最差的。3.3.2多类分类数据集的实验研究我们在三个传统的闭集多类判别问题上测试了我们的方法：Caltech-256视觉对象分类，字母识别（LR）和多特征（MF）像素值数据集来自UCI repos，268方法飞机自行车鸟船瓶总线车猫椅子牛餐桌狗马摩托车人盆栽羊沙发火车TV监视器平均OC-EPCC85.1 79.7 82.9 81.3 36.4 69.5 83.2 80.7 57.7 61.6 70.0 79.9 83.2 74.0 90.4 51.0 73.4 58.6 84.5 66.7 72.5EPCC87.2 80.0 83.3 80.9 35.9 66.5 83.4 80.9 56.5 59.4 68.7 78.5 82.6 73.8 90.1 49.7 71.3 57.1 86.5 66.6 72.0PCC86.3 79.0 83.0 80.5 35.3 65.8 83.4 80.2 56.1 60.3 68.0 77.2 81.8 73.3 89.8 47.9 70.8 55.6 85.9 66.4 71.3SVM87.0 75.7 81.7 80.4 31.2 63.6 80.4 79.1 47.1 58.1 64.2 74.0 81.0 73.0 87.4 41.3 68.5 50.6 86.3 61.4 68.6KSVM83.9 77.3 82.2 81.8 38.7 69.5 81.9 79.6 57.5 60.2 69.8 79.2 79.1 71.2 89.0 52.6 73.8 59.3 84.8 69.7 72.1加性核86.6 78.5 83.0 81.2 35.6 68.0 82.0 81.5 51.0 63.1 65.5 76.2 82.7 74.9 88.7 47.3 72.7 54.0 86.7 64.2 71.21S-BFHC85.9 74.0 79.9 77.4 30.3 63.0 78.5 78.0 46.2 56.6 62.0 72.0 79.7 71.9 83.2 39.2 63.1 51.0 84.4 59.5 66.8GEPSVM36.2 21.9 45.1 26.4 10.3 27.0 34.1 21.9 29.0 39.9 32.0 22.2 32.0 19.6 53.9 15.4 27.2 14.3 39.0 25.8 28.7SVDD65.5 32.4 25.0 26.0 21.5 31.2 37.1 48.7 28.3 23.1 17.7 25.5 39.3 31.8 58.8 12.3 21.2 18.5 59.2 25.5 32.4表4.PASCAL VOC 2007分类数据集的平均精度分数（%）暂时的LR数据集包括26个类和20K个样本，而MF包括10个类和2000个样本。对于Caltech-256，我们遵循标准协议，从每个类中挑选30个训练图像和30个测试图像，并使用相反的测试和训练角色进行测试。Fisher向量（FV）特征与[27]的设置一起使用具体来说，我们从每个图像中提取了大约10K个描述符，24×24块在规则网格上每4个像素采样，5个图像尺度。降低了描述子维数主成分分析（PCA）我们使用6×106 个描述符来学习PCA投影和256分量高斯混合模型（GMM）分量，从而得到最终的FV图像描述符维度约164K。对于LR和MF数据集，我们使用10倍交叉验证来评估性能。表5总结了简单分类准确度方面的结果。所提出的EPCC 方法在MF 上实现了最佳精度，而加法核和KSVM方法在Caltech-256和LR上给出了最佳精度。然而，请注意，加性核使用的特征向量明显长于EPCC：是Caltech-256原始输入空间维度的3倍，LR和MF各5 在类似的。人与人之间的距离，方法加州理工学院-256LRMFEPCC四十1 ±0。6七十六。0±1。2九十六。3±1。2PCC四十4 ±0. 7六十五5±0。994 5 ±1。4SVM三十七6±0。7五十九8±1。7九十三9±1。1KSVM三十八岁。8 ±0。789岁。3±0。9九十五9±0。7加性核四十二6±0。781. 9 ±1。5九十五4±1。41S-BFHC三十八岁。3 ±1。0二十五3±0。8九十三8±1。5GEPSVM十三岁3±0。6三十5±1。1五十三8±4。0SVDD9 .第九条。9±0。2三十七5±1。6八十1±3。5表5.闭集多类判别实验的分类率（%）方法/类别豹子脸飞机吊灯OC-EPCC七十六。6±2。9七十0±2。8十三岁6±1。5六、0±1。2EPCC69岁。8±7。969岁。7±2。8十五岁5±2。8五、6±0。6PCC六十五3±7。668岁1±3。3十五岁7±3。2五、4 ±0.81-vs-Set机器七十六。5±6。8六十岁。2±3。812个。0±0。94.第一章9±1。11S-BFHC62. 6 ±12。7五十九1±3。112个。4±1。84.第一章8±0。7SVM63岁2±13。161岁5±4。312个。0±1。64.第一章8±0。5KSVM68岁7 ±5。863岁0±2。29 .第九条。3±1。17 .第一次会议。2±0。9GEPSVM二、0 ±1。08. 4 ±7。8 六、8±1。1二、6±0。5SVDD3 .第三章。6 ±0。8二、0±0。43 .第三章。6±0。53 .第三章。3±0。7269表6.开集视觉对象分类的AP评分（%）新样本空间的分辨率为d+212当第二个实验阶多项式核函数。虽然他们在这两个数据集上被加性核和KSVM击败，所提出的方法确实显着优于测试的其余（准）线性分类器LR的差异尤其大，其中EPCC的错误率比SVM低16%，SVM是测试过的最好的现有线性方法。还要注意，对于Caltech-256，PCC显著优于SVM，即使它只有一个附加特征（164 k）。这表明，它是正类边界多面体圆锥几何提供了改进，而不是使用的特征，并且我们的训练方法可以优雅地处理非常大的特征向量。3.4. 开集识别3.4.1打开集合视觉对象分类在这里，我们使用来自[29]的212类开集识别数据集和协议。此设置反映了真实世界的分类任务，其中测试集可能包括来自训练期间不存在的类的样本。来自Caltech-2565和ImageNet6的图像被用来创建5http://www.vision.caltech.edu/ImageDatasets/Caltech2566http://www.image-net.org270数据使用HOG和LBP类特征表示图像。对于每个阳性类别，通过从类别中随机选择30个阳性样本和从其他类别中随机选择30个阴性样本（从6个随机选择的其他类别中各选择5个样本），从Caltech-256图像中创建训练集。为了进行测试，从正类中选择30个新图像，从训练期间使用的六个类中选择6330个负图像，并从ImageNet中选择的206个随机类中选择（详见[29]）。该过程重复5次，最终精度为5次试验的平均值在我们的实验中，我们只使用了4个阳性类别：豹子脸飞机和吊灯（这些是唯一的类，其中最佳性能的方法利用所提供的特征实现大于5%的AP）。对于包括OC-EPCC在内的所有方法，训练使用阳性和阴性样本。结果在表6中给出。我们报告了根据精确-召回曲线计算的AP评分，而不是[29]中使用的分类率，因为我们认为后者可能无法反映开集场景中可达到的识别性能。此外，期望开集方法拒绝来自未知类别的样本，并且用于此的阈值最容易从精确度-召回率曲线获得。可以看出，PCC和EPCC都优于SVM和1 S-BFHC，并且除了航空类之外，一类EPCC（OC-EPCC）进一步提高了准确性。这种差异在紧身衣类中尤为明显：OC-EPCC的AP比EPCC高近7%。应该注意的是，除了Chandelier 类之外，所提出的方法甚至显著优于KSVM1-vs-Set Machine对于Leopard类实现了非常高的精度（类似于OC-EPCC），但与其余类的最佳计算精度相比，其精度较低。GEPSVM和SVDD是性能最差的方法。方法AP评分（%）OC-EPCC82岁2EPCC八十6PCC七十六。21-vs-Set机器六十四51S-BFHC66岁。0SVM61岁9KSVM七十六。4GEPSVM四十5SVDD11个国家。3表7.开放集USPS实验的AP评分（%）所提出的方法显著优于线性SVM，而SVDD再次是最差的执行者。4. 总结和结论本研究认为，在开集对象识别和滑动窗口对象检测问题中，使用非对称分类器是必要的，这些分类器专注于为阳性（目标对象）类产生紧凑的、约束良好的决策区域。为此，我们介绍了PCC， EPCC 和 OC-EPCC，一个强大的可扩展的最大余量学习方法，其积极的接受区域是通过L1锥的平面部分的家庭。对于适当的参数设置，这些方法给出了紧凑的，凸的接收区域，严格约束的程度，阳性类。特征向量增强允许PCC和EPCC使用标准线性SVM软件进行训练，而OC-EPCC目前使用类似的随机梯度下降方法进行训练。我们对这些方法进行了测试，在一系列目标检测、开集识别和经典闭集识别任务上都取得了良好的效果。检测和开集识别结果特别有前途，与可比的（准）线性分类器相比，4.1.1开集USPS数字识别接下来，我们给出了基于USPS Digits数据集的开集识别实验的结果。该系统包含9298幅16×16灰度的手写数字图像，其中7291幅用于训练和验证，其余2007幅用于测试。为了让问题更难我们用原始的灰色-缩放像素值作为特征，无需任何预处理，ing SVM和几种单类方法。总体而言，我们我们相信，我们的方法将被证明是有用的下降，在替代线性判别，如支持向量机在许多当前的视觉对象检测和分类任务。作为未来的工作，我们注意到，我们的配方不限于多面体接受区域。任何其他规范即使是任意的凸函数，也可以用来代替L1范数。例如，使用unsqua。红L2n型油菜特征提取对于开集识别，构造增广向量r，x∈Rx-c||x-c||∈选择三个班级进行训练，仅从这些班级中抽取样本。相比之下，测试使用所有10个类别的样本。我们从3个类别的精确-回忆曲线计算AP分数，取其平均值，重复整个过程超过10次试验，并报告最终的平均AP分数。结果在表7中给出。OC-EPCC分类器再次获得最佳结果，其次是EPCC，KSVM和PCC。所有IRd+1，将给出一个PCC风格的分类器，该分类器返回椭圆形决策区域，并且与现有的“单类K-k·k 2方法”（如SVDD）不同，并且可能比其更鲁棒致谢：这项工作得到了土耳其科学技术研究委员会（TUB stecitak）的部分资助，资助号为EEEAG-116E080。271引用[1] A. Bagirov，J.Ugon和D.韦伯分段线性分类器增量构造的一种有效算法信息系统，36：782[2] H. 切维卡普用于分类的最佳拟合超平面 IEEETransactionsonPatternAnalysisandMachineIntelligence，pages 1[3] H. Cevikalp和B. Triggs使用最接近凸模型分类器级联的有效对象检测。CVPR，2012。[4] H. Cevikalp和B. Triggs基于超磁盘的大间隔分类器。Pattern Recognition，46：1523[5] H.切维卡尔普湾Triggs和V。法郎使用分类器级联的人脸和地标检测。在IEEE自动面部和手势识别上，2013年。[6] C. Cortes 和 V. 瓦普尼克支持向量网络。 MachineLearning，20：273[7] N. Dalal和B. Triggs用于人体检测的定向梯度直方图在CVPR，2005年。[8] M. M. Dundar，M.Wolf，S.Lakare，M.Salganicoff和V.C.雷卡用于目标检测的多面体分类器：案例研究：结直肠癌。在2008年的国际机器学习会议上[9] S.埃尔泰金湖Bottou，和C. L.贾尔斯非凸在线支持向量机。IEEE Transactions on PAMI，33：368[10] M.埃弗灵厄姆湖，澳-地凡古尔角，澳-地威廉斯，J.Winn和A.齐瑟曼。PASCAL可视对象类挑战. Int. J. ComputerVision，88（2）：303[11] 费尔岑斯瓦尔布河B. Girshick，D. McAllester和D.拉玛南。使用区分性训练的基于部分的模型进行对象检测。IEEE T-PAMI，32（9），Sept. 2010年。[12] V. Franc和S.索南伯格大规模风险最小化的优化切割平面算法。机器学习研究杂志，10：2157[13] R. N. Gasimov和G. 奥兹图克用多圆锥函数分离。优化方法和软件，21：527[14] M. K. H. Tenmoto和M.辛波具有适当数量超平面的分段线性分类器。模式识别，31：1627[15] S.侯赛因视觉目标检测的机器学习方法。博士论文，JeanKuntzmann博士，2011年。[16] S. Hussain和B. Triggs视觉目标检测的特征集和降维。在BMVC，2010年。[17] V. Jain和E.学习米勒。Fddb：无约束环境下人脸检测的基准测试。技术报告UM- CS-2010-009，马萨诸塞大学，阿默斯特，2010年。[18] 贾亚德瓦河Khemchandani和S.钱德拉用于模式分类的孪生支持向量机。IEEE Trans- actions on Pattern Analysisand Machine Intelligence，29：905[19] Y. Jia、E.Shelhamer，J.多纳休S.Karayev，J.隆河，西-地Gir- shick，S. Guadarrama和T.达雷尔。Caffe：用于快速特征嵌入的卷积架构 arXiv 预印本 arXiv ：1408.5093，2014。[20] Z. Kalal，J. Matas，and K.米科莱奇克大规模提升的加权采样。BMVC，2008年。[21] A. Kantchelian，M.C. 钱茨湖黄，P.L. 巴里特，A. D.约瑟夫和J。D.泰加大幅面凸多面体机。在NIPS，2014。[22] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。NIPS，2012年。[23] O. L. Mangasarian和E. W.野外基于广义特征值的

下载后可阅读完整内容，剩余1页未读，立即下载