没有合适的资源?快使用搜索试试~ 我知道了~
20513统一 集中 损失 : 完全 适应 标签 分配 学习regression张 立 立∗- Jingjing Wang ∗作者 : Zhaoliang Yao ,Yachun Li , Pengju yang ,Jingwei杨 ,chunmao :WANG ,Shiliang 的pu †Hikvision 研究 所中国{liqiang 23 , wangjingjing 9 , yaozhaoliang , liyachun 6 , yangpengju , 马来西亚 , 地图yanjingwei , wangchunmao , pushiliang . hri}@hikvision.comAbstractLearning from a label distribution 已经 实现Promise-ing results on ordinal regression tasks such as facial ageand head pose estimation in , ALDL ( 自 适应 标签 分发 学习 的 概念 ) 已 包括 :11 - tion recently for itssuperiority in theory . 理论 上 至少 有 其 优越 性 。However , com - pared with the methods assuming fixedform label 使 用 方 法 对 表 格 进 行 了 固 定 标 签Distribu-tion - - 分 布 ALDL methods 方 法 Have 不 是Achieved 更 好 Performance 。 我 们 已 经 讨 论 了 存 在ALDL算法,而不是充分利用顺序回归的内在属性。在本文中,我们建议学习在顺序回归任务上执行adap—tive 标 签 分 配 应 该 遵 循 三 个 原 则 。 第 一 , 概 率Correspond - -1.00.80.60.40.20均值变量我们的Multimodal 模式appears102030405060708090100Age要了解基本事实,最重要的是要在标签上做贡献。第二,邻居标签的概率应该随着距离的增加而远离地面事 实 , 即 , 发 行 版 是 统 一 的 。 Third , the labeldistribution should vary with samples changing , andeven be distinct for different instances with the samelabel ,due to the different level of difficulty andsoftware . 第 三 , 该 标签 发行 应该 有 样本 变化 ,甚至 可能 有 不同 的 instances 与 同一 个 标签 , 必须有 不同 的 等级 和 不同 的 可能 性 。ambiguity 。在这些原则的前提下,我们提出了一个全新的损失函数,用于完全适应性标签分发学习,称为统一集中的损失。特别是,大学模式的损失是从学习到制定策略—训 练 分 配 成 为 统 一 的 模 式 。 Furthermore , Theestimation error and the variance of the predicted( Furthermore , 《 预测 错误 及 预测 的 差异 》 )Distribu - tion for a specific sample are integrated into theproposedconcentratedlosstomakethepredicteddistribution maxi - mize ( 分配 特定 样本 的 集成 到 所建议 的 集中 损耗 中 , 以 使 预定 分配 的 最 大 值 -mize )at The Ground-truth ( 真相 )而vary According的两 个The predict 不 确定 性上 一篇 : TESSIVEEXPLIVE RESORTS ON TYPICIAL REGRESSION TASKSINCLUDING AGE AND HEAD POSE ES - TIMATION ,SHOWTHESUPERIORITYOFOURPROPOSEDUNIMODAL -CONCENTRATEDLOSSCOMPAREDWITH EXETING LOSSFunctions 。∗作者 贡献 等于 此Work .† Shiliang Pu 是 对应 的作者 |Probability的20514Figure 1的2013 年 第 一 届 中国 移动 通信 博览 会 (22)和 我们 。我们 的 预测 是 乐观 的 , 以 统一 和 学习According 的 两 个 具 体 地 instances adaptively 。 on TheContrary , 预测Of均值 变量are乐观 的两 个be集中 式为 大家 instances 而 do 不 是 ensure unimodal 模 式 Distributionexplicitly 的 。1. Introduction介绍有序 回归 解决 了 标签 的 挑战 问题are related 相关于A A Natural or implied 的令 令 。 许多Criticaltasks involved in the ordinal regression problem ( 顺序回归 问题 )Facial Attracial : facial age estimation 、head pose estimation 、facial attracial :tivenesscomputation 、 movie ratings which play 等等 。1 、Portant role in many practical applications such as humancomputer ( 作为 人类 的 许多 实际 应用 程序 中 的便携 式 角色 )互动 ,司机 Driver监测 ,Precise广告宣传 及 视频 宣传 (10,32].早期 的 古典 主义 (11, ,17, ,20, ,24, ,37, ,38 ◎ 基于通常 的 分类 或 回归 , 而 不是 表现 得 很 好 , 忽略 了 常规 的 关系 among labels ,并 遭受 了 模棱两可 的 标签 。在 Recent近年 来 ,Ranking基于methods 方法(3,21] are提议Which useMul - Tiple binary classifiers to determine the rank order .二 进制 分类 器 确定 rank 顺序 。They explicitly 他们明确make 做use Of The常规information 信息but Theydo20515不 考虑 标签ambiguity 。Toaddresstheordinalrelationshipandlabelambiguity , label 正常 关系 和 标签 野心Distributionlearning( LDL )(7] converts A A single 单一label toa label distribution . 标签 分配 。The label distributioncovers a cer ( 英语 : The label distribution covers acer ) Number Of class Labels ,Presentation 介 绍 TheDegree 的两 个which each 什么 时候label describes 描述The 毅 力。since The REAL Distribution for eachinstance is not available 而且 必须 是 有 正确 的 假设 产生 的 , 它 可以 被 称为 fixed form label Distributionlearning( fldl ) The典型Form 2009 年 12 月 21 日@下午 1 时 40 分 is the Gaussian distribution centered at theground truth with assumed standard deviation [1 , ,7 , , 8]. Although FLDL ap - proaches ( 英 语 :Although FLDL ap - proaches )achieve 。Improved 的业 绩, However , They 使 用A 固 定的 FormDistribution两 个describe 描述various instances限制 自己 的 表达ability 。为了 克服 这个 限制 , 自 适应 贝尔 分布 学习 的概念 ( ALDL )9” 他 提出 了 。基于 ALDL 的 方法 , 平均 方差 (22这 是 一 个 典型 的 工作 实现 了承诺 的 结果 , 这 是 一 个 具有 学习 意义 和 变化 的分布 。 “ 永远 , 永远 , ”IT Pursues 的A A highly集中式Distribution为all“ 这 意味 着 , 从 本质 上 讲 , 变化 是 可能 的 , 变化 是 可能 的 , 但 也 是 可能的 。它不能保证所学习的分布是统一的,由联合使用SoftMax和意味着变化的损失,没有统一的模式限制。因此 , 我们 观察 到 , 从 平均 变量 中 学习 的 分布不是 完全 适应 的 , 而且 对于 某些 实例 , 如 图 所示 , 是 多 模式 的 。1。我们可以看到,老年人的学习分布是非常及时的,而两个人的学习分布是类似的。经验 丰富 的 分布 不 符合 面部 老化 的 趋势 ,这 可能 在 不同 的 年龄 有 很 大 的 不同(9].尽管如此,当前的ALDL方法尚未充分利用顺序回归的固有属性。在本文中,以下三个原则总结了顺序回归。首先,遵循经验风险最小化,概率对地面的反应—事实应该是标签分配的最高点。2 、 当 标签 移动时 , 顺序 回归 的 标签 任务 逐渐 变化 , 测试 状态和 等级 之间 的 相似 性 - 总体 定义 逐渐 消失from theground-truth 。因此,我们认为,邻近地区的可能性——与邻近地区的标记相对应的概率应该随着距离的增加而有所下降,即远离地面真理。发行版是统一的。Third , the label distribution should 第 三 , 标签 分配应 该 vary with The Samples Changing , 而 Even bedistinct for 其中Different 不同instances with The SAME标签 ,杜两 个The differ - ent levels of difficulty andambiguity . ( 困难 和 模棱两可 的 程度 。In otherwords , the learned 在 其他 的 话 , 学到 的labelDistribution Should 的be adaptive 适应为A A particularstance 。 to satisfy 的The Principles above ,We建议A A新 的 adaptive label Distribution learning办法装备用 一个 统一 集中 的 损失 。基于 原则 I , 我们 直接 -maximize 最 大 The 可 能 性 at The Ground-truth ( 真相 )via孔20516集中损失作为我们的初级学习目标。based on 原则II ,The unimodal 模 式Loss 衍 生from learning 两 个Rank 战略( LTR )(6] IS introduced 的两 个约束 性The分布 是 统一 的 。如果 两 个 邻居 标签 都 排名incor - 一 个 积极 的 损失 将 产生 更新 列车 - 参数 ,以 正确 的 顺序 关系 。based on原则三 、The varianceOfTheDistribution2.correspond-ingtotheconcentration degree is integrated and optimized jointly目前 正在 整合 和 优化 中于The集中 式Loss ,WhichCAN be Regarded AS一 个 索引 器Of Data uncertainty不 确定 性而label ambiguity 。 The main contributionsof this work 是 什么 意思Three-Fold :Weare The FIRST 两个 comprehensively 的Summarize 总结The学习 自 适应 标签 偏差 的trinsic principles for learning an adaptive label distribution on ordinal regression tasks 。第 一 种 可能( First , the Probabil )at The Ground-truth ( 真相 )Should 的be The HiGhest于The这 是 贡献 。第 二 ,The Distribution Should 的be统一 模式第三 ,The Distribution Should 的be adaptive 适应两个个人 情况 。这些 三 个 原则 将 照亮design OfLoss Functions 功能为未来 works 于The Field ofOrdinal 普通 场Regression 。与 先前 的 方法 不同 , 这些 方法 不 完全 符合上述 原则 , 我们 提议 采用 一 种 新 的 以 统一模式 为 中心 的 松动 , 采用 统一 模式 部分 进行 分布 , 并 以 集中 的 部分 进行 分配 -tradedat The Ground-truth ( 真 相 ) 而 充 分adaptive 适应两 个Individual - 个人Instances 。这个 提议 的 损失 可以 很 容易 地 嵌入 到 存在的 CNN 中 , 而 不 改变 结构 , 并且exten - siveexperimental results demonstrate its 的 描述 结果Superiority 。2. related 相关work 工作有 三 种 方法 可以 分为 三 个 类别 : 基于 非 LDL的 方法 , 基于 FLDL 的 方法 和 基于 ALDL 的 方法方法 。2.1. 非LDL非LDLmethods 方 法 CAN be Grouped 的 IntoRegression 基础 , 分类基 于而Ranking 基础 的 。classification 分类基于 方法 通常 将 顺序 回归 作为分类 问题 。For examples , age estimation was cast asa clas - sification problem with 101 categories ( 2011年 , 美国 )27 ◎ 片 名 And the Angle Of yaw何 为Divided 分裂Into COARSE Bins AS class Labels为Headpose estimation )14, ,25]. [ 5 ] These methods treatordinal la - bels as independent ones , and the cost ofbeing assigned to any wrong category is the same whichcan ’ t exploit the . ( 这些 方法 通常 是 独立 的 , 并且 被 赋予 任何 错误 的 类别 的 成本 与 无法 利用 的相 同 ) 标 签 之 间 的 关 系 ( re-lations betweenlabels )基于 回归 的 方法 直接 返回The Ground-truth( 真相 )with Euclidean 的Loss两 个penalize 的TheDifference 的 Between The 估 计 而 Ground-truth ( 真相 )大多 数 情况 下 , 不 显 式 使用 常规 信息 。 yiet艾尔 (38] used CNNs模型两 个extract特点 Features···20517∼∼∼∈{}Σ而D=1;☆☆equals的两 个TheGround-truth ( 真相 )labely;σi , jI·ΣΣfrom several facial regions,and used a square loss for ageestimation.从多面地区,并使用一平方米的损失进行年龄估计。janjin et al. ( )24 [ 1 ] 提出 了 一 个 统一 的CNN 网络 , 即 联合 预测 面部 年龄 、 头部 姿势 和其他 方面 的 工作 。tributes -最近 , 排名 技术 正在进行一 是 惯性 回归 问题 。9 et al. (21 ◎ 片 名Leveraged the Ordinal information 信 息 Of Age Bylearning A A Network with mul - tiple binary outputs ,while Chen et al. ( 二 进制 输出 , while Chen 等 )3[ 通过 学习 多 个 二 进制 CNN 并 聚合 年龄 估计 的结果 来 实现 这 一 点 。使用 这些 方法 或 使用 初步信息 以 提高 性能 , 他们 拿走 了Single Label AsGround-Truth Without Considering Label (SingleLabel )ambiguity 。2.2. FLDLLabel 标签Distribution learning IS提议两 个AddressThe“ 你 知道 吗 ? 这 是 一 个 模棱两可 的 问题 。对于基于FLDL的方法,分销形式是在培训和执行固定的操作之前确定的。它们的客观目的是在已知分布和固定一个之间的差距。( Gent et al. )8 ◎ 片 名 Firstlydefined The label Distribution By Assigning 的 A AGaussian or Triangle distribution for an instance . ( 三 重分布 )解 得 : sin (5 [ 采用 了 正常 的 分布 , 并 通过 最 小 化 封装 器 差异 来 学习 标签 的 分布 ]两 个分布using Deep CNN 的 。 模拟两 个DLL ,刘etONS have not strictly complied the intrinsic principlessum marized in this work which can ’ t fully take theadvan-day of -Aldl 。3. 方法Methodology在 本 节 中 , 我们 将 首先 给 一 个 简介 回顾基于FLDL 的 方法 和 细节 我们 的 ALDL 方法 , 其中 一个 新颖 的 客观 功能 , 统一 集中 的 损失 , 是 为 高度 灵活 的 分布 而 提出 的学习 。3.1. Preliminaries的评论正 式地, let xIdenote 。 The I- TH inputinstance with I =1,2,...,n,y阿 索 莱Idenote 。The predicted value By The网络 , 以及y I1, ,2 , , C Denote The Ground-Truth Label Where( 英 语 : Ground-Truth Label Where )n IS TheNumber Of instances而C IS The Number Of classes 。insteadOf RESTRESSING y I 直 接 , FLDL 基 于methods 方法transform y Ifrom A A single 单一classlabel两 个A A label分布 和Then predict 预言y阿 索莱 IBy label Distribution 学 习。Gaussian 的Distribution IS Commonly 普通used于FLDL(1,5,7,9]. instances with The SAME class label y IShare 分享 The Identical 相 同 Gaussian 的 戴 -tribution 。Taking Gaussian 的Distribution D n(☆ ☆ ☆ σ2)AS例子1(J― ― ☆ ☆)2艾尔 (19] employed 雇员三 个Gaussian 的labelDistribution两 个DE -Scribe 的A A Face 脸示例于The Yaw ,PITCH而角色roll domainDi, j=s√2πσ2EXP的( -)2σ2),J = 1,2,...,C , ( 1 )respectively。 DLDL-V2(1] Improved 的The DLDL ByIntro -Ducingan Expectation 期待Loss from Distribution两 个alleviate训练 目标 与 评估 指标 之间 的 不 一致 性 。例如 : sin (30将 随机 森林 连接 到 深度 神经 网络 , 并 利用 决策 树 的 尖端 - 旨在 模型 任何 一般 形式 的 标 签 分 发 。 例 如 : tan ( 23 [ ] self-pacedregression forests to 自动 回归distin - Guish noisy andconfusing facial images from regular ( 模糊 的 面部 图像 ) 专 辑 中 文 名 : One , Which alleviate Theinterference 干预arising 的from他 。 如何 -where 哪里D i , jdenotes :The可能 性Of x IBelongs的两 个class JCJISThe standard Deviation Of DI; s IS A A 正 常 化 因素 。LetzI= F(x I;(denote 。The产出Of The last充分CNN 模特 儿 的 一 层 con - nected ( FC ) layer of aCNN modelF( )何处ΘIs The Model 模特参数 |SoftMax 的业务IS APPLIE 应用两 个Turn Put - putzIInto Distribution 分布pI。The Elements 元素p i ,jOf pIis - puted 的ASEXP 的(z i , j)永远 ,These 这些methods 方法use A A固定 的FormDistribution两 个describe 描述variousinstances Which限Their expression ability 。pi ,j =CK =1EXP的(zi,k)。(2)2.3. ALDL不同from FLDL基于methods 方法Which assume基于ALDL 的 固定 形式 标签 分发methods 方法IS不是assumed at The开始而IT IS基因 -Kullback(Kullback)分歧经常被采用Fldl是LossFunction的缩写。关于 Loss(l kl)IS乐观 的2 . 在预定 义 的 分布 之间 减少 差距DI而The predictedDistribution pI。 The FINAL prediction 预测y阿 索 莱IISobtained 的 By Taking The Expectation 期 待 OfpIAS Follows 的Cerated automatically during learning自动化持续学习。( Gent et al. )8双 适应 标签 分配 学习 算法 ( pro -posedtwoadaptivelabeldistributionlearningalgorithms) IIS ALDL而BFGS-ALDLrespectively 相关两个汽车 -20518y阿 索 莱I=J ∗ pJ = 1i,j。(3)学习如何将标签分发适应不同的时代。 He 他et艾尔(13] generated 产生age label Distribution through a 通过 Weighted 体 重 linear 线 性 combination Of The inputImage 的 label 和 其 context-neighboring 样 本 . 艾 尔( Al )22 [ 2019 - 04 - 15 ] · 分配 的 意义 与 变化 消失 时 的 意义 区别第 一 , 分配 的 差异 , 以 确保 一个 夏普 的 分配 。However , we argue that existingaldl ( 我们 因为 ALDL 存在 )meth -Thus ,Different 不同instances with The SAME label areexpected 2 预言模拟 器分布 。 IT IS Against The自然Nature that DIF - - ferent instances with the same labelshould have their own distributions corresponding to their-characteristics 。3.2. 提议办法为了解决问题,我们现在提供了一种新颖的自适应标 签 分 发 方 法 , 可 以 使 用 Pro—duce unimodal 和instance—aware分发。Fig. 220519yy)2Exp()(II)2vI――ΣΣ― ―――—― ―――――I =1image1unimodal 模式Loss(pI,JpI,J 1)* Sign(JyI)↓0SoftMax的image2Concentrated 的Loss愤怒麦克斯1 2imageinputFeatureextraction充分adaptive 适应Distribution learningFigure 2的Overview of our proposed method.我们建议的方法。统一 模式 的 损失 使得 最终 预测 的 分配 将 被 链接 到 一 个 山地 生活 的 曲线with single 单一Peak ,While The mean 的而variance Of The probabilities 概率are乐观 的jointly via The集中 式Loss两 个make 做The predicted distribution adaptive to individual 预测 分配 , 适应 个人Instances 。给出 了 我们 的 方法 的 概述 , 其中 提议 的 统一 模型 和 集中 的 损失 已 嵌入 到 一 个 扩展CNN为End-to- end 的learning without any对 模型 进行 额外 的 修改 。The Details Are Given 的 评论下面 。3.2.1unimodal 模式Loss根据原则,我们通常优先考虑为普通重绘任务输出单一模式分布的关键。Hence , 我们 提议 一次性 损失denoted as ; l uni which is formulated as 是 什么 意思Follows 的In the other direction where sign 在 另 一 个 方向(j 和I] =+1OUR 我们l uni法律 顾问The probabilities 概率两 个Decrease 的monotonically 的After The Ground-truth ( 真 相 ) 阵 地 。 Thus , The predictedDistribution Will be optimized to be unimodal ( 英语 : Will be optimized to be unimmodal )l uni。我们 的 提议l uni英文 名 : Is Superior to the SoftmaxLoss Used In 22]. since l uniCan adjust the ranking relationwithin the 可以 把 排名 的 关系 放入 其中predictedDistribution While The softmax 的 Loss 不 是 。 Pleaserefer to proof in sec . 请 允许 我们 在 SEC 进行 测试 。3.2.3对于更多细节。第 一 � l 租 � U 物 � Y 的 品名 、 � 格 、 � 盗 俊 ① | 量 ( � � 合同 附件 ) :_22 ◎ Are ( 你 )更 可能 是 多 模式 的 , 比较 的 例子 在 图 中 给出 。 4。nC -1l uni =1max( 0 ), ,(p nI = 1 J = 1i,j― ―pi,j+1)∗Sign(J― ― yI]),(四)3.2.2Concentrated 的LossAccording 根据两 个Principles Discused 讨论在 那 之前 ,The Learned 学习bution - - 消费Should 的maximize最 大at The Ground-truth ( 真相 )而be adaptive 适应哪里 的 旗帜(J y I] is a sign function which equals to -1while 相等 -1 的 函数Jy I<0而equals 的两 个1 otherwise 。 IT IS desirable的为value of 值p i , jp i , j+1be negative if 是 什么 意思j 和 I<0 0be positive if ( 正面 的 )J y I> 0,Which conforms 的两 个The Properties 文件Of统一分配 模式普通模式Constrain Distribution to Be Unimodal。下 一篇 文章 下 一篇 文章 : Order to show how ourunimodal loss l uni表演 者 : We Take A case 事件对于个人的情况。To complish this goal , we pro - - 表示 损失 以 实际 为准l con Which integrates 综合 的TheDI F参考BetweenThe估计y阿 索 莱而The基础 -truth y 而 The uncertainty 不 确 定 性 Indicator 指 数variance Of The predicted distribution together , andoptimized them 预计 共同 分布 , 乐观 地 对待 他们Jointly 。WeFIRST maximize 最 大The Following喜欢为x IOfJ 0。这 是The adjacent probabilities 概率are不是于In2 πv I2v I20520Σ――nuni1 . 在 达到 基本 真理 之前 monotonically beforereaching the ground-truth阵地 。2I2v I2Calth p;i,j =+1,(五 )v I=p i , j∗(J ― ― y阿 索 莱I)2。 (8)J =1丁 磊 Luni=1。(6)alth p;i,j +1根据EQ。 5以及EQ。 6- The p i , j威尔 · Bedecreased 的thenWeta K eTheN eg at Iv elogOf例如 : tan(·)两 个getlcon ASFollows的杜两 个its积极 的Gradients ,While p i , j+1威尔beincreased 增加l con=- ln( 1 分 ) sin (pI; x I,((9 )2、注意它的负面等级。 In other words ,our 我们unimodal 模式n2Lossl法律 顾问The probabilities 概率两 个make 做Them increase 增加=1Σ(1lnv+(y阿索莱I― ―yI)+1ln2π),( 10)I =1205212Iαv――――n――。-2――何处 不断1ln 2π Can be omitted during 可以 在优化 。Instance-aware Adaptive Distribution 实例 感知 型 分布learning。toDemonstrate How it works , we take the gradient ofconcen ( 我们 演示 它 是 如何 工作 的 , 我们 接受理念 的 梯度 )l conw.r.t. The Variance版本v I。众所周知 , 样本 意味 着 和 变化 是 统计 上 相互 独立 的 ,因为 它 是 计算机 的 。AS丁磊L conα v I1=2v I(y阿索 莱I― ―yI)22v,(11)where 哪里丁 磊 Lcon已 关注Properties 文件I0pI, ,JpI,J 1 yILabel标签丁 磊Lcon>0, ,While v>(y阿 索 莱― ― y)2,( 12 )α v I丁磊L conIIIFigure 3.一 幅画 : How Unimodal Loss ( Orange ) and Soft -Max ( 美 )Loss( Green )影响The可能 性Distributionrespectively 。α v I< 0,While 0
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功