没有合适的资源?快使用搜索试试~ 我知道了~
6490一BCDFineGAN:用于细粒度对象生成和发现的Krishna KumarSinghUtkarsh OjhaYong JaeLee加州大学戴维斯分校摘要我们提出了FineGAN,一种新的无监督GAN框架,它将背景,对象形状和对象外观进行分解,以分层生成细粒度对象类别的图像。为了在没有监督的情况下解开这些因素,我们的关键思想是使用信息理论将每个因素与潜在代码相关联,并以特定的方式调节代码之间的关系以诱导所需的层次结构。通过大量的实验,我们表明FineGAN实现了所需的解纠缠,以生成属于鸟类,狗和汽车等细粒度类别的逼真和多样化的图像。使用FineGAN的自动学习功能,我们还对真实图像进行聚类,作为解决无监督细粒度对象分类发现新问题的第一次尝试。我们的代码/模型/演示可以在https://github.com/kkanshul/finegan 上 找到1. 介绍考虑上图:如果任务是将任何图像分组在一起,作为人类,我们可以很容易地告诉鸟类A和B不应该与C和D分组,因为它们具有完全不同的背景和形状。C和D呢?它们拥有相同的背景、形状和粗糙的颜色。然而,仔细观察后,我们发现即使是C和D也不应该被归在一起,因为C1这个例子证明了对细粒度对象类别进行聚类不仅需要背景的分离*同等缴款。1地面实况细粒度类别是A:巴罗的金眼,B:加州银鸥,C:黄嘴杜鹃,D:黑嘴杜鹃。图1. FineGAN将背景、对象形状(父对象)和对象外观(子对象)分解,以分层方式生成细粒度对象,而无需遮罩或细粒度注释。形状和外观(颜色/纹理),但它自然地以分层方式促进。在这项工作中,我们的目标是开发一个可以做到这一点的模型:通过分层地解开背景、对象的形状和其外观来建模细粒度对象类别,而无需任何手动细粒度注释。具体来说,我们首次尝试解决无监督细粒度对象聚类(或“发现”)的新问题。虽然无监督对象发现和细粒度识别都有很长的历史,但关于无监督对象类别发现的先前工作仅集中在聚类入门级类别(例如,鸟类与汽车与狗)[17,42,31,51,47,15],而现有的细粒度识别工作只关注监督设置,其中提供了地面实况细粒度类别注释[35,52,34,4,13,33,12,7,46]。为什么非监督发现这样一个困难的问题?我们有两个主要动机。首先,细粒度的符号需要领域专家。因此,整个注释过程非常昂贵,并且不能使用标准的众包技术,这限制了可以收集的训练数据的量。其次,无监督学习能够发现数据中的潜在结构,这些结构可能没有被注释者标记例如,细粒度图像数据集通常具有一个后台代码父代码子代码6491其中可以首先基于一个特征对类别进行分组的分层组织形状)然后基于另一个(例如,外观)。主要思想。我们假设,具有分层生成具有细粒度细节的图像的能力的生成模型也可以用于真实图像的细粒度分组。因此,我们提出了FineGAN,一种新的分层无监督生成对抗网络框架,用于生成细粒度类别的图像。FineGAN通过分层生成背景图像、捕获对象的一个变化因素的父图像和捕获另一个因素的子图像并将其拼接在为了在没有任何监督的情况下解开对象变化的两个因素,我们使用信息理论,类似于InfoGAN [9]。具体地说,我们在(1)父潜码和父图像之间实施高互信息,(2) 以父代码为条件的子潜在代码和子图像。通过对父代码和子代码之间的关系施加约束(具体地说,通过分组子代码,使得每个组具有相同的父代码),我们可以诱导父代码和子代码捕获对象的形状和颜色/纹理细节,例如,参见图1。这是因为在许多细粒度数据集中,对象通常在共享形状的条件下外观不同(例如,‘Yellow-billed Cuckoo’ and ‘Black-billed Cuckoo’,which share the same shape but differ in their beak colorand wing此外,FineGAN在父阶段和子阶段自动生成掩码,这有助于调节潜在代码以关注相关的对象因素,并将生成的图像跨阶段拼接在一起。最终,通过这种无监督的分层图像生成过程学习的特征可以用于将真实图像聚类到其细粒度的类中。捐款.我们的工作有两个主要贡献:(1) 我们介绍FineGAN,这是一种无监督模型,可以学习分层生成细粒度对象类别的背景,形状和通过各种定性评估,我们证明了FineGAN的能力,准确地解开背景,物体形状和物体外观。此外,对三个基准数据集 ( CUB [45],Stanford- dogs [27]和Stanford-cars[29])的定量评估证明了FineGAN(2) 我们使用FineGAN的学习解纠缠表示来聚类真实图像,以进行无监督的细粒度对象类别发现。它产生的细粒度聚类比最先进的无监督聚类方法(JULE[51]和DEPICT [15])更准确。据我们所知,这是第一次尝试在无监督设置中聚类细粒度类别。2. 相关工作细粒度类别识别涉及对入门级类别内的从属类别进行分类(例如,不同种类的鸟类),这需要领域专家的注释[35,52,34,4,13,8,33,12,28,58,46]。一些方法需要额外的部分[56,6,53],属性[14]或文本[37,19]注释。我们的工作,使第一次尝试,以克服依赖于专家的注释,执行无监督的细粒度的类别发现,没有任何类注释。可视化对象发现和聚类。无监督对象发现的早期工作[41,17,42,31,32,39]使用手工制作的特征从未标记的图像中聚类对象类别。其他人则探索使用自然语言对话进行对象发现[10,59]。最近的无监督深度聚类方法[51,47,15]展示了其对象在形状和背景等高级细节方面具有较大变化的数据集的最新结果。在细粒度的类别数据集上,我们表明FineGAN的性能明显优于这些方法,因为它能够专注于细粒度的对象细节。解纠缠表征学习有大量的文献(例如,[3,44,22,49,9,21,11,23])。 在这个领域中最相关的工作是InfoGAN [9],它通过最大化潜在代码和生成数据之间的互信息,在没有任何监督的情况下学习解纠缠表示。我们的工作建立在信息论的相同原则上,但我们将其扩展到学习分层解纠缠表示。具体来说,不像InfoGAN,其中对象的所有细节都是一起生成的,FineGAN提供了显式的扩展和对背景,形状和外观的生成的控制,我们表明这在建模细粒度类别时特别重要。GAN和Stagewise图像生成。无条件GAN [16,36,43,57,1,18]可以在没有任何监督的情况下生成逼真的图像。然而,与我们的方法不同,这些方法不生成图像的层次,并没有明确的控制背景,对象的形状,和对象的外观。一些有条件的监督方法[38,54,55,5]学习生成带有文本描述的细粒度图像。一种这样的方法,FusedGAN [5],生成具有特定姿势和形状的细粒度对象相比之下,FineGAN可以在没有任何文本监督的情况下生成细粒度图像,并且可以完全控制背景,姿势,形状和外观。还相关的是逐段图像生成器[24,30,50,26]。特别是,LR-GAN [50]分别生成背景和前景并将其缝合。然而,两者都是由一个随机向量控制的6492它不会将物体的形状从外观中分离出来。3. 方法设X ={x1,x2,. . . .,XN}是包含细粒度对象类别的未标记图像的数据集。我们的目标是学习一个无监督的生成模型FineGAN,其产生与真实数据分布p_data(x)匹配的高质量图像,同时还学习解开与X中的图像相关联的变化的相关因素。我们 考虑 背景技术,形状,外观和物体的姿势/位置作为这项工作中的变化因素。如果FineGAN可以成功地将每个潜在代码与特定的细粒度类别方面(例如,像鸟也可用于对X中的真实图像进行分组,以进行无监督的细粒度对象类别发现。3.1. 分级细粒度解缠结图2展示了我们用于建模和生成细粒度对象图像的FineGAN架构整个过程有三个相互作用的阶段:背景、父项和子项。背景舞台生成逼真的背景图像,年龄B.父阶段生成对象的轮廓(形状)并将其拼接到B上以产生父图像P。子阶段用适当的颜色和纹理填充对象整个过程的目标函数是:L=λLb+βLp+γLc其中Lb、Lp和Lc分别表示背景、父级和子级的目标,λ、β和γ表示它们的权重。我们对所有阶段进行端到端的培训。不同的阶段用不同的潜在代码进行调节,如图所示。二、 FineGAN将以下内容作为输入:(一) 连续噪声向量z<$N(0,1); ii)分类噪声向量背景码b=Cat(K=Nb,p=1/Nb);分类父码p∈Cat(K=Np,p=1/Np); iv)分类子码c∈Cat(K=Nc,p=1/Nc)。潜码之间的关系:(1)父代码和子代码。 我们假设X中存在隐式层次结构-如前所述,细粒度类别通常可以首先基于公共形状进行分组,然后根据外观进行区分。为了帮助发现这种层次结构,我们施加了两个约束:(i)父代码的类别数被设置为小于子代码的类别数(Np
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- 电力电子系统建模与控制入门
- SQL数据库基础入门:发展历程与关键概念
- DC/DC变换器动态建模与控制方法解析
- 市***专有云IaaS服务:云主机与数据库解决方案
- 紫鸟数据魔方:跨境电商选品神器,助力爆款打造
- 电力电子技术:DC-DC变换器动态模型与控制
- 视觉与实用并重:跨境电商产品开发的六重价值策略
- VB.NET三层架构下的数据库应用程序开发
- 跨境电商产品开发:关键词策略与用户痛点挖掘
- VC-MFC数据库编程技巧与实现
- 亚马逊新品开发策略:选品与市场研究
- 数据库基础知识:从数据到Visual FoxPro应用
- 计算机专业实习经验与项目总结
- Sparkle家族轻量级加密与哈希:提升IoT设备数据安全性
- SQL数据库期末考试精选题与答案解析
- H3C规模数据融合:技术探讨与应用案例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功