然而,所有这些方法分区的输入空间分组categories,而我们的方法
分区的特征空间,捕捉高层次的外观信息,无论类成员资格,基于观
察,有视觉上截然不同的子类内的每个类。这也使我们的方法免于由
于严重的类间相似性和类内外观变化而导致的专业错误分类的风险,
其中使用基于类的分组的方法无法恢复[2,37,53,57]。此外,我们
的方法在测试过程中只调用有限数量的模型,这导致了显着的计算效
率比现有的方法。
与组织多个CNN模型相比,已经努力在树结构中分离单个CNN的
视觉特征[3,26,31,36,42]。这对于并行和分布式学习特别有用,
如Kim等人所示。[26],其中自动发现不相交的特征集以及不相交的
类集。在相同的精神并行化,但在更大的规模,格罗斯等人。[16]处
理不适合存储器的专家模型的混合与他们的工作类似,我们学习的子
模型在特征空间中是局部的,图像到模型的分配由图像到相应子模型
聚类中心的距离确定
作为计算机视觉中的基本问题之一,在场景分类方面已经做了大
量工作[17,25,30,38,41,51,55,56,62]。我们的工作与最近尝
试利用场景内的对象信息有关[10,13,14,20,52,63]。然而,我
们没有使用预先训练的网络显式地检测对象,也没有离线执行严格的
聚类来找到这样的视觉元素[24,54]。相反,我们让网络在端到端训
练过程中通过网络架构捕获这些信息,该网络架构考虑了可以在场景
中自由移动卷积特征的全局无序池化通过这种方式,高级卷积滤波器
的性能类似于对象检测器[6,60]。此外,我们还利用了全局有序池化
表示,它保留了粗略的空间信息[35]。
3
方法
我们首先描述了我们提出的层次结构的专家交替architec-
tur
e
in
Sec
。
第
3.1条
我们
将如何使用数据转换器,具体而言,是在第二节中以无监督方式
执行的扩展。3.2. 最后,我们描述了学习目标以及第二节的整体培训程
序。三 点三
3.1
交替专家
我们提出了一个层次版本的通才-专家模型[21],其中儿童专家专注于
比其父母更具体的任务。 为了实现这一点,我们从一个通才模型开
始,然后在当前级别达到收敛后,在层次结构的下一级中逐步添加专
家模型。我们初始化一个新的专家与其父,或最近