3.1
单元拓扑
细胞是一个完全卷积的网络,它将一个H×W×F张量映射到另一
个
H
′
×
W
′
×
F
′
张量。如果我们使用步长1卷积,则
H
′
=
H
和
W
′
=
W
;如
果我们使用步长2,则
H
′
=
H/2和W
′
=
W/2。每当空间激活减半时,
我们采用一种常见的启发式算法将过滤器(特征图)的数量加
倍,因此对于步幅1
,
F
′
=
F
,对于步幅2,
F
′
=
2
F
单元可以由由
B
块组成的DAG表示每个块是从2个输入张量到1个输
出张量的映射。我们可以将单元c中的块b指定为5元组(
I
1
,
I
2
,
O
1
,
O
2
,
C
),其中
I
1
,
I
2
∈
I
b
指定块的输入,
O
1
,
O
2
∈
O
指定应用于输入
I
i
的操作
,
C
∈ C
指定如何组合
O
1
和
O
2
以生成与该块的输出对应的特征映
射(张量),我们将其表示为
H
c
。
可能输入的集合Ib是该单元中所有先前块的集合
{
Hc
,
. . .
,
H
c
}
,加上前一个单元的输出,
H
c
−1
,加上
1
b
−1
B
前一个-前一个单元格,
H
c-
2
。
算子空间
0
是以下8个函数的集合,每个函数在单个张量
5
上操作:
•
3x3深度可分离卷积
•
5x5深度可分离卷积
•
7x7深度可分离卷积
•
1x7后接7x1卷积
•
身份
•
3x3平均合并
•
3x3最大池化
•
3x3扩张卷积
这少于[41]中使用的13个运算符,因为我们删除了他们的RL方法发现
从未使用过的运算符。
对于可能的组合算子空间
C
,[41]考虑了元素级加法和级联。然
而,他们发现RL方法从未选择使用连接,因此为了减少搜索空间,
我们总是使用加法作为组合运算符。因此,在我们的工作中,一个块
可以指定一个4元组。
我们现在量化搜索空间的大小以突出搜索问题的大小
。
让该空间的
p
os i
s i e
s ies i s i
s
|
B
b
|
为
|
I
b
|
2
×
|
O
|
2
×
|
C
|
,
当
|
I
b
|
=
(
2
+
b
−
1)
,
|
O
|
=
8
和
|C|
=
1时。 对于
b
=
1,我们有
I
1
=
{
H
c
−
1
,
H
c
−
2
},它们是
B B
前两个单元格,所以有
|B
1
|
= 256个可能的块结构。
如果我们允许多达
B
= 5个块的单元,则单元结构的总数由下式给
出:
|B1
:
5
|
= 2
2
×
8
2
×
3
2
×
8
2
×
4
2
×
8
2
×
5
2
×
8
2
×
6
2
×
8
2
= 5
.
6
×
10
14
.
然而,在这个空间中存在某些对称性,允许我们将其修剪到更合理的
大小。例如,仅存在由1个块组成的136个唯一单元。唯一单元格的总
数是10
12
。这比[41]中使用的搜索空间小得多,其大小为10
28
,但它仍
然是一个非常大的搜索空间,并且需要有效的优化方法。
5
深度可分离卷积实际上是ReLU-SepConv- BatchNorm的两个重复;当张量大小
不匹配时,也会插入1x 1卷积