没有合适的资源?快使用搜索试试~ 我知道了~
核变换网络:360°图像的紧凑球面卷积方法
()()194420用于紧凑球面卷积的核变换网络0Yu-Chuan Su奥斯汀德克萨斯大学Kristen Grauman FacebookAI研究奥斯汀德克萨斯大学0摘要0理想情况下,360°图像可以继承已经在透视投影图像上取得巨大成功的深度卷积神经网络(CNN)。然而,将CNN从透视图像转换为球面图像的现有方法会引入显著的计算成本和/或精度降低。我们提出了核变换网络(KTN),以有效地将卷积核从透视图像转换为360°图像的等距投影。给定一个用于透视图像的源CNN作为输入,KTN生成一个由极角和核参数化的函数作为输出。给定一个新的360°图像,该函数可以计算任意层和核的卷积,就像源CNN在相应的切线平面投影上一样。与所有现有方法不同,KTN允许模型转移:相同的模型可以应用于具有相同基础架构的不同源CNN。这使得可以在不重新训练KTN的情况下应用于多个识别任务。通过使用多个源CNN和数据集验证我们的方法,我们展示了KTN在球面卷积方面的最新技术。KTN成功地保留了源CNN的准确性,同时提供了可转移性、适用于典型图像分辨率的可扩展性以及在许多情况下显著较低的内存占用1。01. 引言0360°相机是一种越来越受欢迎的技术设备,预计在2022年之前销售额将增长1500%[41]。因此,360°数据的数量正在迅速增加。例如,用户在不到3年的时间里在Facebook上上传了超过一百万个360°视频[2]。除了摄影摄像外,360°相机还受到自动驾驶汽车、自动化无人机和虚拟现实/增强现实的关注。由于几乎任何应用都依赖于语义视觉特征,这一不断增长的趋势引发了对360°图像上的视觉识别算法前所未有的需求。今天取得巨大成功的识别CNN是大量数据筛选和注释工作的结果[6,01代码和数据可在http://vision.cs.utexas.edu/projects/ktn/上找到0360°图像0f Ω 10f Ω 20(C)提出的KTN0(A)直接应用0(B)应用于切线平面0图1:我们的目标是将在平面图像上训练的CNN转移到360°图像上。常见的方法要么(A)直接应用CNN在360°图像的等距投影上,要么(B)将内容投影到切线平面上并在切线平面上应用模型。相比之下,核变换网络(KTN)调整CNN中的卷积核以考虑360°图像中的畸变。014,16,30,35,40],但它们都假设透视投影图像。它们如何被重新用于360°图像?0数据?现有方法通常采用现成的在透视图像上训练的模型,要么1)将其重复应用于360°图像的多个透视投影[10,37,39,42],要么2)将其应用于单个等距投影[19,29]。见图1(A,B)。然而,这两种策略都有严重的局限性。第一种策略很昂贵,因为它必须将图像投影并重复应用识别模型。第二种策略不准确,因为等距投影中的视觉内容会发生畸变。为了克服这些挑战,最近的研究专门为球面数据设计了CNN模型[11,12,15,36,45]。广义上讲,它们追求以下三种方法之一。第一种方法是为等距投影调整网络架构,并训练可变大小的卷积核以考虑其畸变[36]。虽然准确,但这种方法会导致显著的模型膨胀。第二种方法是在球面上调整卷积核,重新采样卷积核或投影其切线平面特征[12,45]。虽然允许共享卷积核,从而减小模型的大小,但这种方法会引入额外的计算成本。第三种方法是通过将球面图像投影到切线平面上,然后在切线平面上应用CNN[11,15]。虽然这种方法具有较低的计算成本,但它需要对球面图像进行预处理,同时也会引入一定的信息丢失。与这些方法不同,我们的KTN方法通过在球面上调整卷积核,以考虑360°图像中的畸变,从而在准确性和计算效率之间取得了平衡。CNNs with geometric transformationsFor perspectiveimages, too, there is interest in encoding geometric trans-formations in CNN architectures. Spatial transformer net-works [20] transform the feature map into a canonicalview to achieve transformation invariance. Active convo-lution [21] and deformable convolution [13] model geomet-94430这种方法会降低准确性,特别是对于更深的网络,这是由于隐含的插值假设所导致的,我们将在下面解释。第三种方法在频谱域中定义卷积[11,15],这会导致显著的内存开销,因此在实际数据中的适用性有限。以上所有方法都需要重新训练来处理新的识别任务。鉴于这些缺点,我们提出了核变换网络(KTN)。KTN将在透视图像上训练的源CNN适应到360°图像上。KTN不是为特定任务在360°图像上学习一个新的CNN,而是学习一个函数,该函数以源CNN中的卷积核作为输入,并将其转换为适用于360°等距投影图像的卷积核。该模型通过在任意360°图像上的每个切平面上复制源CNN在透视投影上的输出来训练,从而使KTN学会与源CNN类似的行为,同时避免了图像的重复投影。所提出的KTN的关键亮点是其可转移性和紧凑性,这都归功于我们基于函数的设计。一旦为基本架构训练了一个KTN,同样的KTN就可以将多个源CNN转移到360°图像上。例如,我们在ImageNet分类上训练了一个VGG[35]的KTN,我们可以将同样的KTN转移到360°全景图上运行基于VGG的Pascal目标检测器。这是可能的,因为KTN以源CNN作为输入,而不是将CNN卷积核嵌入到自己的参数中(与[11, 12, 15, 36,45]不同)。此外,由于KTN将源卷积核与变换分解开来,所以可以使用轻量级网络来实现(例如,仅将VGG网络的占用空间增加25%)。结果显示,与最准确的竞争对手SphConv[36]相比,KTN模型的大小要小几个数量级。与Spherical U-Net [45]和SphereNet[12]相比,KTN的数据效率要高得多,因为它不需要任何带标注的360°图像进行训练,并0图像在其等距投影中的畸变。见图1(C)。该函数考虑到360°图像中的畸变,根据极角θ和源卷积核的不同,返回不同的变换。该模型经过训练,可以在任意360°图像上的每个切平面上复制源CNN在透视投影上的输出。因此,KTN学会了与源CNN类似的行为,同时避免了图像的重复投影。所提出的KTN的关键亮点是其可转移性和紧凑性,这都归功于我们基于函数的设计。一旦为基本架构训练了一个KTN,同样的KTN就可以将多个源CNN转移到360°图像上。例如,我们在ImageNet分类上训练了一个VGG[35]的KTN,我们可以将同样的KTN转移到360°全景图上运行基于VGG的Pascal目标检测器。这是可能的,因为KTN以源CNN作为输入,而不是将CNN卷积核嵌入到自己的参数中(与[11, 12, 15, 36,45]不同)。此外,由于KTN将源卷积核与变换分解开来,所以可以使用轻量级网络来实现(例如,仅将VGG网络的占用空间增加25%)。结果显示,与最准确的竞争对手SphConv[36]相比,KTN模型的大小要小几个数量级。与SphericalU-Net [45]和SphereNet[12]相比,KTN的数据效率要高得多,因为它不需要任何带标注的360°图像进行训练,并且它更准确,因为它避免了它们的特征插值假设。02. 相关工作0360°视觉 目前正在研究新的投影模型,以优化图像显示[5,25, 43]或视频存储[1, 4, 27, 28,38]。我们采用最常见的等距投影,以便我们的算法可以直接应用于现有数据。其他工作探索如何通过视频稳定化[22,23, 26]、新的显示界面[31-33]和自动视图选择[7, 10, 19,29, 37, 39,42]来改善360°视频的显示。后者都依赖于将CNN应用于360°数据,并且可以从我们的方法中受益。0在球面数据上的CNNs如上所述,早期的方法要么采用昂贵但准确的重投影方法,要么采用廉价但不准确的直接等距投影方法。0方法是采用基于图形卷积的方法,并设计图形结构[24],使输出具有旋转不变性。另一种方法是将特征图和卷积核都转换到频谱域,并在那里应用卷积[11,15]。然而,在实际数据中,方向通常具有语义上的重要性(例如,汽车很少倒置),因此去除方向可能会不必要地限制区分能力。此外,这些方法需要缓存基函数和频域特征图,以实现高效计算。这导致了显著的内存开销,并限制了可行的输入分辨率。这两个约束条件限制了频谱方法在现实世界的360°图像上的准确性。最后,与之前的任何工作[3, 7,11, 12, 15, 36,45]不同,我们的KTN可以在不重新训练的情况下跨不同的具有相同架构的源CNN进行转移,以执行新的任务;而其他方法则需要为每个任务训练一个新模型。ric transformations using the receptive field of the kernel.While these methods account for geometric transformationsin the input data, they are not suitable for 360◦ images be-cause the transformation is location dependent rather thancontent dependent in 360◦ images. Furthermore, all of themmodel only geometric transformation and ignore the cor-relation between different channels in the feature map. Incontrast, our method captures the properties of 360◦ imagesand the cross channel correlation in the features.3. ApproachIn this section, we introduce the Kernel Transformer Net-work for transferring convolutions to 360◦ images. We firstintroduce the KTN module, which can replace the ordinaryconvolution operation in vanilla CNNs. We then describethe architecture and objective function of KTN. Finally, wediscuss the difference between KTN and existing methodsfor learning CNNs on 360◦ data.3.1. KTN for Spherical ConvolutionOur KTN can be considered as an generalization of or-dinary convolutions in CNNs. In the convolution layers ofvanilla CNNs, the same kernel is applied to the entire in-put feature map to generate the output feature map. Theassumption underlying the convolution operation is that thefeature patterns, i.e., the kernels, are translation invariantand should remain the same over the entire feature map.This assumption, however, does not hold in 360◦ images. A360◦ image is defined by the visual content projected on thesphere centered at the camera’s optical center. To representthe image in digital format, the sphere has to be unwrappedinto a 2D pixel array, e.g., with equirectangular projectionor cubemaps. Because all sphere-to-plane projections in-troduce distortion, the feature patterns are not translationinvariant in the pixel space, and ordinary CNNs trained forperspective images do not perform well on 360◦ images.To overcome this challenge, we propose the KernelTransformer Network, which can generate kernels that ac-count for the distortion.Assume an input feature mapI ∈ RH×W ×C and a source kernel K ∈ Rk×k×C definedin undistorted images (i.e., perspective projection). Insteadof applying the source kernel directlyF[x, y] = Σi,jK[i, j] ∗ I[x − i, y − j],(1)we learn the KTN (f) that generates different kernels fordifferent distortions:KΩ = f(K, Ω)(2)F[x, y] = Σi,jKΩ[i, j] ∗ I[x − i, y − j](3)where the distortion is parameterized by Ω. Because the dis-tortion in 360◦ images is location dependent, we can defineΩ as a function on the sphereΩ = g(θ, φ),(4)where θ and φ are the polar and azimuthal angle in spheri-cal coordinates, respectively. Given the KTNs and the newdefinition of convolution, our approach permits applying anordinary CNN to 360◦ images by replacing the convolutionoperation in Eq. 1 with Eq. 3.KTNs make it possible to take a CNN trained for sometarget task (recognition, detection, segmentation, etc.) onordinary perspective images and apply it directly to 360panoramas. Critically, KTNs do so without using any an-notated 360◦ images. Furthermore, as we will see below,once trained for a given architecture (e.g., VGG), the sameKTN is applicable for a new task using that architecturewithout retraining the KTN. For example, we could trainthe KTN according to a VGG network trained for ImageNetclassification, then apply the same KTN to transfer a VGGnetwork trained for Pascal object detection; with the sameKTN, both tasks can be translated to 360◦ images.944403.2. KTN架构0在这项工作中,我们考虑将360°图像使用等距投影展开为2D矩形图像。等距投影是360°图像最流行的格式,也是360°视频压缩标准的一部分[8]。等距投影对于KTN来说的主要好处是畸变仅取决于极角。因为极角在等距投影像素空间中与图像行(y =θH/π)具有一对一的对应关系,所以可以很容易地使用Ω= g(θ, φ) =y来参数化畸变。此外,我们可以生成一个卷积核并将其应用于整个行,而不是为每个位置生成一个卷积核,这导致计算更加高效。KTN实例基于给定的CNN架构。KTN模块有两个基本要求。首先,它在模型大小和计算成本方面必须轻量级。大型KTN模块会在内存和计算方面产生显著的开销,这会限制训练和测试时输入360°图像的分辨率。由于360°图像本质上需要更高分辨率的表示才能捕捉与普通图像相同级别的细节,如果被迫使用较低分辨率的输入,模型的准确性会显著降低。其次,KTN需要生成具有可变大小的输出卷积核,因为在单个360°图像中,适当的卷积核形状可能会有所不同。将2D平面上的卷积核推广到360°图像的常见方法是在球的切平面上定义卷积核。因此,360°图像上卷积核的感受野是切平面上感受野的反投影,在不同的极角上会有所变化[12, 36,45]。虽然可以通过始终以最大可能的大小生成卷积核来天真地解决这个问题,但这样做会在计算和内存方面产生显著的开销。We address the first requirement (size and cost) by em-ploying depthwise separable convolutions [9,18] within theKTN. Instead of learning 3D (i.e., height×width×channels)kernels, KTN alternates between pointwise convolution thatcaptures cross-channel correlation and depthwise convolu-tion that captures spatial correlation. Using the same 3x3depthwise convolutions as in MobileNet [18], the computa-tion cost is about 8 to 9 times less than standard convolution.Furthermore, the model size overhead for KTN is roughly1/k2 of the source kernels, where most of the parametersare in the 1x1 convolution. The size overhead turns out tobe necessary, because cross channel correlation is capturedonly by the 1x1 convolution in KTN, and removing it re-duces the final spherical convolution accuracy significantly.To address the second requirement (variable-sized ker-nels), we learn a row dependent depthwise projection to re-size the source kernel. The projection consists of h projec-tion matrices Pi, for i ∈ [1, h], where h is the number ofrows in the 360◦ image. Let ri = hi × wi be the targetkernel receptive field at row i. The projection matrix hasthe size Pi ∈ Rri×k2, which projects the source kernel intothe target size. Similar to the depthwise convolution, weperform channel-wise projection to reduce the model size.The complete architecture for KTN is in Fig. 2. We use aResidual Network [17]-like architecture. For both the resid-ual and shortcut branches, we first apply the row depen-dent projection to resize the kernel to the target size. Theresidual branch then applies depthwise separable convolu-tion twice. Our depthwise separable convolution block con-sists of ReLU-pointwise conv-ReLU-depthwise conv. ThisHaving introduced the KTN module and how to apply itfor CNNs on 360◦ images, we now describe the KTN ob-jective function and training process. The goal of the KTNis to adapt the source kernel to the 360◦ domain. Therefore,we train the model to reproduce the outputs of the sourcekernels. Let F l ∈ RH×W ×Cl and F l+1 ∈ RH×W ×Cl+194450360°图像0θ0等距投影0K0⊕0K θ θ0θ0通道相关的投影 深度卷积01x1卷积0图2:KTN由行相关的通道相关投影和深度可分离卷积块组成。它以源卷积核K和θ作为输入,并生成输出卷积核KΩ。然后,在其等距投影的360°图像中的行y =θH/π上应用KΩ。该变换考虑了等距投影中的畸变,同时保持了跨通道的相互作用。0设计去除了MobileNet中用于减小模型大小和内存消耗的批归一化。两个分支相加以生成输出内核,然后将其应用于360度特征图中,如等式3所示。请注意,虽然KTN可以应用于不同的内核,但KTN的结构取决于Pi,而Pi由源内核的感受野确定。因此,我们需要为源CNN的每一层都有一个KTN。03.3. KTN目标和训练过程0分别是源CNN的第l层和(l+1)层生成的特征图。我们的目标是最小化源内核Kl生成的特征图与KTN模块生成的特征图之间的差异:0L = ∥Fl+1−fl(Kl,Ω)�Fl∥2(5)0对于任何360度图像。请注意,在训练过程中,特征图Fl不是通过将源CNN直接应用于360度图像的等距圆柱投影来生成的。相反,对于360度图像中的每个点(x,y),我们将图像内容投影到球面上的切平面上0(θ,φ)=(π0H,2π0W)(6)0并在切平面上应用源CNN。这确保了目标训练值在无畸变图像内容上准确计算。Fl[x,y]定义为源CNN在切点处生成的第l层输出。我们的目标函数类似于Sph-Conv[36]的目标函数,但重要的是,我们在整个特征图上优化模型,而不是在单个极角上,以将内核本身从KTN权重中分解出来。目标函数仅依赖于源预训练CNN,不需要任何用于训练的注释数据。实际上,它不需要与目标任务相关的图像数据,因为损失在360度图像上定义。在实践中,我们随机采样任意360度图像进行训练,而不考虑源CNN。例如,在实验中,我们在YouTube视频帧上训练一个KTN,然后将其应用于Pascal对象检测任务。我们的目标是完全复制源内核的行为。因此,即使训练图像不包含与目标任务中看到的相同对象、场景等,KTN仍应最小化等式5中的损失。尽管KTN仅接受源内核和θ作为输入,但确切的变换f可能取决于所有特征图Fl,Fl−1,...,F1,以解决非线性引入的误差。我们的KTN从数据中学习这些变换的重要组成部分。w2σ(w1x1)w2σ(w1x2)c(x)w1w2whereas SphConv must fully retrain and store a new modelfor each source CNN. For example, if we want to applyfive different VGG-based CNNs to 360◦ images, SphConvwill take 29×5=145GB of space, while KTN takes only56×5+14=294MB (cf. Sec. 4.3). In addition, since Sph-Conv trains KΩ for a single source kernel K, the modeldoes not generalize to different source CNNs.SphereNet [12] formulates the transformation function fusing the sphere-to-tangent-plane image projection. Whilethe projection transformation leads to an analytical solutionfor f, it implicitly assumes that CNN feature maps can beinterpolated like pixels. This assumption is only true forthe first layer in a network because of non-linear activationfunctions used in modern CNNs between convolution lay-ers. Consider a two layer 1D convolution with a kernel ofsize 1, as sketched in Fig. 3. If we interpolate the pixel firstand apply the kernels, the output of at location x is94460表1:不同方法的比较。EQUIRECTANGULAR和CUBEMAP分别指将给定的CNN直接应用于等距圆柱和立方体投影。有监督训练意味着该方法需要带注释的360度图像。模型大小是单层的大小,其中c、k、H分别指通道数、卷积核大小和输入分辨率(带宽)。请注意,对于真实图像和源CNN,c�H�k,并且我们仅保留每种方法的主导项。翻译旋转训练大小跨模型的不变性不变性0EQUIRECTANGULAR否否否c 2 k 2否CUBEMAP否否否c 2 k 2否S2CNN [11]是是是c 2H否SPHERICAL CNN [15]是是是c 2 H否SPHERICAL U-NET [45]是否是c 2 k 2否SPHERE NET[12]是否是c 2 k 2否SPH CONV [36]是否否c 2 k 2 H否0KTN是的是否否c 2 k 2 + c 2 是0KTN对源内核的可转移性类似于视觉特征对自然图像的泛化能力。一般来说,无标签训练数据中的视觉多样性越大,我们可以期望KTN训练得越准确。虽然可以用KTN替换CNN中的所有卷积层,并使用带注释的360度数据对整个模型进行端到端训练,但我们认为等式5是一个更强的条件,同时也享受绕过任何带注释训练数据的优势。03.4. 讨论0与现有的360°卷积方法相比0对于360°图像,KTN的主要优点是其紧凑性和可转移性。解决目标任务所需的信息被编码在源核中,作为输入而不是模型的一部分提供给KTN。因此,相同的KTN可以应用于具有相同基础架构但针对不同目标任务进行训练的另一个CNN。换句话说,在没有额外训练的情况下,相同的KTN模型可以用于解决360°上的多个视觉任务。0通过替换源核来对360°图像进行卷积,前提是每个任务的源CNN具有相同的基础架构。与我们的工作最相关的是球面卷积方法(SphConv)[36]。SphConv学习适应等距投影失真的核。SphConv直接学习KΩ,因此必须为每个不同的等距投影图像行学习一个KΩ。虽然从理论上讲,SphConv应该比KTN更准确(即消除了内存、训练时间和数据方面的任何限制),但我们的实验结果表明,这两种方法在准确性方面表现相似。此外,SphConv的参数数量是KTN的数百倍,这使得SphConv更难以训练和部署。当需要评估多个模型时,模型大小的差异变得更加显著:相同的KTN可以应用于多个源CNN,因此只产生恒定的开销,而SphConv必须为每个源CNN重新训练和存储一个新模型。例如,如果我们想将五个不同的基于VGG的CNN应用于360°图像,SphConv将占用29×5=145GB的空间,而KTN只占用56×5+14=294MB(参见第4.3节)。此外,由于SphConv为单个源核K训练KΩ,该模型不能推广到不同的源CNN。SphereNet[12]使用球面到切线平面图像投影来构建变换函数f。虽然投影变换可以得到f的解析解,但它隐含地假设CNN特征图可以像像素一样进行插值。这个假设只对网络中的第一层是正确的,因为现代CNN中的卷积层之间使用了非线性激活函数。考虑一个具有大小为1的二层1D卷积,如图3所示。如果我们先插值像素然后应用卷积核,位置x处的输出为0x10x20a b0σ(x)0图3:在第一个CNN层之后,SphereNet[12]中的特征插值假设只能得到近似的结果。详见正文。0c(x) = w2 × σ(w1(ax1 + bx2)). (7)0然而,如果我们先应用卷积核然后插值特征,结果为0c(x) = aw2 × σ(w1x1) + bw2 × σ(w1x2). (8)0这两个值不相等,因为σ是非线性的,误差会随着网络的深度传播。插值特征最多只能近似精确特征。我们的实验结果表明,对于f的投影变换会导致次优的性能。94470最后,其他方法尝试通过将单个360°图像解包成多个图像来减少失真,使用局部透视投影[3,7],例如使用立方体贴图投影。在多个图像平面相交的位置定义卷积是非常困难的。之前的研究通过使用相邻图像平面的输出来“填充”特征图来解决这个问题[3,7],但实验结果表明,得到的特征不够准确并且会降低准确性。原因是同一个物体在不同的切线平面上可能具有不同的外观,特别是当视野很大并且引入了显著的透视失真时。或者,可以密集采样切线平面,并在每个切线平面上独立应用卷积,但这样做会产生不现实的计算开销[37]。表1总结了现有球面卷积模型之间的权衡。简而言之,KTN在无需任何标记数据的情况下能够转移到新任务中,这使其与其他模型有所不同。此外,KTN具有高度紧凑的模型和保留方向特定特征的能力(通常对于识别和其他高级任务很有用)。04. 实验0我们在多个数据集和多个源模型上评估KTN。目标是:1)验证KTN相对于其他学习360◦图像的方法的准确性;2)展示KTN对新源模型的泛化能力;3)比较KTN与现有技术在内存和计算开销方面的差异。0数据集我们的实验使用未标注的360◦视频和带有注释的360◦图像。SphericalMNIST是通过将数字投影到EQUIRECTANGULAR投影中得到的,分辨率为160×80。数字标签用于训练源CNN(识别模型),但不用于训练KTN。在360◦化的测试集上的分类准确率用作评估指标。Pano2Vid是一个真实的360◦视频数据集[39]。我们从非重叠的视频中采样帧进行训练和测试,并将帧的大小调整为640×320。模型被训练以重现源模型的卷积输出,因此训练不需要标签。最终卷积输出的均方根误差(RMSE)用作评估指标。Pascal VOC2007是一个带有物体注释的透视图像数据集。我们将物体边界框反投影到分辨率为640×320的EQUIRECTANGULAR投影中。按照[36]的方法,我们使用FasterR-CNN在验证集上的检测器网络的准确率作为评估指标。该数据集仅用于评估。0对于Pano2Vid和Pascal VOC,我们采用现成的FasterR-CNN[34]模型,使用VGG架构[35]作为源模型。如果没有特别说明,Faster R-CNN是在PascalVOC上训练的。源模型没有在任何形式的360◦数据上进行微调。0基准方法我们与以下现有方法进行比较:0•EQUIRECTANGULAR—将普通CNN应用于其EQUIRECTANGULAR投影中的360◦图像。•CUBEMAP—将普通CNN应用于其CUBEMAP投影中的360◦图像。• S2 CNN [11]—我们使用作者的实现来训练S2CNN。对于Pano2Vid和PascalVOC,由于内存限制(见Supp),我们将输入分辨率降低到64×64。我们在模型末尾添加了一个线性输出层来生成最终的特征图。• SPHERICAL CNN[15]—我们使用作者的实现来训练SPHERICALCNN。同样,由于内存限制,Pano2Vid和PascalVOC的输入分辨率缩小到80×80。• SPHERICAL U-NET[45]—我们使用SphericalU-Net中的球面卷积层替换普通CNN中的卷积层。由于内存限制,输入分辨率降低到160×80。• SPHERE NET[12]—我们使用行相关的通道映射实现SPHERENET。我们使用特征投影操作推导出投影矩阵的权重,并训练源卷积核。对于Pano2Vid数据集,由于内存限制,我们使用与KTN相同的目标独立地训练每一层。• SPH CONV[36]—我们使用作者的实现。• PROJECTED—与SPHERENET类似,但使用源卷积核而无需训练。0E QUIRECTANGULAR和CUBEMAP的网络架构与源模型相同。对于所有方法,层数和卷积核的数量与源模型相同。需要注意的是,即使使用最先进的GPU,为了在非MNIST数据集上运行这些基准模型,上述分辨率降低也是必要的。所有实验
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM Java项目:StudentInfo 数据管理与可视化分析
- pyedgar:Python库简化EDGAR数据交互与文档下载
- Node.js环境下wfdb文件解码与实时数据处理
- phpcms v2.2企业级网站管理系统发布
- 美团饿了么优惠券推广工具-uniapp源码
- 基于红外传感器的会议室实时占用率测量系统
- DenseNet-201预训练模型:图像分类的深度学习工具箱
- Java实现和弦移调工具:Transposer-java
- phpMyFAQ 2.5.1 Beta多国语言版:技术项目源码共享平台
- Python自动化源码实现便捷自动下单功能
- Android天气预报应用:查看多城市详细天气信息
- PHPTML类:简化HTML页面创建的PHP开源工具
- Biovec在蛋白质分析中的应用:预测、结构和可视化
- EfficientNet-b0深度学习工具箱模型在MATLAB中的应用
- 2024年河北省技能大赛数字化设计开发样题解析
- 笔记本USB加湿器:便携式设计解决方案
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功