无监督单图像本征分解：模仿人类视觉的理解能力

161 浏览量更新于2024-06-20 收藏 1.6MB PDF 举报

无单个本征图像的单图像本征分解是一个前沿的计算机视觉技术，旨在模仿人类视觉系统处理自然图像的能力，将其分解为一系列反映物理原因的不同特征图像。传统的方法往往依赖于完全监督或多个相同场景的图像，但这些方法在实际应用中的局限性显而易见，因为获取真实的内在图像（如砖块在不同光照下的颜色变化）非常困难，且多图像输入限制了应用场景。作者提出了一种创新的双流卷积神经网络（CNN）框架，该框架实现了无监督学习和自监督学习的结合，能够在无需实际内在图像的情况下进行学习。这突破了以往方法对大量标注数据的依赖，使得模型能够在更广泛的场景中应用，即使在半监督条件下也能展现出优秀的表现。在实验中，他们的模型在单图像和多图像分解任务中超越了先前的最佳单图像方法，同时只需要使用较少的地面实况监督，效率和效果均得到了显著提升。关键概念包括： 1. 内在分解：这是一种图像分析技术，试图揭示图像中的隐藏因素，如材质、光照变化等，类似于人类视觉系统如何理解复杂的视觉场景。 2. 无监督学习：指的是在没有明确标记的数据集上训练模型，模型通过模式识别和自我调整来学习，无需人为提供每个样本的正确答案。 3. 自监督学习：与无监督学习相似，但通过设计巧妙的监督信号，如图像的自相似性，来引导模型学习，减少了对大量标签数据的依赖。 4. 双流卷积神经网络：一种特殊的深度学习架构，包含两个相互关联的流，可以并行处理不同的信息，有助于提取图像的不同特征。 5. 半监督学习：介于完全监督和无监督学习之间，利用少量标记数据和大量未标记数据来训练模型，提高学习效率。通过这种方法，研究者希望能够让计算机视觉系统具备理解世界物理交互的能力，从而在解释和理解复杂视觉场景方面取得更大的进步。这一研究对于推动计算机视觉领域的发展具有重要意义。

W.C. Ma，H.楚湾，澳-地周河，巴西-地Urtasun和

A.Torralba

工作，[55，29]利用从固定视点拍摄的图像序列，其中唯一的变化是照明，以

学习分解。关键的区别在于，这些框架需要多个图像进行训练和测试，而我们

的方法只在训练期间依赖于多个图像在测试时，我们的网络可以对任意单个图

像执行固有分解。

利用视频或图像序列以及物理约束来训练神经网络最近已经成为一个新兴的研

究课题[15，32，44，51，52，56Zhou

等人。

[60]提出了一种自监督的方法来从

图像序列中学习单目深度估计。Vijayanarasimhan

等人

[53]扩展了这一想法，并

从运动框架中引入了一个更灵活的结构，可以纳入监督。我们的工作在概念上

类似于[60，53]，但专注于完全不同的任务。最近，Janner

等人。

[21]引入了一

个用于传输intrinsic的自监督框架。他们首先用地面实况训练他们的网络，然后

用重建损失进行微调。在这项工作中，我们更进一步，试图以完全无监督的方

式学习内在分解。同时和独立地，Li和Snavely [33]还开发了一种在没有任何监

督的情况下学习内在分解的方法。更一般地说，我们的工作在精神上类似于视

觉表征学习，其目标是通过解决某些借口任务来学习通用特征[54，22，43]。

背景和问题表述

在这一节中，我们首先简要回顾了当前单图像和多图像内在分解的工作。然

后，我们展示了这两个任务之间的联系，并证明它们可以用一个单一的，统一

的模型在一定的参数下解决

3.1

单图像本征分解

单个图像固有分解问题通常被公式化为：

，

（

;

）

，

（

）

其中目标是学习函数

，该函数将自然图像I作为输入

，

并输出

反照率图像

和阴

影图像

。帽子

符号

表示它是

函数的

输出

，而不是基础真值。理想地，输出图像

的Hadamard乘积

应与输入图像

相同。

⊙

参数

和

函数

可以采取不同的

形式。例如，在传统的Retinex算法中

[31]

，

简单地是用于对原始图像

的梯度

进行

分类的阈值，并且是泊松方程的

求解器在最近的基于深度学习的方法

[39

，

]

中，

fsng

是指神经网络，

表

示权重。由于这些模型只

需要单个图像作为输入，因此它们可能适用于各

种场景，并具有许多用例

[13]

。然而，这个问题本质上是模棱两可的

剩余16页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

无监督单图像本征分解：模仿人类视觉的理解能力

本征图像分解代码

着装分割-基于NCNN+YOLOv8-Seg实现行人着装分割算法-附项目源码+流程教程-优质项目实战.zip

自动打标-基于SAM+SAM2实现的交互式半自动图像标注工具-附项目源码-优质项目实战.zip

Delphi 12 控件之Delphi 12 版本 俄罗斯方块.rar

yonghu.sql11111

设计模式-C#1111

基于Blinker的蓝牙控制，使用esp32，8管，自动休眠、氛围灯、休眠和唤醒渐变、音乐闹钟

Matlab-使用Matlab实现的免疫优化算法在物流配送中心选址中的应用-优质项目实战.zip

unit2_eg.sql

【电力负荷预测】基于matlab灰狼算法优化长短时记忆网络GWO-LSTM电力负荷预测【含Matlab源码 1518期】.zip

最新资源

Delphi 12 控件之Delphi 12 版本俄罗斯方块.rar