使用卷积神经网络预测对象级场景上下文

134 浏览量更新于2025-01-16 收藏 782KB PDF 举报

"本文主要探讨了对象级场景上下文预测，即如何从图像中的独立对象属性推断出完整的场景上下文。研究者提出了一种基于卷积神经网络（CNN）的方法，通过对象的类别、形状和位置等属性来预测场景布局，从而编码场景的语义和结构信息。此方法在定量实验和用户研究中表现出色，能够生成更合理的场景上下文，且适用于合成现实场景图像和场景识别。场景上下文在计算机视觉任务如对象检测、识别和分割中具有关键作用，而预测未知上下文是一个新的挑战。文章强调了人类视觉系统如何利用常识知识高效地推断场景，目标是使机器也能具备这种能力。" 在当前的研究中，作者们关注的是如何从图像中独立的对象中提取信息，以预测整个场景的上下文。以往的工作大多集中在利用上下文信息来改善对象检测和识别，而本研究则尝试解决逆问题，即从已知对象推断未知环境。为此，他们设计了一个卷积神经网络模型，该模型能处理不同物体间的复杂关系，并预测出场景中缺失的对象及其位置。卷积神经网络在图像理解和处理领域已经取得了显著成果，由于其对图像特征的有效提取能力，它在这里被用来预测对象级的场景布局。通过输入对象的属性（如类别、形状和空间位置），模型可以生成一个对场景上下文的语义和结构进行编码的布局。实验结果表明，这种方法相比基线模型能产生更合理的预测，并且可以用于创建部分场景布局的合成图像，同时在场景识别任务中也有应用潜力。场景上下文的预测对于计算机视觉系统来说是一项重要挑战，因为自然场景中的物体关系多样且复杂。论文通过图1展示了这个概念，即给定一个或几个对象，模型需要利用这些对象提供的信息来推测可能存在的其他对象及其位置。人类可以利用常识和经验做到这一点，但机器需要通过学习和理解来实现。这项研究为理解和模拟人类的场景推理能力迈出了重要的一步，也为计算机视觉系统增加了新的功能，使其能够预测并理解复杂的视觉环境。通过这种方式，未来的技术可能会在场景生成、虚拟现实、图像修复等领域有广泛应用。

2633

Tell Me Where I Am：对象级场景上下文预测

肖天乔全龙郑颖曹林森。香港城市大学

摘要

上下文信息已被证明是有效的，在帮助解决各种图

像理解任务。先前的工作集中于从图像中提取上下文

信息，并使用它来推断图像中某些对象的属性。在本

文中，我们考虑了一个逆问题，如何幻觉失踪的上下

文，

独立对象

推断场景上下文

从一些独立对象的属性中获取实际信息。我们称之为

场景上下文预测。这个问题是困难的，因为它需要对

自然场景中不同物体之间复杂多样的关系的广泛了

解。我们提出了一个卷积神经网络，它将属性（

即

，

类别、形状和位置）来预测对象级场景布局，该对象

级场景布局对给定对象所在的场景上下文的语义和结

构进行复合编码。我们的定量实验和用户研究表明，

我们的模型可以产生更合理的场景上下文比基线的方

法。我们证明，我们的模型允许合成的现实场景图

像，只是部分场景布局和内部学习有用的功能，场景

识别。

介绍

场景上下文是指感兴趣的对象如何与它们周围的环

境相关。背景信息在现代计算机视觉系统中起着重要

的作用。最近的工作利用场景上下文来改进对象检测

[15，24]、识别和分割[9，27，34，36]，并学习视觉

特征表示[28]。现有的工作试图利用图像中

存在

的上

下文信息然而，一个未探索的问题是预测图像中某些

对象的

未知

上下文（

即

，以预测丢失的对象是什么以

及在哪里）。给定几个前景物体，人类依靠我们视觉

世界的广泛常识知识，能够非常有效地推断出它们

未

知的

完整场景上下文例如，给定一个前景对象，

曹颖为通讯作者。这项工作由Rynson Lau领导

图

从独立对象推断场景上下文一个斯坦

Dalone对象提供用于预测其场景上下文的丰富信息（

即

，与

其共现的其他对象及其空间关系）。虽然图像中的人的姿势

和位置暗示该场景可能与体育活动有关，但是人的存在和位

置提供了关于其它对象可以出现在什么和哪里的提示（

例

如

，图像上部的天空和图像下部的人行道）。

在一个如图1所示的相框中，我们可以推断出它周围的

多个看似合理的环境。给定对象的属性提供了有关场

景环境以及其他对象可能出现在场景中的位置和内容

的强烈提示。

因此，我们感兴趣的一个基本问题，机器是否可以

复制这样的场景上下文推断能力。我们相信，机器预

测物体位置的能力可以使许多场景生成和识别任务受

益。然而，开发场景上下文的预测模型可能具有挑战

性，因为自然场景包含丰富多样的语义对象，它们之

间具有复杂的空间关系。物体可以在不同的位置，具

有不同的比例和形状。此外，这个问题本质上是模糊

的，因为相同的对象可以具有多个语义上合理的场景

上下文。

在本文中，第一次，我们解决的问题，场景上下文

预测从独立的对象。为此，我们提出了一种新的模

型，它作为输入的类别，形状和位置的一个或多个对

象，并预测场景上下文的给定对象。而不是直接幻觉

低级别像素，我们的模型预测的背景下，在一个对象

级的场景布局的形式虽然缺乏详细的外观，这样的表

示捕捉到了重要的语义，已被证明足以重建照片般逼

真的图像[16]

天

空

草

天

空

树

天

空

人

滑雪板

路面

积雪

人

？

下载后可阅读完整内容，剩余9页未读，立即下载

cpongm

粉丝: 6

使用卷积神经网络预测对象级场景上下文

基于卷积神经网络的数据分类预测

卷积神经网络预测实例

Python-使用卷积神经网络的单词预测

基于卷积神经网络的单目深度估计.pdf

基于改进空洞卷积神经网络的丘陵山区田间道路场景识别.pdf

RecurrentCNN_ObjRecognition:循环卷积神经网络检测图像模式

SegNet：全卷积神经网络架构推动场景分割新纪元

精准切割胰腺细胞：基于可变卷积的U-Net网络改进项目

学习上下文模型：定位图像中缺失的对象

CNN构建与应用精通：MATLAB中的卷积神经网络深度剖析

最新资源