计算机视觉：从历史到未来

需积分: 15 127 浏览量更新于2024-09-08 收藏 437KB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

"计算机视觉简介——探索视觉感知与人工智能的交叉领域" 计算机视觉是现代科技中的一个重要分支，它致力于模拟和实现人类视觉系统的能力，通过计算机处理图像或视频数据来理解和解释周围环境。这一领域的研究起源于20世纪60年代，至今已有40多年的历史，涵盖了马尔计算视觉理论、主动视觉、目的视觉、多视几何和摄像机自标定等多个关键阶段。马尔计算视觉理论是早期计算机视觉研究的基础，由心理学家和认知科学家大卫·马尔提出。他的工作重点在于理解视觉系统如何解析图像，并提出了线段检测理论，对图像的理解提供了数学框架。这一理论为后续的计算机视觉算法开发奠定了基础。主动视觉与目的视觉进一步扩展了计算机视觉的范畴，引入了目标导向和交互性。在这个领域，计算机不仅被动接收图像，还可以主动改变观察条件，以获取更有利于识别的信息。这在机器人视觉和自动驾驶等领域有着广泛应用。多视几何和摄像机自标定是计算机视觉中的核心技术，它们解决了如何从多个视角重建三维世界的问题，以及如何校准摄像机参数以准确地捕获图像信息。这些技术在3D重建、全景摄影和虚拟现实等领域扮演着重要角色。随着机器学习，特别是深度学习的发展，基于学习的视觉成为当前的主流。利用大规模标注数据训练深度神经网络，计算机可以自动学习图像特征，实现物体识别、语义分割、目标检测等功能。深度学习的进步极大地推动了计算机视觉的实用化进程，例如在人脸识别、图像搜索、医疗影像分析等方面取得了显著成果。计算机视觉与人工智能虽然紧密相连，但侧重点有所不同。人工智能更注重推理和决策，而计算机视觉则专注于图像信息的处理和物体识别。然而，随着技术的发展，这两者之间的界限正在逐渐模糊。例如，强化学习在AlphaGo和AlphaZero等项目中的应用，虽然不是传统意义上的计算机视觉，但它们利用了视觉信息作为输入，并通过学习和决策来玩游戏，展示了人工智能的广阔潜力。计算机视觉是一个综合了图像处理、机器学习、几何代数和认知科学等多个领域的交叉学科。它的目标是构建能够理解、解释和预测视觉世界的系统。尽管在事件解释和高级理解方面仍存在挑战，但随着技术的不断进步，计算机视觉将更深入地融入我们的日常生活，并在自动驾驶、智能制造、安全监控等领域发挥更大的作用。

资源详情

资源推荐

更多精彩内容，请关注

《机器学习算法与 Python 学习》

别，如目前兴起的神经形态计算（ Neuromorphological computing），但总体上

说，“数值计算”可以“模拟神经计算”。至少从现在看，“算法的不同实现途

径”，并不影响马尔计算视觉理论的本质属性。

1）计算理论(Computational Theory)

计算理论需要明确视觉目的，或视觉的主要功能是什么。上世纪 70 年代，

人们对大脑的认识还非常粗浅，目前普遍使用的非创伤型成像手段，如功能核磁

共振（FMRI）等，还没有普及。所以，人们主要靠病理学和心理学结果来推断

生理功能。即使目前，人们对“视觉的主要功能”到底是什么，也仍然没有定论。

如最近几年，MIT 的 DiCarlo 等人提出了所谓的“目标驱动的感知信息建模”方

法（Yamins &DiCarlo et al. 2016a）。他们猜测，猴子 IT 区（IT: interiortemporal

cortex, 物体识别区）的神经元对物体的响应（neuronal responses）“可以通过层

次化的卷积神经网络”（HCNN: Hierarchical Convolutional Neural Networks ）来

建模。他们认为，只要对 HCNN 在图像物体分类任务下进行训练，则训练好的

HCNN 可以很好定量预测 IT 区神经元的响应（Yamins et al. 2014, 2016b）。由

于仅仅“控制图像分类性能”对 IT 神经元响应（群体神经元对某一输入图像物

体的响应，就是神经元对该物体的表达或编码）进行定量预测，所以他们将这种

框架称之为“目标驱动的框架”。目标驱动的框架提供了一种新的比较通用的建

模群体神经元编码的途径，但也存在很大的不足。能否真正像作者所言的那样，

仅仅靠“训练图像分类的 HCNN”就可以定量预测神经元对图像物体的响应，仍

是一个有待进一步深入研究的课题。

马尔认为视觉不管有多少功能，主要功能在于“从视网膜成像的二维图像来

恢复空间物体的可见三维表面形状”，称之为“三维重建”（3D reconstruction）。

而且，马尔认为，这种重建过程不是天生就有的，而是可以通过计算完成的。J.J.

Gibson 等心理学家，包括格式塔心里学学派( Gestalt psychology)，认为视觉的

很多功能是天生就有的。可以想想，如果一种视觉功能与生具有，不可建模，就

谈不上计算，也许就不存在今天的“计算机视觉”这门学科了。

那么，马尔的计算理论是什么呢？这一方面，马尔在其书中似乎并不是介绍

得特别具体。他举了一个购买商品的例子，说明计算理论的重要性。如商店结账

要用加法而不是乘法。试想如果用乘法结账，每个商品 1 元钱，则不管你购买多

少件商品，你仅仅需要付一元钱。

马尔的计算理论认为，图像是物理空间在视网膜上的投影，所以图像信息蕴

含了物理空间的内在信息，因此，任何计算视觉计算理论和方法都应该从图像出

发，充分挖掘图像所蕴含的对应物理空间的内在属性。也就是说，马尔的视觉计

算理论就是要“挖掘关于成像物理场景的内在属性来完成相应的视觉问题计算”。

因为从数学的观点看，仅仅从图像出发，很多视觉问题具有“歧义性”，如典型

剩余13页未读，继续阅读

十八水

粉丝: 151
资源: 4

计算机视觉：从历史到未来

计算机视觉PPT计算机视觉PPT计算机视觉PPT

计算机视觉简介.docx

计算机视觉算法与应用.pdf

计算机视觉简介：探索机器的视觉能力

Matlab中的计算机视觉与模式识别简介

深度学习与计算机视觉的结合

AlexNet简介及其在计算机视觉中的应用

计算机视觉：图像分析与物体检测

计算机视觉初探：图像处理与目标检测技术

学习OpenCV的章节编排

计算机二级wps软件

计算机技术在人工智能领域的应用5000字

刘力的《三维人脸人脸识别研究进展》的相关资料

pix2pixhd简介

opencv所用函数

基于opencv的行人检测

用Python找出一幅图像中所有的消隐点

javacv中文文档

opencv使用教程

openmv一部分整体注释

最新资源