更多精彩内容,请关注
《机器学习算法与 Python 学习》
别,如目前兴起的神经形态计算( Neuromorphological computing),但总体上
说,“数值计算”可以“模拟神经计算”。至少从现在看,“算法的不同实现途
径”,并不影响马尔计算视觉理论的本质属性。
1)计算理论(Computational Theory)
计算理论需要明确视觉目的, 或视觉的主要功能是什么。上世纪 70 年代,
人们对大脑的认识还非常粗浅,目前普遍使用的非创伤型成像手段,如功能核磁
共振(FMRI)等,还没有普及。所以,人们主要靠病理学和心理学结果来推断
生理功能。即使目前,人们对“视觉的主要功能”到底是什么,也仍然没有定论。
如最近几年,MIT 的 DiCarlo 等人提出了所谓的“目标驱动的感知信息建模”方
法(Yamins &DiCarlo et al. 2016a)。他们猜测,猴子 IT 区(IT: interiortemporal
cortex, 物体识别区)的神经元对物体的响应(neuronal responses)“可以通过层
次化的卷积神经网络”(HCNN: Hierarchical Convolutional Neural Networks )来
建模。他们认为,只要对 HCNN 在图像物体分类任务下进行训练,则训练好的
HCNN 可以很好定量预测 IT 区神经元的响应(Yamins et al. 2014, 2016b)。由
于仅仅“控制图像分类性能”对 IT 神经元响应(群体神经元对某一输入图像物
体的响应,就是神经元对该物体的表达或编码)进行定量预测,所以他们将这种
框架称之为“目标驱动的框架”。目标驱动的框架提供了一种新的比较通用的建
模群体神经元编码的途径,但也存在很大的不足。能否真正像作者所言的那样,
仅仅靠“训练图像分类的 HCNN”就可以定量预测神经元对图像物体的响应,仍
是一个有待进一步深入研究的课题。
马尔认为视觉不管有多少功能,主要功能在于“从视网膜成像的二维图像来
恢复空间物体的可见三维表面形状”,称之为“三维重建”(3D reconstruction)。
而且,马尔认为,这种重建过程不是天生就有的,而是可以通过计算完成的。J.J.
Gibson 等心理学家,包括格式塔心里学学派( Gestalt psychology),认为视觉的
很多功能是天生就有的。可以想想,如果一种视觉功能与生具有,不可建模,就
谈不上计算,也许就不存在今天的“计算机视觉”这门学科了。
那么,马尔的计算理论是什么呢?这一方面,马尔在其书中似乎并不是介绍
得特别具体。他举了一个购买商品的例子,说明计算理论的重要性。如商店结账
要用加法而不是乘法。试想如果用乘法结账,每个商品 1 元钱,则不管你购买多
少件商品,你仅仅需要付一元钱。
马尔的计算理论认为,图像是物理空间在视网膜上的投影,所以图像信息蕴
含了物理空间的内在信息,因此,任何计算视觉计算理论和方法都应该从图像出
发,充分挖掘图像所蕴含的对应物理空间的内在属性。也就是说,马尔的视觉计
算理论就是要“挖掘关于成像物理场景的内在属性来完成相应的视觉问题计算”。
因为从数学的观点看,仅仅从图像出发,很多视觉问题具有“歧义性”,如典型