D.Marr系英国人,曾在美国麻省理工学院人工智慧实验室工作,兼任该校心理系教授。他是视觉计算理论的创始人。
Marr其人
Marr生于1945年1月19日,早年就读于剑桥大学,获得数学硕士、神经生理学博士学位,还受过神经解剖学、心理学、生物化学等方面的严格训练。他在英国曾从事新皮层、海马,特别是小脑方面的理论研究。1974年访问美国,并应M.Minsky教授之请,留在麻省理工学院开展知觉和记忆方面的研究工作。他从计算机科学的观点出发,熔数学、心理物理学、神经生理学于一炉,首创人的视觉计算理论,从而使视觉研究的面貌为之一新。Marr于1980年11月17日在波士顿病死,享年35岁。他的理论由他创建的一个以博士研究生为主体的研究小组继承、丰富和发展,并由其学生归纳为一本计算机视觉领域着作Vision: A computational investigation into the human representation and processing of visual information (ISBN 0-7167-1567-8),于他后发表。从人工智慧杂誌1981年第17卷“计算机视觉”专辑中,我们可以清楚地看到这一理论已产生巨大的影响。
他的主要着作包括
(1969) "A theory of cerebellar cortex." J. Physiol., 202:437-470.
(1970) "A theory for cerebral neocortex." Proceedings of the Royal Society of London B, 176:161-234.
(1971) "Simple memory: a theory for archicortex." Phil. Trans. Royal Soc. London, 262:23-81.
(1974) "The computation of lightness by the primate retina." Vision Research, 14:1377-1388.
(1975) "Approaches to biological information processing." Science, 190:875-876.
(1976) "Early processing of visual information." Phil. Trans. R. Soc. Lond. B, 275:483-524.
(1976) "Cooperative computation of stereo disparity." Science, 194:283-287. (with Tomaso Poggio)
(1976, March) "Artificial intelligence: A personal view." Technical Report AIM 355, MIT AI Laboratory, Cambridge, MA.
(1977) "Artificial intelligence: A personal view." Artificial Intelligence 9(1), 37–48.
(1977) "From understanding computation to understanding neural circuitry." Neurosciences Res. Prog. Bull., 15:470-488. (with Tomaso Poggio)
(1978) "Representation and recognition of the spatial organization of three dimensional tructure." Proceedings of the Royal Society of London B, 200:269-294. (with H. K. Nishihara)
(1979) "A computational theory of human stereo vision." Proceedings of the Royal Society of London B, 204:301-328. (with Tomaso Poggio)
(1980) "Theory of edge detection." Proc. R. Soc. Lond. B, 207:187-217. (with E. Hildreth)
(1981) "Artificial intelligence: a personal view." In Haugeland, J., ed., Mind Design, chapter 4, pages 129-142. MIT Press, Cambridge, MA.
(1982) "Representation and recognition of the movements of shapes." Proceedings of the Royal Society of London B, 214:501-524. (with L. M. Vaina)
(1982). Vision: A Computational Investigation into the HumanRepresentation and Processing of Visual Information. New York: Freeman.
Marr的视觉理论
视觉信息处理
视觉研究的最终目标是要阐明视觉系统究竟是怎样完成视觉任务的。Marr认为:神经系统所作的信息处理与机器相似。视觉是一种複杂的信息处理任务,目的是要把握对我们有用的外部世界的各种情况,并把它们表达出来。这种任务必须在三个不同的水平上来理解,这就是:a.计算理论 b.算法 c.机制(见表1)。这一划分并不是很严格的,但如果不符合上述分类,则没有一个或一组描述将是完善的。在视知觉中,上述三个水平各有其特定的位置,它们基本上是互相独立的。,在探讨理论问题时必须把它与法、机制严格地区别开来,并採用新的研究方法。
计算理论 | 算法 | 机制 |
信息处理问题的定义,它的解就是计 算的目标。这种计算的抽象性质的特 征。在可见世界内找出这些性质,构 成这个问题的约束条件 | 为完成期望进行的 计算所採用的算法 的研究。 | 完成算法的物理实 体,它由给定的硬 件系统构成.机器 硬体的构架。 |
表【1】
从计算理论这一级水平来看,所谓信息处理(process),其实就是把一些符号表象变成另一些符号表象。这一处理过程从外部世界投射到视网膜上的图象开始,一直到形成某种知觉为止。表象是计算理论中最重要的概念。所谓表象(representation),简单地说,就是与所述问题有关的某种特殊的信息表达方式,其主要特点是使一些对后级处理有用的重要信息变明确。表象作为信息的一种表达方式其实是被普遍採用的。例如,物理系统中的能量是表象;数学中的数字、直角坐标系中的点是表象;表象在人脑中的“痕迹”在一定的刺激条件下会再现出来,这种痕迹也是一种表象。用表象来描绘某一整体现象即套用表象的具体实例则称为该表象中的一个描述(desc1’i-Ption)。例如12就是阿拉伯数字表象中的一个描述。同样一个问题可以用许多不同类型的表象来表示,其中有些计算简单而有效,有些则不是那样,必须正确地选择表象。表象的具体结构是与现实场景相联繫的。但长期以来,人们并没有正视这一点;甚至在70年代早期,计算机科学和人工智慧专家也仍未认识视觉信息处理的困难所在。其原因是我们的视觉系统工作得极好,而有些东西又难以填密地内省出来。正因为如此,神经科学的传统方法和技术一概都失败了。Marr认为问题的关键在于:视觉信息处理必须分析给定的任务,而分析的基础则是客观的物质世界。用公式来表示计算理论的一个决定性的步骤,就是要找出视觉世界的特性,给计算问题加上约束条件,使它含义明确,能够获解。有许多具体实例表明,如果不把视觉世界的一般性质变成计算问题的特殊假设,问题就确定不下来。高级水平的特殊的先验性的知识是不需要的,有用的仅仅是物理世界的一般性质。视觉问题的一个约束条件就是最终得出的描述一律由图像导出。在一般情况下,视觉早期处理的表象结构主要决定于我们能从图像中计算出什幺东西来,而后期处理的表象结构则还受视觉任务的影响。
Marr提出的上述方法是强有力的,它使视觉信息科学得以迅速发展壮大,其结果就像物理学那样具有永久的性质。因为它们是在现实世界的物理学和图像的公式化的基本定律这样牢固的基础上建立起来的。所以视觉计算理论这一水平在其发展过程中可能成为一门真正的科学。Marr的工作—从计算方法的宏旨到分析具体问题的细节方法论基础。
表象结构和功能块分析
从信息处理的观点出发,Marr已能用公式把视觉处理的整个理论框架表达出来。除上述处理问题的方式方法外,这是Marr作出的十分重要的贡献,因为它向我们提供了一个向视觉问题发起新进击的适当的策略。这个理论框架主要由视觉所建立、保持、并予以解释的三级表象结构组成,这就是:
a.基元图(the primal sketch)—由于图像的密度变化可能与物体边界这类具体的物理性质相对应,它主要描述图像的密度变化及其局部几何关係。
b. 2.5维图(2.5 Dimensional sketch)—以观察者为中心,描述可见表面的方位、轮廓、深度及其他性质。
c. 3维模型(3D Model)—以物体为中心,是用来处理和识别物体的三维形状表象。
根据Marr的观点,各种不同的视觉处理凑在一起产生各级表象,在表象中它们有机地结合起来。其中一些处理见表2。把视觉处理看成是一组相对独立的功能块,这一思想特别重要,特别有用。它不但有计算的、进化论的、方法论的论据支持,而且更重要的是某些视觉功能块已经用实验方法分离出来。双眼立体视觉就是一个适例。只要有双眼视差,随机点立体图对也能引起体视现象。如果人的视觉系统确实是功能块型的,那幺在图像中被编码的各种不同类型的信息(例如亮度、被观察物体的表面反射性质、物体的表面形状,观察者与物体的距离或方位等)就能用一些独立的处理(如体视、运动等)来解码,其精密度至少可达一级近似。显然,所有这些处理必须全部鉴别出来,相应的计算理论才能得到发展。这方面的研究已经取得了很有希望的结果。
图像密度检洲及其生理学和心理学依据
Marr的理论同神经生理学和心理学关係十分密切。下面我们仅对视觉信息处理第一阶段的一部分内容即抽提轮廓作一简要论述,以便从另一个侧面来了解Marr工作的特点。视觉处理第一阶段的目的是检测图像的局部性质。图像中密度剧烈变化的部分正是物体表面的物理变化的最好标记。Marr认为:对于一定的空间解析度,用中心—周边型感受野即运算元V“G(其中v“是拉普拉斯运算元,G是二维高斯函式)对图像滤波,然后再找出经滤波处理的图像的零交叉点(即二阶导数的零值位置),即可求出图像密度变化的情况。在自然图像中,密度变化的「空间尺度是很宽的。要把所有空间尺度上的密度变化都检测出来,就必须採用几个大小不同的滤波器。大的检测模糊边,小的检测图像细节。然把各通道的零交叉合併成一组对后级处理有用的离散基元“边”。基元边和其他一些基元符号构成Marr称之为原始基元图的图像密度表象。
由若干中心—周边型感受野得出的零交叉乃是从原始的连续密度值获得图像的离散符号表象的一种自然形式。因为在某些条件下,一个频宽小于l倍频程时一维带通信号能由其零交叉完全复原。从视觉信息处理的观点看,重建原始信号显然是不可能的,但由零交叉得出的离散符号必定含有原始图像的极为丰富的信息。从经验性的研究中得出结论:用运算元V“G作滤波处理的图像是可以用其零交叉和斜率充分近似地恢复的。
上述结果的生理学和心理学含义是明显的。看来它们阐明了视觉通道第一级的一些基本性质,并使视觉心理物理学和神经生物学中关于空间频率通道和边检测器之间的争论得以解决。事实上,视觉的第一阶段在很大程度上是由“边”检测器(其实是零交叉检测器)而不是由付里叶分析完成的;但零交叉检测器要抽提有意义的信息,就必须对若干独立通道的输出进行运算。可以有把握地说:二阶导数滤波运算是由视网膜神经节细胞和外侧膝状体核完成的,而有向的零交叉线段(即“边”)则是由视皮层中的x细胞检测的。
由上可见,Marr早先提出的一些基本概念在计算理论这一级水平上已经成为一种几乎是尽善尽美的理论。这一理论的特徵就是它力图使人的视觉信息处理研究变得越来越严密,从而使它成为一门真正的科学。
参考文献姚国正,汪云九;D.Marr及其视觉计算理论[J];机器人;1984年06期.
随着科学进步,大量试验事实表明,人类的视觉是不需要重建的。由于过大的计算量,导致了计算机视觉界,在20世纪90年代对Marr的三维重建理论进行了反思,由美国着名杂誌CVGIP:Image Understanding 组织了两次大的讨论,第二次就是关于三维重建的,论战结果是接受了主动视觉和目的视觉。