计算机视觉的历史

计算机视觉的最终⽬标是让计算机能像⼈类那样利⽤视觉观察和理解世界，具有⾃主适应变化环境的能⼒。下⾯简短介绍计算机视觉的发展历史：

第⼀阶段：20世纪50年代，计算机视觉还属于模式识别领域，当时的主要⼯作是⼆维图像的分析和识别。尽管属于模式识别领域，但当时的模式识别还不是⼀个独⽴的学科，直到60年代，模式识别才成为⼀门独⽴的学科。

第⼆阶段：20世界60年代中期，Robert的研究⼯作开创了以理解三维场景为⽬标的三维计算机视觉研究。Robert的系统能从⼆维数字图像中抽取多⾯体的线画，利⽤已知多⾯体的模型分析分析线画中对应的物体在三维空间中真实的位置。由于Robert的研究给⼈们极⼤的启发，使计算机视觉进⼊蓬勃发展时期。

第三阶段：20世纪70年代，David Marr在计算机视觉历史上画上了浓墨重彩的⼀笔，他提出了第⼀个较为完善的视觉系统框架——视觉计算理论框架。他认为视觉是⼀个复杂的信息处理过程，并有不同的信息表达⽅式和不同层次的处理过程，⽽最终的⽬的是实现计算机对外部世界的描述。由此他提出三个层次的研究⽅法，计算理论层、表征与算法层、实现层。并提出了⾃上⽽下，没有反馈的视觉处理框架，他认为视觉主要是获得物体的三维形状，并把获得过程分为三个阶段：

1. 原始基元图（primal sketch）。基元图由⼆维图像中的边缘点，直线，曲线、顶点等基本⼏何元素构成。

2. 2.5维图（2.5dimensional sketch）。以观测者为中⼼的坐标系中，由输⼊图像和基元图恢复场景可见部分的深度、法线⽅向、轮廓

防爆软启动柜

等，这些信息的包含了深度信息，但不是真正的物体三维表⽰，因此称为⼆维半图（另⼀部分是物体背⾯或是被遮挡的部分）。

3. 3维模型（3dimensional model）。在以物体为中⼼的坐标系中，由输⼊图像、基元图、⼆维半图来恢复、表⽰和识别三维物体。Marr的理论给了我们研究计算机视觉许多珍贵的哲学思想和研究⽅法，同时也给计算机视觉研究领域创造了许多研究起点。到了⼆⼗世纪80年代，计算机视觉领域进⼊前所未有的繁荣阶段。

现阶段：由于Marr派（3D重建）没有解决计算机视觉问题，且在⼀线⼯程中像识别、导航中存在⼀系列问题⽆法解决，出现了主动视觉、定性视觉、⽬的视觉等学派，结束了重建理论⼀同天下的局⾯（⽂章结尾详细介绍Marr视觉计算理论的形成以及计算机视觉理论之争）。

现在计算机视觉现在的两⼤任务分别是：重建、识别。

三维重建的步骤：

1. 图像获取

电麻机2. 相机标定

3. 特征提取

4. ⽴体匹配

5. 三维重建

识别：

1. 识别重建后的三维物体（过程如下图）

2. 识别⼆维图像中的物体

Marr视觉计算理论的形成

Bela Julesz是Bell 实验室的匈⽛利籍的计算机⼯程师，在处理航测数据时，他知道利⽤⽴体图对可以从伪装中很容易的发现⽬标。例如对英国40 年代⽤飞机和氢⽓球从两个邻近点拍摄的德国科隆莱茵河浮冰⽴体图中，可以看到在浮冰中挟带着有趣的深度表⾯，尤其是在桥的防波柱附近。但是当他读了⼀些⼼理学有关⽴体视觉的⽂献时，⼤吃⼀惊的发现，当时⼼理学界流⾏的观点是⽴体视觉需要先单眼识别。50年代末，刚好Bell 实验室有了⼤型的计算机，为了证明⾃⼰的观察（⼯程界的常识），他⽤计算机设计了有视差的随机点⽴体图对（RDS-random-dot stereogram），这些单眼看起来完全⽆序的图像到了⽴体镜下，就出现了设计要求的各式各样的深度图案。证实⽴体视觉前于识别，甚⾄能够改变原来的单眼图形。

Julesz的⼯作震惊了学术界，但是⽂章的发表很不顺利，他投到美国光学学会会刊的⽂章被当时光学界的权威K Ogel 否决了。幸运的是他得到了Bell 实验室领导的⽀持，发在实验室的杂志上。这样⼀个⾥程碑似的计算机设计改变了⽴体视觉理论研究。为视觉研究打开了⼀扇新的门。

晚年Julesz在谈到⾃⼰的⼯作时，说他之所以能设计RDS，是因为他是⼀个计算机⼯程师。他认为RDS的出现是两种⽂化的冲突，两种语⾔的交汇（⼯程和⼼理学），他不埋怨K Ogel。他说对于⼀个年轻的科学⼯作者来说被⼀个有名的学者作为学术上的对⼿，⽐有⼀个有⼒的⽀持者更有益。

RDS很快被⽣物物理所的郑竺英介绍到到中国来，她与海军总院的的眼科医⽣彦少明合作，⼀起把RDS⽤到⽴体视觉的检查

上，在1985年出版了国内第⼀本“⽴体视觉检查图”，成了中国特有的颜⽒标准。

RDS的出现引起了⽴体视觉理论的⾰命，RDS使⼈们认识到⽴体视觉产⽣在识别之前，只要有视差，不需要单眼形式知觉，就能产⽣⽴体感。这⼀重⼤发现使得⿇省理⼯⼤学（MIT）⼈⼯智能（AI）实验室的Marr 想到，可以利⽤摄像机获得的两个有视差的图像，测量对应点之间的视差，就可以恢复物体和景物的深度，从⽽重建并识别图像中的物体，完成视觉的任务。他提出了模型，对视觉问题进⾏了理论分析，但他得了⽩⾎病，在1980年35岁的英年早逝。他的同事和朋友将他的遗作整理出版，书名为“Vision：A Computational Investigation into the Human Representation and Processing of Visual Information” 翻译成中⽂名为”视觉计算理论“（1988，译者：姚国正，刘磊，汪云九。）

Marr1945年出⽣在英国，毕业于剑桥三⼀学院，本科，硕⼠主修数学，博⼠⽅向是理论神经科学，毕业论⽂（1969-1971）关于哺乳类的脑功能。他关于⼩脑，海马的论述，直到30年后依然能为解剖，⽣理数据检验。1973年他来到MIT 的AI研究所作为访问学者，77年得到⼼理系的教职，80年成为终⽣教授。

他的学术背景，使他能⽤数学⽅法去研究脑的功能。考虑到视觉研究⼀直被认为是了解脑功能的突破

⼝，所以从七⼗年代他开始了对于视觉模型的理论研究。

洗瓶

在视觉计算理论⼀书中，Marr回顾了从Lattvin的青蛙⼩⾍侦察器，Gross 的⼿检测器，Barlow的神经元教义，祖母细胞等五⼗，六⼗年代⽣理学的研究，指出七⼗年代后有关研究报告中断，说明祖母细胞的不⾜凭信。对图像处理专家A Rosenfeld的经验法也表⽰了批评。提出要在更⾼层次，⼀般的考虑问题。他从信息理论的⾓度，确定视觉是⼀种信息处理过程。他认为要对这种过程分析，⾸先是要了解外部的景物和物体在脑内部是如何被表象（表征，representation）的。（译⽂在有关表象内容的翻译有些含糊，因此中⽂的“视觉计算理论”给理⼯科出⾝的⼯程计算⽅⾯的研究者带来很多困惑。按照⼼理学百科全书的解释，表象（征）可以理解为信息在长时记忆中的存贮⽅式，这样问题就⽐较清楚了。）

他指出任⼀个信息处理机需要三个层次的⼯作：1，计算理论；2，表象和算法；3，硬件实现。他指出了即然视觉是⼀个信息处理问提，就可以被看作⼀个信息的表象问题，也是⼀个如何推导出这种表象的计算问题，和如何执⾏上述两种任务的计算机体系结构的问题。经过分析他认为视觉的任务就是从图像中得到⼀个完全确定的形状描述。需要三个表象阶段：（1），⼆维图形性质的表象，例如光强度的变化。（2）以观察者中⼼的坐标系中的可见表⾯性质的表象，其中包括表⾯朝向，离观察者的距离，以及朝向和距离的不连续性；表⾯的反射情况，以及对主要照明情况的某种粗略的描述。（3）被观察形状三维结构和组织的以物体为中⼼的表象，以及在这种坐标系下对物体表⾯性质的⼀

些描述。

全书的重点在表⾯性质的表象，被称为2.5维表象。计算的依据是Julesz的RDS 实验结果：只要视差不需要单眼形状识别，就能从随机点⽴体图对中得到物体的⽴体视，换⾔之得到物体各点上的深度。⽅法就是依据位置略有差别的两幅景物⽴体图⽚，出其中对应物体特征点的视差，⽤简单⼏何的计算恢复深度。困难就在于寻⽴体图中的对应点，被称为对应性问题。Marr 为此作了⼀些假设。唯⼀性，连续性，内极线等并把遮挡存在时双眼不对称区作为噪声抛弃。

这本书站在哲学，⼼理学⼀般理论的⾼度，通过对⽴体视觉，神经⽣理学，病理学的实验结果分析⼊⼿，拿出具体的计算理论和⽅法，这对于多年在⼀线⼯作，⽽不到⼀个⼀般理论指导，仅靠经验和试错法计算机视觉界来说，于同⽢露，⼀时⼈⼼拯奋，以为不出⼗年通⽤的计算机视觉系统就会出现。据上海交通⼤学图像所的李介⾕教授1992年回忆（PR AI 266-271），1984年他在加拿⼤蒙特⾥尔召开的国际模式识别会议上，不⽌⼀次地听到国外有关⼈⼠以兴奋的⼝⽓说起：“⽤不了五年，⼈们⼀定可以创造出类⽐于⼈类视觉的计算机视觉系统。”

计算机视觉理论之争

但是后来不论是在理论还是在实践⽅⾯，3D重建理论所碰到的⿇烦是当时完全没有想到的。

1988年，IEEE会刊组织了第⼀个有关计算机视觉的专题。其中马⾥南⼤学⾃控所的Rosenfeld在介绍计算机视觉的3D 模式时，就专门介绍了Marr的理论，结构框图中专门介绍2.5维表⾯朝向，不过他将Marr的重建归结于“形状从X”⽅法类。⽽ Rosenfeld 的同事Aloimonos就在他的视形状计算⼀⽂⾥，指出Marr的⼀般理论在实际⼯程中是⽆能的，因⽽在开发实际系统时⽤形状从X（阴影，纹理，轮廓，运动，⽴体视）⽐较现实，提出了主动视觉。但是，Aloimonos的⽂中还是强调要按照Marr的精神做，可见过了6年，⼯程学术界已经发现Marr的理论的⼀些问题，尤其是⼀线的做识别，导航，避障系统的研究⼈员，但此时，谁也还没有公开指责这种⼀般⾼⼤全的理论。

在这个专题中，宾州⼤学计算机系系主任Ruzena Bajcsy系统介绍了主动视觉，将其作为知觉的控制策略和模型。密西根⼤学电机及计算机系的Q Stout 为了解视觉问题，提出匹配视觉算法到并⾏结构。另外，图像的并⾏算法也在此专题的多篇⽂章⾥被提出。⽽Marr 的同事和合作者T Poggio 则解释早期视觉是个病态提出的问题，都是不适定的，需要专门的算法和并⾏的硬件，他通过研究，引⼊⼀种特殊的正则化⽅法来解这个问题。

1991年⼀⽉，吃够了3D重建苦头的计算机视觉界的怨⽓，在国际知名的杂志“CVGIP：IMAGE UNDERSTANDING”组织的第⼀次有关计算机视觉理论和实践的讨论中⼤爆发。实际⼯作者对当时的理论误导实际研究⼯作反映强烈。密西根⼤学电机及计算机系的Ramesh Jain 及斯坦福⼤学Thomas Binford 写了计算机视觉中的“⽆知，近视及天真”⼀⽂批评计算机视觉界既缺少理论也缺少实验，过分

背胶橡皮布重视⽤形状从X的研究上，认为像路灯下的醉⿁，和皇帝的新⾐（因为交叉学科效应，⼤幅度的跨学科，以⾄⼀个领域的专家（计算机）会被另外领域（数学，⼼理学）的忽悠，发⽣从众效应，没有重视分割和信息的表象问题的研究。

这次讨论中，马⾥南⼤学的Aloimonos和 Rosenfeld⼤致同意 Jain 及Binford的看法，认为Marr的重建理论对机器视觉系统来说是太⾼，没有必要。但是，他们为Marr的理论辩解说，理论与实践的脱节是因为计算量太⼤，太复杂。他们认为计算机视觉的⽬的是为了研究完成某⼀任务需要哪些视觉信息，并且如何从图像中获得这些信息，即在复杂场景中运动和识别有关物体，不必要完全恢复客观世界，换⾔之，需要有⽬的的定性视觉完成导航和识别。

中国学术界迅速回应了这次讨论，1992年12⽉“模式识别与⼈⼯智能”杂志组织了⼀个对应的专题，由国内计算机界著名学者发表了⼀组⽂章，参加的有宣国荣，李介⾕，吴⽴德，边肇祺等。这组专题认为计算机视觉⼏⼗年的⼯作还是有成积的，出了不少专⽤系统，如游泳运动员训练系统，漫步机器⼈，占斧式等。Marr的理论还是应该得到充分肯定，争论是有益的，计算机视觉要更多的⾯向应⽤。

折叠音箱但是计算机视觉的问题并没有解决。实际⼯作者的批评声⾳越来越⼤，主动视觉，定性视觉，⽬的视觉⼤有取代3D重建理论之势。3D重建理论学派坐不住了，1994年七⽉由耶鲁⼤学⼼理系的Michale Ta

rr及计算机系的 Michael Black联合在CVGIP：IMAGE UNDERSTANDING发⽂，捍卫重建学派。引起了计算机视觉理论界第⼆次⼤专题讨论（对话），⼀共⼗⼀篇⽂章，因为关系计算机视觉各流派理论的⽣死存亡，也是最重要的⼀次讨论。

第⼀篇⽂章是Michale Tarr 和 Michael Black的”对话：在视觉中表象⾓⾊的计算与演化展望“(“DIALOGUE: A Computational and Evolutionary Perspective on the Role of Representation in Vision”)，⽂中，他们指出⽬的学派近来⼀直批评⼀般视觉的重建理论⽆成果和不实际，想以强调功能和任务的⽬的视觉取⽽代之，但是重建研究是可⾏的，为理解和模型⼈类及机器的⼀般⽬的视觉提供框架，从演化展望的视觉⽬的去检验，包括光流的恢复都⽀持这种假说。⼀些具体情况下，⽬的研究可能是合适的，但是它对⼈类⼴泛的视任务，就不⾜了。他们强调要理解视觉，认为视觉问题是反光学问题，本⾝就是病态提出的，参考和限制本⾝就是不可避免的，主动视觉是好的，他们也不拒绝⽬的视觉研究，认为他是视觉研究的⼀个流派但是更适合说明青蛙的⾏为，⽽不是⼈类，，如果⽬的视觉是⼀个⼀般视觉的限制版，当然更好。

早就憋了⼀肚⼦⽓的⽬的学派的Aloimonos作了回答。在我学习到什么（What I Have Learned）⼀⽂中，他⾸先尖锐提出，视觉是什么？他说他理解的视觉就是识别过程，是联想，解释，指导，及选择的过程，与重建没有⼀⽑钱的关系。他批评说，Marr 认为视觉是⼀个从给定图像中得出完全精确景物和性质的表象的过程，这是⼀个⼀般的建议，⽽⼀般只存在在理论中。⽽⼈的视觉是⽣物视觉的特例，

⽽按蜜蜂视觉研究专家Horridge 的观点，⼈和蜜蜂在视觉控制⾏为中没有什么不同，⼈类不计算光流。

光流⽅程中，⼀个⽅程两个未知数。不加附加限制根本不可解。视觉有⽬的，⽬的就是⾏动。⽬的，定性，主动三位⼀体，⼀个回答作什么，第⼆怎么做，第三怎么获得数据。

13篇论⽂中，最有意义的是Simon Edelman 的，他提出了解决的⽅案：没有重建的表象。

csmate他⾸先指出，从哲学上来说，重建的表象可以追索到Aristotle，Hume，及Berkeley，他们认为景物的表象是能够适应任何视觉任务的被表⽰物体的⼏何复制。他批评说，重建的表象，从实⽤主义的⾓度来说，是⼀种可怜的选择，理由有三个：第⼀，实际⼯程的计算说明从没有任何限制的真实数据中恢复简直是不可能的；其次，即使可以计算，也没有必要；第三重建的景物只有⽩痴才能理解。然后他给出了解决的办法，他从洛克的“⼈类理解论”中到了灵感。洛克在智⼒表象的语义问题部分建议，⼀个概念能够表象（⽰）⼀个物体，不需要像Aristotle提出的在任何意义上类似该物，只要他能被该物⾃然可预测的激发就⾏。

他介绍⽤微电极作的电⽣理实验发现猴MT （ Middel temporal，中颞）细胞对视域中特定物体发放。⽽近年D Perrett等在灵长类IT（inferotemporal cortex）上再次发现能对⾯孔发放的⾯孔诊察细胞指出⾯孔可能是被表征在IT。

他最后提出可以在Gibson 的直接知觉和Marr的重建表象中间⼀个合适的位置。由没有重建的表象在视觉理论中起关键作⽤。

在Brook 极端的没有表象的⽬的视觉，和Marr没有⽬的的重建法式间作⼀个调和。

整个讨论专题以主流的重建学派接纳⽬的学派为结束。

⽂章引⽤来⾃：王天珍⽼师的《》

参考⽂献：

[1]潘春宏.计算机视觉简述

[2]顾伟康.计算机视觉的发展概况

本文发布于:2024-09-22 19:42:15，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/1/222362.html

上一篇：斜视基本方案

下一篇：中级卫生专业资格中医针灸学主治医师中级模拟题2021年(25)_真题-无答案