单词 | 数字图像处理与计算机视觉 |
释义 | 【数字图像处理与计算机视觉】 图象处理将原始图像处理成新的数字化图像,改进人类对图片信息的解释以及改进机器对感觉景物数据的处理。数字图像处理概念的应用源自1964年美国喷气推进实验室用计算机技术改进从空间探测器得到的图像。计算机视觉作为图像处理和模式识别的发展,用数字计算机模拟人或生物的视觉功能,从图像得到物理目标的精确的、有意义的说明。近十多年来,图像处理和计算机视觉在科学研究、工业生产或管理部门得到越来越多的应用,例如用于目标跟踪、机器人导航、电视频带压缩、交通、疾病辅助诊断以及航空照片的传输处理和自动制图等。 数字图像处理和计算机视觉的研究主要包括图像增强、复原、编码、分割、图像描述和图像理解的理论、算法及实现。图像增强是采用滤波或变换处理使输出图像比原图像更适合于特定的应用,例如改善人类观看图像的主观质量或更适合于机器的分析。复原是分析图像降质的原因,建立图像降质的模型并通过该模型的逆变换处理恢复原图像。编码是寻找以较少位数代表图像或图像中所包含的信息,便于图像数据的存贮及传输。利用二维投影图、体视图或运动图像恢复物体的内部图像或三维物体形状的研究则是图像重建的内容,例如基于投影重建原理的计算机层析术。分割是利用客观测度把图像分为若干个组成部分或子目标,为随后的识别与图像分析服务,是自动化视觉系统最重要的组成部分之一。图像描述和图像理解是对被分割图像各部分的数字或符号的描述,计算机视觉中的图像描述应该有利于识别处理的特征抽取,并代替人类完成各种场景的分析工作,说明景象中目标与目标、目标与背景之间的位置关系。描述千变万化的场景必须利用人工智能技术对图像分析系统进行控制和有效地利用知识库。图像编码研究始于20世纪40年代末,1948年Oliver提出PCM编码理论,1952年Bell实验室提出线性预测编码,Pratt于1986年提出变换编码方法,70年代人们对各种编码理论和实现作了深入研究。进入80年代,图像编码研究成为图像处理研究中最活跃的领域之一,重点从静态图像转向动态图像,开始结合计算机视觉、计算机图形学、图像处理、模式识别等方面的成就寻找图像编码的新途径。在此情况下,M.Kunt于1985年提出了第1代和第2代图像编码技术划分的概念。第1代图像编码技术主要的理论基础是信息理论和一维信号处理理论,基本出发点是将数字图像作为客观信源,依据图像本身固有的统计特性和人类视觉系统特性进行信息压缩编码,主要技术是空域法编码、变换编码和混合型编码3类。第2代图像编码技术是指可获得高于10∶1的压缩比且压缩方案重点放在如何进行图像信息的表示上的一类图像压缩编码技术,这类技术尽量保留与视觉有关的重要信息,丢弃无关信息。第2代图像编码技术大致可分为两类:一类称为局部算子技术,其特点是将图像数据与某一局部算子相卷积以获得图像不同的特征,然后用不同的编码策略进行编码,典型的技术是塔形编码技术与各向异性非平衡预测编码技术。另一类称为轮廓纹理编码技术,其主要特征是将图像轮廓与纹理相分离,然后采用不同的技术对这两部分进行编码。计算机视觉成为一门独立的学科始于70年代中期,80年代在视觉理论和基础技术两方面开展了大量的工作。1981年,H.G.Barrow和J.M.Tenenbaum提出了通用视觉系统总体结构的设想,他们强调三维物体及表面特性在描述图像中的关键作用,是通用视觉系统中关键的中间层次,他们不认为物体的已有知识对视觉感知表面及其特性是重要的。1982年,D,H.Ballard和C.M.Brown提出了通用计算机视觉系统的另一种想法,认为本征图像信息和客观世界在计算机中的内部模型两者对于成功的视觉系统都是重要的,把计算机视觉处理分为早期的低级处理及知识在认知方面应用的高级处理。1982年D.Marr基于对人和生物视觉系统的研究提出了视觉计算理论,他认为视觉是一种信息处理过程,这种处理可以分成3个描述阶段:(1)二维图象信息的描述,将原始图像转换成要素图(prime sketch);(2)2.5维描述,即以观察者为中心的可见表面、深度和轮廓的描述;(3)三维模型描述,即以物体为中心的被观察形状的三维结构和组织的描述。对其基本技术的研究围绕着从图像提取三维信息的理论算法及实现。例如shape from shading,shape from texture,shape from contour,Motion analysis和stereo vision等领域,Marr认为每个阶段的处理必须从计算理论、描述与算法及硬件实现3个方面去研究,他的理论在80年代的计算机视觉研究中占主导地位。并行算法及其硬件实现是推动图像处理的研究和推广应用的重要方面,对于一幅512×512个像点的图像,如果要对每个像点在3×3的邻域内作100次局部操作,需要处理量为512×512×9×100=2.36×108,显然用传统的Van Neumann计算机结构实现这种处理是不适当的。事实上,图像处理与理解中所用到的数据和算法有明显的结构特点和求解特性,如能使计算机的结构与之匹配,则能有效地加快处理速度。加快信息处理的办法有3种:第1种是开发VLSI技术和通用芯片,如通用数据处理芯片TMS32030,Am2900,Transputer T800等,处理速度已达到7~25MIPS。美国正在计划制作1万个门的砷化镓芯片,处理能力将达到100MIPS。第2种是根据任务和数据引入多种并行处理机制,例如单指令多数据流(SIMD)型结构,这时众多的相同处理单元受同一控制单元播发的信号控制而对不同的数据进行操作,其存贮器则为所有的单元服务,如美国1982年研制的MPP系统(Massively Parallel Processor);再如多指令数据流(MIMD)型结构,在这类实现中,N个处理器通过共享存贮器而交互作用,整个处理任务被分割成多个子任务交给各处理器完成,而公共操作系统则对各子任务的进度作安排、控制及同步管理工作,如美国Maryland大学于1981年研制成功ZMOB机,平均指令数达1.024×10次/s,用以开展模式识别、图像处理、并行计算机视觉等研究;第3种是开发全新的非Van Neumann机结构,例如数据流机、归纳机、推理机、连接机等。近几年来的神经网络的研究成就是异步并行处理理论和方法的引人注目的进展,最主要的特征是异步并行处理、连续时间动力学和网络元件的全局作用,神经网络的研究为学习、识别和计算提供了新的现代途径,并在图象压缩、图象分割、模式识别和计算机视觉等方面取得了可喜的成果。图像编码特别是视讯技术在过去几年中得到了急剧发展,在90年代将十分活跃,各国图像/视讯编码标准,如Still-image compression(JPEG),Video conferencing(H.261),Motion video for storage media application(MPEG)等标准已经被建立,更多的标准在发展,如MPEG-2,HDTV等,符合这些标准的VLSI或集成电路组正在加速研究。近年内,围绕计算机视觉的理论框架,提出了新的思想或理论框架主要有:基于模型的视觉(model-based vision),主动视觉(active vision),调整注意点(forcus of attention),及定性视觉(qualitative vision)。这些新的理论框架将会极大地影响和指导90年代计算机视觉识别处理的研究。【参考文献】:1 Barrow H G,Tenenbaum J M.Proc.of IEEE,1981,69(5):545~5722 Ballard D H,Brown C M.Computer Vision,Printice-Hall,19823 Marr D.Vision W H.Freeman,Company,19824 Kunt M,Ikonmopoulos A,Kocher M.Proc.of IEEE 1985,73(4):549~5745 荆仁杰,叶秀清,徐胜荣等.计算机图像处理.杭州:浙江大学出版社,1990.66 焦李成,刘芳.电子学报,1990,18(1):109~1137 Aloimonos Y,Rosenfeld A.Ignorenoe,Myopia,and Naivete in Computer Vision System Image Understanding.1991,53(1):120~124(东南大学富煜清教授撰) |
随便看 |
科学参考收录了7804条科技类词条,基本涵盖了常见科技类参考文献及英语词汇的翻译,是科学学习和研究的有利工具。