请输入您要查询的字词:

 

单词 并行处理
释义

【并行处理】
 

拼译:parallel processing
 

是指多个运算单元同时处理同一任务。随着超大规模集成电路(VLSI)技术的发展,人们愈来愈寄希望于并行处理,其主要原因有两个:(1)单个处理器的速度已达到物理上的极限。提高其处理速率的最直接的办法是大幅度地提高时钟频率,但这需要半导体物理和工艺有重大突破。(2)新兴的应用领域,特别是数字信号处理,对运算的复杂性和实时性提出了越来越高的要求。例如,数字信号处理研究领域的发展,正从单纯算法研究转向实用,从一维处理阶段走向多维处理,从静态分析走向动态处理。从而提出了高速实时信号处理的要求。

并行处理的实现一般基于两种基本原理:一是与空间重迭相对应的任务分配法,将一个任务分成若干部分,分别由不同的单元同时处理,这就是一般所指的并行(parallel);二是和时间相对应的流水(pipeline)作业法,把一个任务的执行分成若干道“工序”,经过由时间到空间的映射,依次使用不同的运算单元。

20世纪60年代初期,已经有人开始研究并行处理的通用计算机。并行处理的专用计算机则可以追溯到更早的年代。但并行处理机系统的实现一直受到软件和硬件条件的限制。并行处理的传统分类方法是按照指令流和数据流是单个还是多个这一概念划分的。通常有4种类型:SISD(单指令、单数据流)、MESD(多指令、单数据流)、SIMD(单指令、多数据流)、MIMD(多指令、多数据流)。

然而自70年代开始,由于大规模集成电路(LSI)和VLSI的出现,大大促进了并行处理方法的研究。采用VLSI技术实现并行处理算法必须考虑并行算法结构与VLSI技术的匹配。描述一个适合于VLSI实现的并行算法,一般有3个基本要素:(1)处理单元(processing element,简称PE)。每个PE具有一定的功能,完成一定的操作。为了便于实现,要求一个阵列(算法结构)中的PE类型尽量少,尽可能采用一种类型的PE,以便在硬件实现时规则、一致、均匀。(2)通信结构。通常把基本运算处理单元之间的内部通信以及为实现这些通信的内部联接模式称为通信结构。随着集成度的提高,芯片通信布线所占面积、功耗和延时的比例越来越大,一个合理的VLSI算法应具有简单和规则的通信结构。(3)数据传输。数据在PE网络中的流动方式是VLSI并行处理中很重要的一方面。描述数据传输至少包含方向、速度和时序三点,工作方式有同步和异步两种。采用同步工作方式数据传送简单、规则、一致,控制方式也简单;异步工作方式也很有吸引力,尤其在阵列规模较大时,可缓解同步工作方式对时钟的要求,在许多场合数据传送效率较同步方式高。无论是同步方式还是异步方式,阵列内部传送数据和外部输入/输出的数据在速度上应匹配。

阵列处理机(Array Processor)的出现标志着并行处理发展到一个新的阶段。阵列处理机的最大优点在于最大限度地利用VLSI技术的特点,采用高度并行——流水的结构形式。目前,阵列结构主要有脉动(systolic)阵和波前(wavefront)阵两种形式。

Systolic阵的概念是由孔祥重(H.T.Kung)等于1978年在Carnegie-Mellon大学提出的。他针对经典的冯·诺依曼(Von Neumman)计算机低效率的数据结构,提出一种新的结构。它由一组PE按一定拓扑结构组成阵列处理器,每个PE完成一些简单的运算,如乘法累加。阵列采用简单且规则的通信和控制结构,PE间数据用流水方式传递,把整体的数据调用代之以局部的甚至是最邻近PE间的通信,阵列与外界的通信只可能出现在边界的PE上,整个阵列按同步方式工作。Systolic阵列具有规整化、模块化、简单且局部的数据传输等特点,对VLSI的实现极为有效。Systolic阵的工作过程可与人体血液循环系统相比拟:数据的源和宿(一般为主存储器)与心脏的功能相类似,PE阵列如同血管,数据有节奏地由源流出进入systolic阵列,经过数个PE处理后流出阵列进入宿。

贡三元(S.Y.Kung)提出的采用异步工作方式的wavefront阵的最本质的特征在于它是一种数据流驱动结构。它继承了sys tolic阵的优点,但不采用统一时钟控制。各PE只在输入数据准备就绪时才进行运算,因此各个PE是异步工作的,不会出现因峰值功率、时钟延迟和畸变引发的系统故障,并且有容错能力,它克服了systolec阵列的主要缺点。就系统吞吐率而言,wavefront阵也优于systolic阵,这可从两点看出:一是由于systolic阵是同步工作,PE间传输一个数据与一次运算操作占用相同时间(都为一个工作周期);而wavefront阵为数据驱动操作,使数据传输时间相对于运算时间很短,甚至可忽略不计,因此在一些场合,如矩阵相乘,可望比systolic阵快1倍。二是在PE的基本运算时间可变的场合,systolic阵的工作周期必须大于或等于PE的最慢运算时间,而wavefront阵则无此限制。

最优秀的并行处理器芯片首推英国INMOS公司的transputer系列。它采用与众不同的积木式结构和简单的网络联接方法,可构成各种并行处理阵列,为了从transputer结构中获得最大的效益和加速并行处理技术的发展,INMOS公司还同时开发了OCCAM语言,使整个系统网络都可用OCCAM语言来编程。世界上许多国家都在开展对transputei的研究和应用,并取得了显著成果。

在并行处理领域当前和今后应用研究的主要方面应是:算法至结构映射方法的研究,尤其是系统化设计方法及软件的研究。映射的方式多种多样,就一个特定算法也可有多种实现结构,一般应按照某种要求选择一个最佳的设计。通用并行处理阵列的设计研究。一般讲,并行处理阵列是实现一个特定目标的专用硬件,但在某些场合需要用一个阵列实现多个算法,即需要通用的并行处理阵列,这可由硬件和软件两种途径实现。此外,将systolic阵列应用于设计,人工神经网络概念的出现,将促进数字信号处理向更高级的智能化方向发展,由此可见其应用前景是十分广泛的。

【参考文献】:

1 Hwang K,et al.Computer architecture and parallel processing.McGraw-Hill Inc.,1984

2 Kung H T.IEEEComputer,1982,15(1):37~46

3 Kung S Y.VLSI array processors,Prentice-Hill,1988

4 Kung S Y,et al.IEEE Trans.Comput.31(11)

5 何振亚,吴镇扬,高克勤,数据采集与处理,1989,3∶26~34

6 张德富,微电子学与微计算机,1987,2∶1~6

7 INMOS.The trasputer data book,1989

8 陈宝根,李清,并行处理语言OCCAM及其应用,南京:东南大学出版社,1990

(东南大学吴镇扬副教授撰)

随便看

 

科学参考收录了7804条科技类词条,基本涵盖了常见科技类参考文献及英语词汇的翻译,是科学学习和研究的有利工具。

 

Copyright © 2000-2023 Sciref.net All Rights Reserved
京ICP备2021023879号 更新时间:2024/12/23 5:38:04