请输入您要查询的字词:

 

单词 中文输入输出技术
释义

【中文输入输出技术】
 

20世纪80年代以来,由于电子计算机的普及应用,人类进入了信息化时代。信息有多种载体,如数据、文字、语音,图形、图象,而文字信息又是人们日常办公和传递信息最为重要的表达方式。许多国家使用拼音文字,如英文,用计算机处理英文信息是比较方便的。汉字是象形文字,用计算机处理汉字会遇到许多不易解决的问题。要在中国实现汉字的信息化,必须解决汉字的输入、汉字的存储和汉字的输出等技术问题。

汉字键盘输入方法主要分为整字输入和编码输入2类。汉字整字输入使用专用的汉字键盘(一般用笔触式汉字键盘),得出的键盘码和某个汉字在盘面上的位置有关。由于这种键盘的造价较高,并且输入速度低,推广应用受到限制。汉字编码输入是利用通用的英文字符键盘,把汉字按它的基本属性(字形,发音,表义)进行编码。按编码所用的汉字属性不同,可以分为纯字形、形音结合、音形结合、汉字拼音加词汇等多种类型。为了提高输入速度,利用微型机的存储功能,存放大量的汉语词汇,结合词汇输入,大为改进输入效果;为了简化编码规则,便于输入操作,同样利用微型机的存储特性,设置荧屏提示和选择功能。中国有具体设计方案的汉字编码输入方法有400~500种之多,其中有30~40种通过各种评测和实际应用的经验,目前在各行业中推广应用。

汉字存储技术分为点阵式(不加信息压缩)和信息压缩存储2类。点阵式字模的规格如15×16,24×24,32×32,48×48,64×64等,包括宋、仿宋、黑,楷4种字体,已制订国家标准。已有成套的商品化的字模存储芯片。信息压缩存储技术包括对汉字笔划的矢量描述和函数描述,以及汉字字根等的拼装技术。目前国内已商品化的信息压缩字模芯片有采用字根拼装结合笔划矢量信息压缩技术的存储芯片,以及采用字根拼装结合笔划函数信息压缩技术的存储芯片。国内目前流行最广的由北京大学等单位研制的抬式出的系统采用整字矢量描述字模信息压缩方法。完全采用较高次函数信息压储的整字存储技术,目前正在开发中。

输出技术可以适应不同分辨率规格的输出设备,如300、400、600、1016点/时,通过无级变倍技术,按字号尺寸的要求,输出各种规格的汉字点阵字模。

在已往的10年内,中国各主要少数民族文字,如蒙文、朝鲜文、彝文、藏文、维吾尔族文等的输入、输出技术和应用也有相应的发展。

智能化的汉字输入方法,如汉字识别,以及汉语语音输入和输出在过去多年内也取得了阶段性成果。

有关汉字编码输入方法,主要向2个方向发展。专业操作员用的方法,无论是基于字形属性或是基于拼音的方法,除了输入速度外,应全面提高综合的技术指标。目前各个优选的方案,输入速度都能达到150~180字/min的水平,广泛结合词汇、短语等输入,利用词库、语料库技术的提高,尚有进一步输入速度的可能。另一个发展方向是普及型汉字编码方案,要求不限定采用那种汉字属性,而且不同属性的输码方案之间可以交替使用,简化切换规则,进一步发展使用简码和荧光屏提示引导等技术,达到使各种年龄层次、各种职业的人员能习惯使用的目的。

点阵式汉字字模,应尽可能使用大容量的存储器芯片,降低成本,普及应用。压缩信息汉字存储技术面向中等和高品质汉字存储的需要,既要改虑到信息压缩倍率,同时要改虑字模还原速度和输出字形的质量。从得到压缩倍率高的效果着眼,采用字根拼装,同时对笔划采用矢量或函数描述的方案最有利,压缩倍率可达数百倍。如国内已有的成果可以用2~3片4兆位的存储芯片,供存储4种字体、每种字体约7000的字模压缩信息,还原输出后的汉字属于中等偏下的文字质量。拼装方法包括字根拼装、笔划拼装、笔锋拼装,这3种方法虽然都能提供高的信息压缩倍率,但都不能保证输出文字品质优良。对整字采用笔划轮廓矢量描述方法,可以得到较高的倍息压缩倍率(数十倍)。使用专门设计的信息还原硬件(固化的还原程序),可以得到较高的输出速度。在输出字形品质上,由于采用了矢量逼近法代替笔划中的弧线,字模放大后有棱角的痕迹。因此,经精细描述的整字字模矢量压缩方法也难以达到完美的字形品质。如果在这种方法中又采用了笔锋拼装技术,更会降低输出文字的质量。从要求有完美汉字字形的目的出发,应采用对整字用函数描述的信息压缩方法,对于汉字笔划中包含的各种曲线形状,一般用高次曲线更能贴合其轮廓。但用高次曲线描述,在还原时,对浮点运量需要大的计算量,增加了运行时间开销。从还原速度和输出字形品质二者折衷考虑,采用三次曲线(Bezier函数)描述最为适当。为提高信息还原速度,也必须设计专用的硬件(固化程序)。

采用函数信息压缩的另一个优点,是可以和国外目前流行的用一种称为Postscript语言的页面描述语言(PDL)描述字模信息的方法相兼容。

在汉字输出方面,由于采用无级变倍方法,不论连接何种分辨率规格(印字精度)的输出设备,对指定的输出字号尺寸,可由软件或固化程序提供所需的字形点阵。由于做到了这点,可以满足各种不同的应用要求,从一般的输出打印汉字,到中等质量的汉字印刷,直到高质量的汉字精密照排,在输出机制上可以实现一体化,简化了用户在选择配置方面的考虑。

汉字识别技术,分为联机手写汉字识别、光学印刷体汉字阅读机、光学手写体汉字阅读机3类。技术难度按以上顺序从低到高。国内目前对前2种技术已经有了相当程度的中间成果。联机手写体汉字识别,对书写汉字的大小、笔顺,笔划的规范化等有一定的要求,识别的字数可以达到国标一、二级汉字,识准率为95%以上,主要缺点是输入速度低,不容许连笔或草写。但因设备的造价低,有一定的应用范围。光学印刷体汉字识别又分为单体字和多体字2类。单体字识别只认定一种字体,对付其它种字体时要调换字典。目前国内已达到的成果,识准率为95%~98%,速度为15~30字/s(相应地使用16~33M主频的286或386微型机)。具有版面自动分割功能,识别后的编改功能,可以识别常用的标点符号。多体字的识别,可以用一套识别程序和字典应付不同字体汉字的识别,识准率和单体字的相近,主要不足是速度低,约2~3字/s,需要用专用硬件加快处理速度。光学手写体汉字的识别尚处在试验性阶段,主要问题是不同人手写的汉字离散性很大,目前虽已能识别数百字,速度也很低,离实用尚有不小距离。

汉语语音识别技术。国内目前研制的以中、高档微型机为基础的汉语语音识别装置,已能识别约2000个汉语词汇或口令,对于限定人员(经过训练识别)断续的汉语字串识别率达到95%,近期的目标是实现声控汉语信息录入和汉语声控打字机。远期的目标实现是对各种特定专业或任务的连续性汉语自然语言识别,从限定人员向放宽对人员限制的过渡。

汉语语音合成技术。目前不连续的汉语语音合成技术已实用化,须要进一步改进汉语发音的标准,提高合成语言的连续性和自然性。汉语语音合成在汉字文本输入校对、信息处理结果输出、办公室自动化系统中信息提示等方面有重要的用途。

未来多年内中文输入输出技术研究的热点是输入技术,应为智能力的汉字识别,如单体和多体印刷体汉字的光学识别,手写体汉字的光学识别。汉语语音识别技术也将有很大发展,配合汉语语言理解、语言翻译等人工智能领域技术的发展,汉语识别是一个很重要的技术环节。

汉字字模存储技术方面,研究工作会围绕具有中、高质量的汉字压缩信息存储和复原技术发展,这项技术要在信息缩比、复原速度、字形品质等几个主要技术指标间作出权衡。特别是采用整字函数信息压缩的汉字字模存储和生成技术,由于它能提供高品质的字形,对这项技术应深入研究,以期得出供实用的成果。此外,由于大规模集成电路存储芯片的容量和微处理机芯片的功能在未来多年内将不断提高,在实施这项研制课题时将有良好的技术支援。

【参考文献】:

1 郭平欣,张淞芝,主编,汉字信息处理技术,北京:国防出版社,1986

2 赵伯璋,徐力,计算机中文信息处理,北京:宇航出版社,1987

3 赵伯璋,张淞芝等,中文信息处理技术,北京:宇航出版社,1990

4 张炘中,中文信息学报,(创刊号),1984,11~14

5 张炘中,中文信息学报,1987

6 王选,中文信息学会10周年论文集,1991,43

7 丁晓青,中文信息学会10周年论文集,1991,192

8 江晓红,中文信息学会10周年论文集,1991,172

9 方棣棠,中文信息学会10周年论文集,1991,19

(中国通达电子网络系统公司张淞芝教授级高级工程师撰)

随便看

 

科学参考收录了7804条科技类词条,基本涵盖了常见科技类参考文献及英语词汇的翻译,是科学学习和研究的有利工具。

 

Copyright © 2000-2023 Sciref.net All Rights Reserved
京ICP备2021023879号 更新时间:2024/9/29 6:43:55