“语音识别、合成与处理”的概念、定义、翻译、参考文献-科学参考

单词

语音识别、合成与处理

释义

【语音识别、合成与处理】

拼译：speech recognitiion synthesis and processing

广义的语音信息交换应包括语音通信(人与人之间的通信)、语音识别(人讲话机器听的通信)、语音合成(机器讲话人听的通信)3种。第1种只是一种物理过程；后2种则是包括人脑活动的生理心理过程。例如，识别时机器应模仿人的听觉感知，合成时则应模仿人组织语句和发音。所以这2种过程必须用人工智能的方法才能实现。

语音识别又分为讲话者识别和讲话内容识别2种。前者机器要根据语音判别出讲话人的身份，或者说是识别语音个性；后者机器要听懂内容，或者说是识别语音共性。前者又分为与文本有关和与文本无关两种，即分为用指定的词或字来识别和用任意词或字来识别讲话者两种；后者则按是否特定讲话人，词或字是否孤立发音以及其数量多少来分类的。显然，与文本无关的讲话者识别和非特定人连续发音大词汇量的内容识别是比较困难的。因为前者要用长时间平均的方法来突出个性特征消除共性特征；后者为了听懂内容，必须具有模仿人脑理解内容的能力，在汉语中还包括对同音字的理解与判定的能力等。无论何种语音识别的实现，都可分为二步，第一步是库的训练，即按识别基元抽取训练语音的参数建立声学参数库，此外，还有由人类知识建立的智能库，如汉语的同音字理解知识库；第二步是识别，即抽取测试语音参数并与参数库一一比较，得出识别结果。

语音合成按人脑形成说话内容过程可分为3个层次：(1)从文字到语音(Text-to-speech)；(2)从概念到语音(Conceptto-speech)；(3)从意向到语音(Intention-to-speech)。其中第1个层次最简单，人们也才刚刚在这个层次上有些成果。语音合成的实现分为两步，第一步是按某层次的输入(如文字)模仿人脑活动过程得出语句发音规则的描述，第二步是按该描述用声学参数合成出语音。如果只用第二步来合成语音，就是目前常用的语音合成器，听起来很不自然。显然，第一步是较为困难的，因为人在讲一句话时已考虑到字(词)中的辅音至元音、元音至元音之间存在的转接和音渡的音变规律，2个以上连字(词)之间存在的声调和音重变化的规律以及一个句子中存在语气(句调)的变化规律等等。只有按照这些规律(规则)，机器才能合成出高自然度的语音来。

讲话者识别主要用于声纹破案、机要门卫、敌我鉴别等领域，语音内容识别和合成主要用于智能计算机、机器人或工业设备的自动控制、声控打字等，语音合成则可用于语言学习机及各种报警报时装置等方面。

近年来，在语音识别和合成领域的进展主要表现在以下几方面：

1．硬件方面。研制出如TMS320系列等高速多功能CMOS处理器，有并行处理功能的Transputer处理器等，使许多算法(包括神经网络)得以实时和省电地实现。

2．数据压缩方面。减少声学参数库的存储量有赖于参数数据的压缩和有效性。20世纪70年代以来常用的参数有LPC参数、倒谱参数、共振峰参数等。近年来的新进展有：无论是时域、频域或模型的参数都可用矢量量化(Vector Quantization)技术得到有效的压缩，对于语音信号的非平稳时变性使用了隐马尔柯夫模型(Hidden Markov Model)参数来描述，时域描述方面则开发了子波分析(Wavelet Analysis)方法等。

3．讲话者识别算法方面。讲话者识别按识别的目的可分为话者辨别(Speaker Identification)和话者确认(Speaker Varification)2种。前者要求识别出被测者是库中N个讲话者中的哪一个，后者则要求确认出被测者是否就是库中的那个讲话者。无论何种识别，其算法至今仍多沿用讲话内容识别的所谓动态时间弯曲(DTW)算法，但是为了更好地突出个性特征，还采用LPC参数的正交变换的方法；此外，使用人工神经网络(Artificial Neural Network)方法进行识别也有一定的效果。

4．讲话内容识别算法方面。除了上述动态时间弯曲(DTW)和隐马尔柯夫模型(HMM)基本算法之外，主要是在非特定人、连续发音和大词(字)汇量3个方面取得了新进展。对于非特定人问题，除了采用100个以上讲话者(不同年龄性别籍贯和讲话习惯)的语音进行聚类训练以得到对各种讲话者都较适用的声学参数库之外，还开发了讲者自适应技术，它只要用当前使用者的少量语音来修正(适应)参数库，就可以大大提高正识率。此外在这方面HMM比DTW的性能也好些。对于连续发音问题，除了要解决词(字)的切分外，还要按人讲话时的音变调变规则的知识扩大库的容量才行。但这相当复杂，目前仅做到词一级的识别。对于词(字)汇量问题，由于受系统容量和运算速度限制，目前只能达到几万个词(字)的水平。但是可以指出，在这方面汉语的识别有其独特优越之处，因为全部汉语只有1300个音节，所以已可做到全字汇量的语音识别。此外，具有自组织自学习能力的人工神经网络(SONN)连续预测神经网络已得到应用。尤其开发了时间延迟神经网络(TDNN)连续预测神经网络(LPNN)和神经预测模型(NPM)，它们已考虑了语音的时间非平稳性。人们还利用HMM具有时间对准能力强和NN具有区分能力强的特点，将两者结合起来。例如用NN对HMM参数进行训练以提高HMM的区分能力；也可用HMM先对模式做时间的动态规整然后由NN来进行识别。

5．语音理解算法方面。人们正在研究识别出来的音素串，字(词)串如何通过语法语义语用的分析以得到所谓合法的文本，例如汉语的同音字理解问题等。多采用字(词)典和扩充转移网络(ATN)的语义描述和语法分析方法来解决。

6．语音合成算法方面。一方面对库中的声学参数进行逐字(词)的修整，以提高合成的单字(词)的可懂度和清晰度。另一方面已开始了字(词)的调变、音重、转接、音渡和句子的语调等规则的研究，以提高合成的句子的自然度。此外还有人研究将NN用于语音的按规则合成。

显然，今后的进展将主要取决于韵律规则语法语义分析等语言学的进一步研究及神经网络的进一步研究和广泛开发阶段性的应用成果。

【参考文献】：

1 KlattDH．J．A．S．A．1987，(3)：737～793

2 Lee K F．Recognition； the Development of the SPHINX System，Kluwer Academic Publsher，1989

3 Waibel A，et al．IEEE Trans．ASSP 1989，(3)：37(3)：328～339

4 Daubechies I．IEEE Trans．Inform．Theory，1990，(9)；36：961～1005

(东南大学陈永彬教授撰)

随便看

科学参考收录了7804条科技类词条，基本涵盖了常见科技类参考文献及英语词汇的翻译，是科学学习和研究的有利工具。