1.绪论
1.1 音频处理电路的发展
声音是人类交换思想的主要方式。多年以来,人类一直在寻求一种模拟人类语言功能且具有智能识别能力的装置。随着语音处理理论的建立出现音频电路。特别是上个世纪60年代,人类建立了音频数字模型,以及数字信号处理的技术和方法取得了突破性进展。解决了音频信号的数字表示方法问题,从而使人们发展了音频信号数字处理的各种方法和技术,奠定了数字音频处理系统的理论基础。与此同时,为电子学和集成电路技术取得了新发展,出现了大规模的音频集成电路。这是一种使用专门的硬件线路,采用数字画处理方法来实现声音的录制、音频信号的合成和识别的大规模集成电路。它一经推出就得到迅猛的发展,成为了集成电路家族中的一个重大分支。
作为音频处理电路的一大分支,音频和成电路,由于音频处理理论和模型的建立,而得到了飞速发展。随着计算机技术的飞速发展,人们已不再满足于让计算机做一些简单的科学计算,而是向它提出了更高的要求,即要求计算机向智能化方向发展,于是人们开始了第五代计算机(即智能计算机)的研究。计算机人工智能(AI)的研究内容有很多方面,诸如计算机视觉、计算机语音、知识处理、专家系统等。其中人机自然语言的接口是一个非常重要的部分。它要求计算机能说会听,应此要求出现了语音合成和语音识别两门学科。
所谓语音识别(Speech Recognition),就是利用计算机,对人们的语音信号进行时域或频域处理,识别出所说的是什么,通俗地讲,就是让计算机能够模拟人类的听觉功能。国际上,对计算机语音识别的研究也有近四十年的历史,
1
经过数辈科学家和科学工作者的艰辛努力,语音识别的研究方面取得了很大的成果。尤其是近一、二十年,提出了许多有效的语音处理和识别的方法和策略,使得语音识别这门学科的研究日趋兴旺,许多的语音识别系统也正逐步实用化。人们所期望赋予计算机能说会听的梦想正步步走向现实。语音识别系统依照语音识别的单元、语音识别系统是否依赖人可以分成四类: ·特定人、孤立词语音识别系统。 ·非特定人、孤立词语音识别系统。 ·特定人、连续语音识别系统。 ·非特定人、连续语音识别系统。
语音识别是一门综合性科学,其发展与声学、脑科学、生理学、人工智能、模式识别、数字信号处理、计算机科学等学科的发展有着密切的关系。
五十年代初,人们对于语音的频域特性有了一定的认识,建立了人耳是一个带通滤波器组的概念,于1952 年BELL 实验室推出第一台基于这一特性的完整的语音识别器。
六十年代,人们对于语音的频域特性有了更进一步的认识,同时计算机科学有了更进一步的发展,语音识别的研究主要依靠硬件频谱分析器提供语声的频谱特性,由计算机进行匹配判决。
七十年代,语音识别的研究有了突破性的进展。基于人们对语音产生模型的研究,线性预测编码(LPC)技术被引入语音识别系统;作为语音特征的表示方法,基于同态处理而出现的参数,如倒频谱(Cepstrum)等也得到了广泛的应用。在距离度量上,日本人Sakoe 等提出的动态规划(Dynamic Programming)方法对规整时间轴上语音非线性变化有较好的效果。同时,还出现了许多基于词法结构、语义理解方法的识别系统。
2
八十年代,在特征抽取方面虽没有很大突破,但在语音识别方法研究上有了新的进展。如Hidden Markov Model 的引入,统计学的知识与词法、语法、语义转移网络的结合,矢量量化(Vecter Quantization)技术在数据的压缩方面的应用等。
目前,一般的语音识别系统在特征分析上大致分为两类,一类是以带通滤波器组为代表的语音短时频谱分析,另一类是以语音产生的全极点模型为基础的线性频谱分析。前者实现简单,但识别率较低;后者在方法上优于前者,但实时实现困难。
语音识别系统的实用化要求计算的实时性。一般地,实用化的语音识别系统都配有专门的高速硬件来提高速度。随着VLSI技术的发展,出现了一类专为数字信号处理而设计的单片快速可编程处理器,它们都有很强的乘/累加功能,应用范围很广泛。如Intel2920,μPD7720,Amis2814,TRW-TDC1022,Am29500系列等,其中以美国TEXAS 州生产的TMS320 系列较为出色,它是NMOS 同类产品中最快的一种。 1.2 音频合成的方式分类
目前,音频合成的常用方法有三种:直接波形编码法、参数分析和成法和规则和成法。第三种方法现在还只能利用大型计算机进行处理,因此我们只简单介绍目前广泛应用于大规模语音集成电路的两种方法。 1.2.1 直接波形编码
直接波形编码(Direct Waveform Encode Method)是一种相对简单的音频和成技术。其基本设计思想如下:首先将语素声波波形通过编码器编码转换
3
成数字信号放入存储单元中,然后再根据所需表达的语义重新将这些语素以适当的顺序排列,并以时间序列的形式把这些波形再现出来。由于这种方式需要大量的数据,所以需要较大的存储容量。但由于该方法的最小限度是以语素为单位来存储语音波形,因而所合成出的声音可懂性和自然性都很出色。同时它还具有算法简单、时钟频率较低、易于电路实现的特点。是目前较为广泛采用的一种音频合成方式。
直接波形编码方式的具体实现方法有以下几种:
脉冲编码调制方式PCM(Pulse Code Modulation),就是用传统的模拟数字转换技术将模拟音频信号转换成数字信号,并将其用二进制码表示。这是一种最简单的波形编码方式,但是所需要的数据量较大。
差分脉冲编码调制方式DPCM(Differential Pulse Code Modulation)是对声音波形在本次采样点的幅度与上次采样结果的差值进行量化。量化为书可以减少到4bit,比特率为32-64bps。此法的缺点是当采样结果形成的数字化波形跟不上波形的变化时会产生严重的斜率过载失真。
自适应差分脉冲编码方式ADPCM(Adaptive Differential Pulse Code Modulation)可以根据预测自动调整量化步距的大小,是数字化波形可能跟踪饮品波形的变化。这种方式较好的解决了斜率国在失真的问题。使用这种方式的音频和成电路有UMC公司的UM5108,OKI公司的MSM5218等。
增量调制方式(△M Delta Modulation)是将音频波形在本次采样点的幅度与上次采样结果进行比较,将其结果以0、1编码。该方式是一种量化位数为1Bit的最简单的差分编码方式。但是这种方法的缺点是存在严重的斜率过载失真和较大的量化噪声。
自适应增量调制方式ADM(Adaptive Delta Modulation)可以根据预测是
4
增量幅度之的大小与输入的语音波形相适应,从而使数字化波形的变化尽可能跟踪输入音频波形的变化。这种方式较好的解决了斜率过载失真的问题,信噪比也得以大大提高。使用该方式的音频合成芯片的公司有东芝公司的T6668、TC8830,UMC公司的UM5100等。 1.2.2 参数合成
参数合成方式(Synthesis Analysing Method)也称为分析合成方式,是一种比较复杂的语音合成方式,它是基于分析与模拟人的发音器官,以便于寻求并建立描速方程。如可以有共振峰、频谱包络和声道滤波三种方式来提取语音信息,因此这种方法不是直接利用人生发出的音频,而是从人的声音中提取与音频参数有关的特征参数。在合成的过程中,通过相应的数学模型的计算去人工控制这些参数的合成。
图1.1是一种典型的参数合成方式音频成芯片的结构框图。相对于波型存储方式而言,参数合成方式所要求的存储器容量较小,但其算法复杂,实现较困难,并且这种方式也受到次存储器容量的限制,所能合成的词汇数量也有限。
5