.
语音识别是计算机通过识别和理解过程把语音信号转变为相应的文本文件或命令的技术。 语音识别又是一门交叉学科,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。
7)表情识别
面部表情是人体语言的一部分。人的面部表情不是孤立的,它与情绪之间存在着千丝万缕的联系。人的各种情绪变化以及对冷热的感觉都是非常复杂的高级神经活动,如何感知、记录、识别这些变化过程是表情识别的关键。
8)手写识别
发展手写识别技术并嵌入到各种设备中,将是手写识别技术未来发展的重要方向之一。联机手写识别技术的优点是不需专门学习与训练、不必记忆编码规则、安装后即可手写输入汉字,是最简单方便的输入方式。同时符合人的书写习惯,可以一面思考、一面书写,不会打断思维的连续性,是最自然的输入方式。
9)数字墨水
数字墨水是一种新的人机界面技术,它借鉴手写识别技术的同时,克服了它的许多局限性。 数字墨水在数学上是通过三阶贝塞尔曲线来描述笔输入的笔迹,它的记录格式与图像和文本格式都不同。这种存储方式使得数字墨水文件的大小很小,从而可以更有效地进行存储。 三、实验内容与步骤 (1)实验内容
.
.
要求上网查找资料,熟悉一种多通道用户界面并写出综述,可以是眼动跟踪、手势识别、三维输入、语音识别、表情识别、手写识别等。 (2)实验步骤
1)借助图书馆的中英文参考文献资料以及网络,确定出一种多通道用户界面;
2)完成对该多通道用户界面的综述(包括定义、发展历史、当前的应用、主要的研究方法分类、以及发展前景以及中英文参考文献(至少各5篇))
噪音环境下的语音识别
1. 引言
随着社会的不断进步和科技的飞速发展,计算机对人们的帮助越来越大,成 为了人们不可缺少的好助手,但是一直以来人们都是通过键盘、鼠标等和它进行 通信,这限制了人与计算机之间的交流,更限制了消费人群。为了能让多数人甚 至是残疾人都能使用计算机,让计算机能听懂人的语言,理解人们的意图,人们 开始了对语音识别的研究. 语音识别是语音学与数字信号处理技术相结合的一门交叉学科,它和认知学、心理学、语言学、计算机科学、模式识别和人工智能等学科都有密切关系。
2.语音识别的发展历史和研究现状 2.1国外语音识别的发展状况
国外的语音识别是从1952年贝尔实验室的Davis等人研制的特定说话人孤立数字识别系统开始的。20世纪60年代,日本的很多研究者开发了相关的特殊硬件来进行语音识别RCA实验室的Martin等人为解决语音信号时间尺度不统一的问题,开发了一系 列的时问归正方法,明显地改善了识别性能。与此同时,苏联的Vmtsyuk提出了采用动态规划方法解决两个语音的时闻对准问题,这是动态时间弯折算法DTW(dymmic time warping)的基础,也是其连续词识别算法的初级版。20世纪70年代,人工智能技术走入语音识别的研究中来.人们对语音识别 的研究也取得了突破性进展.线性预测编码技术也被扩展应用到语音识别中,DTw也基本成熟。20世纪80年代,语音识别研究的一个重要进展,就是识别算法从模式匹配 技术转向基于统计模型的技术,更多地追求从整体统计的角度来建立最佳的语音识别系统。隐马尔可夫模型(hidden Markov model,
.
.
删)技术就是其中一个典型技术。删的研究使大词汇量连续语音识别系统的开发成为可能。20世纪90年代,人工神经网络(artificial neural network,ANN)也被应用到 语音识别的研究中,并使相应的研究工作在模型的细化、参数的提取和优化以及 系统的自适应技术等方面取得了一些关键性的进展,此时,语音识别技术进一步 成熟,并走向实用。许多发达国家,如美国、日本、韩国,已经IBM、Microsoft、 Apple、AT&T、Nrr等著名公司都为语音识别系统的实用化开发研究投以巨资。 当今,基于HMM和ANN相结合的方法得到了广泛的重视。而一些模式识别、机器学习方面的新技术也被应用到语音识别过程中,如支持向量机(support vector machine,SVM)技术、进化算法(evolutionary computation)技术等。
2.2国内语音识别的发展状况
20世纪50年代我国就有人尝试用电子管电路进行元音识别,到70年代才 由中科院声学所开始进行计算机语音识别的研究.80年代开始,很多学者和单 位参与到语音识别的研究中来,也开展了从最初的特定人、小词汇量孤立词识别, 到非特定人、大词汇量连续语音识别的研究工作.80年代末,以汉语全音节识 别作为主攻方向的研究已经取得了相当大的进展,一些汉语语音输入系统已经向实用化迈进。90年代j四达技术开发中心和哈尔滨工业大学合作推出了具有自然语言理解能力的新产品.在国家“863”计划的支持下,清华大学和中科院自动化所等单位在汉语听写机原理样机的研制方面开展了卓有成效的研究.经过60多年的发展,语音识别技术已经得到了很大发展,对于语音识别的研究也达到了相当高的水平,并在实验室环境下能达到很好的识别效果。但是,在实际应用中,噪声以及各种因素的影响,使语音识别系统的性能大幅度下降,很难达到让人满意的效果。因此,对噪声环境下的语音识别的研究有着异常重要 的理论价值和现实意义.
为解决噪声环境下,识别语音的特征参数和模叛库中的特征不匹配的问题我们必须想办法消除噪声对语音特征参数的影响,根据语音识别过程可知,有以下三种方法:
(1)假定语音模板和背景噪声无关,即无论是清晰语音还是带噪语音,都用同一套模板来识别.在这种情况下,重点在识别阶段,从带噪语音中提取出抗噪的特征参数或者采取抗噪声的失真测度.
(2)在语音的识别阶段,语音识别系统加一个前端处理,从带噪语音中提取出纯净语音,然后再提取语音的特征参数.这种方法被称为语音增强。
(3)在语音识别阶段,根据识别现场的环境噪声对语音模板进行变换,使之接近根据现场带噪语音训练而成的语音模板.这种方法称为语音模板的噪声补偿.无论使用哪种方法消除噪声,我们首先要了解噪声。根据噪声对语音频谱的干扰方式不同可以把噪声分为加性噪声和乘性噪声两类.
2.3语音增强方法
.
.
由于噪声的种类很多,特性并不完全相同,因此针对各类噪声必须采取不同的语音增强方法。一直以来,人们都在加性噪声的模型上进行研究,提出了各种语音增强算法,总的来说可分为三类:第一类是时域方法,例如基于参数和模型的方法[ 3~4 ] 、子空间的方法[ 5~6 ]等;第二类是频域方法,例如减谱法[ 7~9 ] 、自适应滤波法[ 11 ] ,以及基于马尔可夫模型滤波方法[ 12 ]等;第三类是其它方法,例如小波变换法、听觉掩蔽法等。
2.4 时域方法
1. 基于参数和模型的方法。
基于参数和模型的方法通常有两大类[ 10 ] :分析合成法和利用滤波器进行滤波处理的方法。前者是把声道模型看作一个全极点滤波器,采用线性预测分析得到滤波器的参数。通过从带噪语音中准确估计模型的参数来合成干净的语音,这种方法关键在于如何从带噪语音中准确地估计语音模型的参数(包括激励参数和声道参数) 。后者则是考虑到激励参数难以准确估计,采用只利用声道参数构造滤波器进行滤波处理。而在低信噪比下,很难对模型参数进行准确估计,并且此类方法往往因需要迭代而增加算法的复杂度。在实际应用中有时也会把两者合并在一起相互补充。具体来说主要有以下几种方法。 (1) 最大后验概率估计法
最大后验概率估计法是把语音看作一个全极点的模型,首先依据最大后验概率准则估计LPC线性预测参数,然后根据LPC参数的功率谱来构造一个非因果的维纳滤波器对带噪语音信号进行滤波,通过多次迭代直到满足预先设定的阈值为止。此种算法适用于高斯白噪声。它在一定程度上能消除噪声,提高信噪比。但是由于维纳滤波器只能在平稳条件下才能保证最小均方误差意义下的最优估计,而语音和背景噪音的非平稳性,会导致最优估计的误差。而且采用维纳滤波也没有完全利用语音的生成模型,增强后的语音带有不悦耳的声音。
(2) 卡尔曼滤波法[ 1, 3 ]
卡尔曼滤波在一定程度上可以弥补维纳滤波引起的误差。因为它是基于语音生成模型的,且在非平稳条件下也可以保证最小均方误差意义下的最优,适用于非平稳噪声干扰下的语音增强。卡尔曼滤波通过引入卡尔曼信息,将要解决的滤波与预测的混合问题转化为纯滤波和纯预测两个独立的问题来考虑进行语音增强。卡尔曼滤波的优点是噪声在平稳和非平稳情况 下都能使用,能在不同程度上消除噪声,提高信噪比,其缺点是计算量大,需要假设LPC生成模型的激励源为白噪声源并且只在清音段才成立,主观试听发现该方法对语音造成了一定的损伤。 (3) 梳状滤波器法[ 1 ]
语音信号浊音段有明显周期性的特点,可采用梳状滤波器来提取语音分量,抑制噪声。梳状滤波器的输出信号是输入信号的延时加权和的平均值,当延时与信号的基音周期一致
.
.
时,这个平均过程使周期性分量加强,而非周期分量或周期不同于信号的其他周期分量被抑制或消除。这种方法的关键是要准确估计出语音信号的基音周期。在基音变化的过渡段和强噪声背景干扰下无法精确估计时,方法的应用受到限制。这种方法一般也只适用于平稳的非白噪声。
2.5子空间的方法
在子空间法中,大量实验表明,语音矢量的协方差阵有很多零特征值,这说明干净语音信号矢量的能量只分布在它对应空间的某个子集中。而噪声的方差通常都假设已知且严格正定,这说明噪声矢量存在于整个带噪语音信号张成的空间中。因此,带噪语音信号的矢量空间可以认为由一个信号与加噪声的子空间和一个纯噪声子空间构成。子空间法就是将带噪声语音信号分解为正交的信号加噪声子空间和噪声子空间,对纯净语音信号的估计可以将噪声子空间中的信号舍弃,只保留信号子空间中的信号,来预测干净的语音以达到降噪的目的。子空间法的优点是有效地去除带噪语音中的背景噪声,使语音的质量和可懂度都有较大的提高,但是计算量较大,因此在快速计算中该方法需要进一步研究。 2.6频域方法
语音信号的短时谱具有较强的相关性,而噪声的前后相关性很弱,因此可以利用短时谱估计的方法从带噪语音中估计原始语音。同时人耳对语音相位感受不敏感,可将估计的对象放在短时谱的幅度上。典型的方法有谱减法[ 7 ] 、维纳滤波法[ 8 ] 、短时谱幅度的MMSE估计[ 9 ] 、自适应滤波法等。
1. 谱减法 谱减法是在假定加性噪声与短时平稳的语音信号相互独立的条件下,从带噪语音的功率谱中减去噪声功率谱,从而得到较为“纯净”的语音频谱。它的优点是运算量小,容易实时实现,增强效果也较好。但是也存在一定的缺陷,谱减法是一种最大似然估计,没有对语音频谱的分布进行假设,而语音频谱分量的幅度对人耳的听觉是最重要的。因此谱减法进行增强处理后,会带来音乐噪声,不仅使听者在听觉效果上产生一定的干扰影响,还影响后续处理,如语音编码等。谱减法通常包括有线性谱减法、非线性谱减法和概率谱减法。
2.维纳滤波法 维纳滤波法是在最小均方准则下实现对语音信号估计的一种滤波器。对于带噪语音信号,确定滤波器的冲击响应,使得带噪语音信号经过该滤波器后得到最接近于“纯净”的语音信号。采用维纳滤波的好处是增强后的残留噪声类似于白噪声,而不是有节奏起伏的音乐噪声。维纳滤波是平稳条件下时域波形的最小均方误差准则估计。由于没有考虑到语音频谱分量的幅度对人的听觉最重要,因此采用维纳滤波来增强语音存在一定的缺陷。
3.短时谱幅度的最小均方误差(MMSE)估计法 针对特定的失真准则和后验概率不敏感的特性,利用已知的噪声功率谱信息,从带噪语音短时谱中估计出“纯净”语音短时谱,达到语音增强的目的。对于语音短时谱幅度的分布,通常通过两种途径解决:一是假设一
.