语音识别技术在智能多媒体教学系统中的应用
李振亭
(河南师范大学物理与信息工程学院 河南新乡 453003)
【摘要】语音识别技术已经日趋成熟,在许多领域已经开展应用,当然教育教学领域则应是其应用最迫切和前景最有价值的领域,尤其是在智能计算机辅助教学的系统中,恰当的应用语音识别技术,除了增强CAI课件的多媒体信息表现形式外,可以增强课件的智能化程度和提高CAI教学活动的效果。本文首先阐述了在多媒体教学系统中应用语音识别和智能阅读技术的基本思想,其次介绍了在多媒体教学系统中应用语音识别和智能阅读技术的实现,然后以简单的示例说明利用VB多媒体开发系统开发具有语音识别功能教学软件的方法。
【关键词】智能教学系统,语音识别,智能阅读系统,文本朗读,多媒体教学。 【中图分类号】G434 【文献标示码】A
The Application of Speech Recognition Technology in Intelligent Multimedia
Instruction System
Li Zhenting
(College of Physics & Information Engineering,Henan Normal
University,Xinxiang,Henan,453002)
Abstract: The paper states the basic idea about the application of speech recognition technique in intelligent multimedia instruction system, introduces the technique applying speech recognition technique to an intelligent multimedia instruction system, and gives a method for the intelligent speech instruction system with a simple example in Visual Basics system.
Key words: intelligent instruction system, speech recognition, multimedia instruction
1.在多媒体教学软件中的设计方案
多媒体计算机辅助教学(MCAI)、多媒体远程教育(MDE)已经成为现代教育技术的重要标志。在计算机辅助教学(CAI)活动的过程中,在呈现文字、图形和动画信息的同时,再伴随旁白或朗读的声音会使教学效果更好,这也是特瑞赤拉(Treicheer)于1967年提出的关于学习与记忆的研究结论[1]。如何把已经成熟的语音识别技术智能化地应用于教学系统中是当前教育技术人员和计算机辅助教学研究者应该关心的课题之一。本文首先阐述了在多媒体教学系统中应用语音识别和智能阅读技术的基本思想,其次介绍了在多媒体教学系统中应用语音识别和智能阅读技术的实现,然后以简单的示例说明利用VB多媒体开发系统开发具有语音识别功能教学软件的方法。
在计算机辅助教学中语音处理技术的应用可以分成两种形式:一种为语音识别教学方式,另一种为智能阅读教学方式。
语音识别教学方式的主要功能是计算机在接受到来自学生(用户)由麦克风输入的语音信息后,能够与计算机系统已具有的“经验模型”进行比较,判断和确定用户输入的语音
信息的含义,并能够给出最合理的评价和反馈信息。这种方式也叫做命令控制方式。所谓的“经验模型”是在构造具有语音识别功能的教学系统之前,或者是当学生在初次进入教学系统进行注册时,除了让学生对系统的麦克风进行调整外,要使使用者个人的声音模型对系统的语音引警进行“训练”或“学习”。
语音识别教学方式在计算机辅助教学(CAI)活动中主要应用于对进入学习系统的学习者通过语音信息进行资格审查、身份认证、学员学习登记、学习过程中人机交互的应答判断等功能模块中的语音信息的识别及语音合成。
智能阅读教学系统的主要功能是让系统能够识别计算机呈现的文本内容并进行配音阅读,能够识别由学生输入的文本内容并能够进行朗读,以及对于一些图形、图象进行解说等语音处理功能。智能阅读教学系统的语音引警是在开发设计时进行“训练”、“学习”或者利用语音系统已有“经验模型”,不必要由用户对语音引警进行训练。
智能阅读教学系统不同于传统的多媒体教学软件中的朗读功能。传统的多媒体教学软件也具有文本朗读的功能,但是,那里采用的方法是配音的方法。即对于要配音的文本内容,事先录制了相应的声音并保存以声音文件,在程序中,当显示了该段文字并需要发出声音时,让计算机读取该段文本对应的声音数据文件并播放出声音信息。显然这种方式比较机械、死板,并且大量的声音文件要占用大量的系统资源。而智能阅读教学系统的语音引警是应用了人工智能技术,对于常用的字、词、短语及句子语意等都有了样板“经验模型”,或者在开发系统时进行训练学习,不必要录制数据量惊人的声音文件。因此。具有智能阅读功能的教学系统的文本朗读功能可以弥补传统多媒体教学软件的上述缺点,并增强教学系统的智能化程度。
当然一个理想的智能多媒体教学系统应该是既具备语音识别功能又具备智能阅读功能的。要开发一个具有智能语音教学系统的CAI课件,无论是语音识别式教学还是智能阅读式教学系统都需要进行良好的教学设计。文献[2]对于智能阅读的不同教学内容提出了有价值的进行教学设计的方法。此外,不同的学科、不同的教学内容、及教学系统应用的教学模式不同,所依据的教学理论和教学策略是不同的,作者不宜概而论之。
2.语音处理技术的应用程序接口
当前世界有不少公司或专家从事智能语音处理技术,已经有一些相关的智能语音识别技术的接口产品问世,具有语音识别或阅读的多媒体教学软件投入应用。下面主要介绍由微软(Microsoft)公司开发出的一套语音应用程序接口技术的功能特点,以及在多媒体教学系统中的应用方法。
微软公司发布的语音应用程序接口(Speech Aplication Programming Interface,即SAPI)套件已经多次改进,因而有不同的版本。笔者使用的为4.0版本。这一SAPI套件,能够使我们在应用程序中加入语音识别和文本朗读的功能。利用多媒体功能强大的Visual Basic6来开发具有智能语音处理功能的多媒体教学系统是比较方便的。
SAPI SDK套件主要有以下六个语音处理控件组成: .Direct SpeechRecognition(直接语音识别) .Void Command(Voice命令)
.Dictation(口述命令)
.Direct Speech Synthesis(直接语音合成) .Voice Text控件
.Speech Telephone(语音电话) 其中:
Direct SpeechRecognition和Direct Speech Synthesis控件提供了对整个Speech API的访问,每个控件都载有语音引警,通过这两个控件可以最大程度地应用SAPI的功能。
Dictation提供口述命令的功能,它能够让你在应用程序中加入诸如文本翻译、单词校正和响应口述命令等的字处理功能。对于想创建一个能够响应语音命令的应用程序,采用Dictation控件是个很好的选择。
Speech Telephone部件中综合了语音识别和声音合成等技术,可以用来帮助你设计诸如语音通讯、视频会议及网络电话应用程序。
Void Command和Voice Text控件是有关标示符命令和文本朗读功能的接口控件。具有与其它应用程序共享资源,它是以降低应用的灵活性为代价换来应用程序开发时代码的简单和应用的方便。若要使语音合成处理功能灵活、适应性强,就应该使用Direct Speech Synthesis控件。
因此,使用上述六个语音处理控件,可以很方便地开发出具有语音识别和文本朗读的多媒体教学系统或多媒体CAI课件。
需要补充说明的是在构造具有语音识别功能的教学系统之前,需要对所使用的麦克风系统和使用者个人的声音模型对系统的语音引警进行“训练”或“学习”,用以构造或补充语音系统的“经验”模型。在Speech SDK Web 页面的主页中包含有一个连接Microphone Setup Wizard,通过该连接可以使设计者根据语音引警来调整系统的麦克风和对系统的语音引警进行“训练”或“学习”。这项操作很简单,在机器上安装了Microphone Setup Wizard和麦克风之后,对着麦克风朗读一段指定的文字就可以了。
3.语音识别应用示例
例如,为多媒体课件资源库设立一个卫士,对于要进入资源库者进行口令验证,当学生对麦克风发出“芝麻!芝麻!开开门吧!”声音时,系统打开资源库的大门,为用户提供可利用课件资源。否则,示以“口令不对!”的警告,当连续三次发出错误口令,则视为“非法入侵者”,关闭系统结束运行。
可以利用VB开发的卫士模块如下: 界面:CAI资源库背景;
主要对象:Direct Speech Recognition,其Name属性设为DirectSR; Command1按钮,其Picture属性设为人耳图片,用于激活口令监听; TextBox,其Text属性设为空,用于显示语音命令短语; ...... 语音识别程序:
Dim retval, I As Integer