讯飞语音技术在会议记录手机APP中的应用
薛辉
【摘 要】[摘 要] 为了实现自动生成会议文字记录,设计了一款会议记录手机APP,研究了在会议记录手机APP中应用讯飞语音的关键技术,包括语音技术的选取、语音听写的流程、上传用户自定义词表和识别结果合成。该会议记录手机APP能够识别会议参与人员的讲话并转换为文字,可以有效减轻会议秘书的工作负担。
【期刊名称】电脑与电信 【年(卷),期】2017(000)005 【总页数】2
【关键词】[关键词] 讯飞;语音识别;会议记录
1 引言
会议记录是有关会议情况的原始笔录和第一手材料[1],需要会议秘书把会议参与人员的讲话记录下来。由于人讲话的速度明显快于书写的速度,会议秘书在记录时往往只能记录重要的部分,无法完整地呈现会议的内容。采取录音的方式虽然可以完整记录会议参与人员的讲话,但会议记录一般要求文字形式,录音资料只能用作辅助材料,文字仍然需要会议秘书人工记录。如今,语音识别技术已经比较成熟,可以应用语音技术开发智能程序[2],自动完成文字生成和记录工作,会议秘书只需在会后稍加整理即可,可以大大减轻会议秘书的工作负担。本文应用讯飞语音技术设计了一款会议记录手机APP。
2 讯飞语音技术简介
科大讯飞经过多年的积累,整合了科大讯飞研究院、中国科技大学讯飞语音实
验室和清华大学讯飞语音实验室等在语音技术上的成果,语音核心技术达到了国际领先的水平[3],并引进国内外最先进的人工智能技术 ,与学术界、产业界合作,共同打造了语音技术应用平台,提供语音合成、语音识别、声纹密码等语音技术[4]。已经有许多软件应用讯飞语音技术,并取得了良好的效果。
3 讯飞语音技术的应用
本文设计的会议记录手机 APP 基于 Android 平台,使用Java 语言开发 ,采用 Eclipse 进行编译 ,适用于 Android4.2以上版本的手机,工作时需要联网环境支持。该手机APP主要是应用讯飞语音技术把会议参与人员的讲话识别成文字保存下来,应用的关键技术如下: 3.1 语音技术的选取
讯飞语音技术主要包括语音合成、语音识别、语音评测、声纹识别等功能,其中语音识别技术又分为语音听写、命令词识别和语义理解三种[5]。语音听写技术可以灵活识别语句和分词,并将语音识别的结果转换成文字;命令词识别技术可以根据设置的语法规则识别用户说出的关键词,从而进行一些控制操作;语义理解技术可以分析用户所说的话语的需求,返回用户关心的相关查询结果。使用手机APP进行会议记录,主要是把会议参与人员的讲话转换成为文字,所以采用语音听写技术比较合适,可以快速把会议的内容记录下来[6]。讯飞语音技术的语音听写还包括云端识别和本地识别两种,为了获得更加准确的识别结果,本系统采用云端识别。 3.2 语音听写的流程
使用语音听写技术的流程如下:
(1)导入 SDK:将讯飞语音平台提供的 Android SDK 压缩包中 libs文件夹
下所有文件复制到 APP 工程的 libs文件夹下。
(2)添加权限:在 APP 工程的 AndroidManifest.xml文件中添加相关权限,本APP需要使用连接网络、使用录音机、读取网络信息状态、获取wifi状态等权限。
(3)创建语音配置对象:创建语音配置对象即初始化,包括设置 appid、开发者账号、引擎模式等,本 APP 的引擎模式设置为“auto”。
(4)创建 SpeechRecognizer对象 :要使用语音听写技术,需创建SpeechRecognizer对象,云端识别时第二个参数设置为“null”。
(5)设置听写参数:设置听写的参数,比如应用领域、语言区域等。本APP设置应用领域为短信和日常用语,即“iat”,语言区域为中文中国,即“zh_cn”。
(6)开始听写:开始把听到的语音识别成为文字并记录下来。 3.3 上传用户自定义词表
特定会议往往会有一些特定的词语,这些特定的词语用户可以自定义并上传到云端,以提高识别的准确率。上传自定义词表的关键代码如下: 3.4 识别结果合成
语音听写的结果返回 JSON 格式文档,JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,易于机器解析和生成,也便于人阅读和编写[7]。语音识别模块返回 JSON格式文本后,顺序检测“cw”,把“cw”里的“w”依次连接到一起即可合成语音识别的结果。如果一个“cw”里有多个“w”,即说明有多候选结果,此时,得分越高识别准确的可能性越大,所以连接分数最高的一个。