基于拼音或英文音标读法的数字虚拟人嘴型驱动方法与相关技术

由天下分享时间：2025/1/7 8:28:08 加入收藏我要投稿点赞

图片简介:

本技术介绍了一种基于拼音或英文音标读法的数字虚拟人嘴型驱动方法，涉及数字虚拟图像生成技术领域。本技术包括如下步骤：将中文中每个韵母和每个声母或者英文中每个音标拼读的发音嘴型动作记录下来，构建生成嘴型数据库；识别给定文本，生成拼音序列或音标序列，从序列中筛选出关键音素；对关键音素嘴型建模，完成不同关键音素对应不同嘴型参数匹配；通过插值算法，将声母和韵母或者音标动作混合在一起，形成给定文本发音的嘴型；将定文本发音的嘴型导入到数字虚拟人像中，驱动数字虚拟人动嘴。本技术以此来驱动数字虚拟人的嘴型动嘴，提高虚拟人物嘴型的生成准确率，降低三维虚拟动画的制作成本。

技术要求

1.一种基于拼音或英文音标读法的数字虚拟人嘴型驱动方法，其特征在于，包括如下步骤：

步骤S1：将中文中每个韵母和每个声母或者英文中每个音标拼读的发音嘴型动作记录下来，构建生成嘴型数据库；

步骤S2：识别给定文本，生成拼音序列或音标序列，从序列中筛选出关键音素；步骤S3：对关键音素嘴型建模，完成不同关键音素对应不同嘴型参数匹配；

步骤S4：通过插值算法，将声母和韵母或者音标动作混合在一起，形成给定文本发音的嘴型；步骤S5：将定文本发音的嘴型导入到数字虚拟人像中，驱动数字虚拟人动嘴。

2.根据权利要求1所述的一种基于拼音或英文音标读法的数字虚拟人嘴型驱动方法，其特征在于，所述步骤S1中，嘴型动作记录过程如下：

步骤S11：通过多个人读中文的声母和韵母或英文音标，同时使用摄像机进行拍摄，获取音频流数据和视频流数据；

步骤S12：将视频流分割成一帧一帧图片，找出中文的声母和韵母或英文音标对应的帧图片；步骤S13：对正面人脸图像进行检测，获取中文的声母和韵母或英文音标所对应的嘴唇信息；

步骤S14：将嘴唇信息以及对应的中文的声母和韵母或英文音标录入嘴型数据库。

3.根据权利要求1所述的一种基于拼音或英文音标读法的数字虚拟人嘴型驱动方法，其特征在于，所述步骤S3中，对关键音素的特征数据进行训练和建模，通过ASM算法检测正面的人脸图片获得唇形信息进行分类

和聚类分析处理，消除在采样唇形数据时因每个人嘴唇大小不同而产生的误差，把不同人的唇形形状归一化，把每一帧唇形图片上的二维坐标转化为高维空间上的点，将每个点合成一列高维向量，每一个向量代表一帧唇形图片信息，对所有向量进行分类与聚类分析处理，并划分到多个基本唇形类别中，利用语音帧和唇形帧在时间序列上的一一对应关系，将对应的语音帧也进行聚类划分成多个类别,将已经归类的语音帧和唇形帧的每一个类别建立网络模型。

技术说明书

一种基于拼音或英文音标读法的数字虚拟人嘴型驱动方法技术领域

本技术属于数字虚拟图像生成技术领域，特别是涉及一种基于拼音或英文音标读法的数字虚拟人嘴型驱动方法。背景技术

三维虚拟动画具有深远的文化意义，它以“寓教于乐”的方式在大众中传播着文化知识信息。好的动画作品可以宣扬人文精神和赞美大自然，更可以继承和发扬民族文化。

在动画角色中，常需要根据输入的对话展示面部表情，包括口型。然而，在实际应用中，受语速、嘴巴大小、语种、方言等因素的影响，语言口型的生成较为困难，导致汉语、英语嘴型的生成准确率较低，因此，为了传承这种优秀的文化形式，本文要通过对拼音和英文音标与嘴型关系的研究，达到简便制作嘴型同步动画的效果，从而来丰富动漫虚拟人物的表情。技术内容

本技术的目的在于提供一种基于拼音或英文音标读法的数字虚拟人嘴型驱动方法，通过采集中文的声母和韵母或英文音标的每个发音的嘴型动作并构建嘴型库，获取给定文本中发音结构找到对应的嘴型，利用插值算法将嘴型动作混合，形成文本的发音嘴型，解决了现有的虚拟人物嘴型的生成准确率较低，制作成本高的问题。

为解决上述技术问题，本技术是通过以下技术方案实现的：

本技术为一种基于拼音或英文音标读法的数字虚拟人嘴型驱动方法，包括如下步骤：

步骤S1：将中文中每个韵母和每个声母或者英文中每个音标拼读的发音嘴型动作记录下来，构建生成嘴型数据库；

步骤S4：通过插值算法，将声母和韵母或者音标动作混合在一起，形成给定文本发音的嘴型；步骤S5：将定文本发音的嘴型导入到数字虚拟人像中，驱动数字虚拟人动嘴。优选地，所述步骤S1中，嘴型动作记录过程如下：

步骤S11：通过多个人读中文的声母和韵母或英文音标，同时使用摄像机进行拍摄，获取音频流数据和视频流数据；

步骤S12：将视频流分割成一帧一帧图片，找出中文的声母和韵母或英文音标对应的帧图片；步骤S13：对正面人脸图像进行检测，获取中文的声母和韵母或英文音标所对应的嘴唇信息；步骤S14：将嘴唇信息以及对应的中文的声母和韵母或英文音标录入嘴型数据库。

优选地，所述步骤S3中，对关键音素的特征数据进行训练和建模，通过ASM算法检测正面的人脸图片获得唇形信息进行分类和聚类分析处理，消除在采样唇形数据时因每个人嘴唇大小不同而产生的误差，把不同人的唇形形状归一化，把每一帧唇形图片上的二维坐标转化为高维空间上的点，将每个点合成一列高维向量，每一个向量代表一帧唇形图片信息，对所有向量进行分类与聚类分析处理，并划分到多个基本唇形类别中，利用语音帧和唇形帧在时间序列上的一一对应关系，将对应的语音帧也进行聚类划分成多个类别,将已经归类的语音帧和唇形帧的每一个类别建立网络模型。本技术具有以下有益效果：

本技术通过采集中文的声母和韵母或英文音标的每个发音的嘴型动作并构建嘴型库，获取给定文本中发音结构找到对应的嘴型，利用插值算法将声母和韵母或英文音标的嘴型动作混合，形成文本的发音嘴型，并以此来驱动数字虚拟人的嘴型动嘴，提高虚拟人物嘴型的生成准确率，降低三维虚拟动画的制作成本。当然，实施本技术的任一产品并不一定需要同时达到以上所述的所有优点。附图说明

为了更清楚地说明本技术实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本技术的一种基于拼音或英文音标读法的数字虚拟人嘴型驱动方法步骤图。

具体实施方式

下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部的实施例。基于本技术中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本技术保护的范围。

请参阅图1所示，本技术为一种基于拼音或英文音标读法的数字虚拟人嘴型驱动方法，包括如下步骤：步骤S1：将中文中每个韵母和每个声母或者英文中每个音标拼读的发音嘴型动作记录下来，构建生成嘴型数据库；

其中，中文中包括24个韵母和23个声母；声母包括b、p、m、f、d、t、n、l、g、k、h、j、q、x、zh、ch、

sh、r、z、c、s和零声母，韵母包括a、ai、an、ang、ao、e、ei、en、eng、er、o、ong、ou、i、i1、i2、ia、ian、iang、iao、ie、in、ng、iong、iou、u、ua、uai、uan、uang、uei、uen、ueng、uo、v、van、ve、vn、io；

英文中音标公有48个，包括元音20个，辅音28个；元音包括单元音([i:]、

bai[I]、

和双元音([eI]、

[u:]、[ɑ:]、[e]、)

[aI]、)；辅音包

括：[p]、[b]、[t]、[d]、[k]、[g]、[f]、[v]、[s]、[z]、[θ]、[∫]、[t∫]、[d3]、[tr]、[dr]、

[ts]、[dz]、[m]、[n]、[η]、[h]、[l]、[r]、[j]、[w]。

步骤S4：通过插值算法，将声母和韵母或者音标动作混合在一起，形成给定文本发音的嘴型；步骤S5：将定文本发音的嘴型导入到数字虚拟人像中，驱动数字虚拟人动嘴。其中，步骤S1中，嘴型动作记录过程如下：

步骤S11：通过多个人读中文的声母和韵母或英文音标，同时使用摄像机进行拍摄，获取音频流数据和视频流数据；

步骤S14：将嘴唇信息以及对应的中文的声母和韵母或英文音标录入嘴型数据库。

其中，步骤S3中，对关键音素的特征数据进行训练和建模，通过ASM算法检测正面的人脸图片获得唇形信息进行分类和聚类分析处理，消除在采样唇形数据时因每个人嘴唇大小不同而产生的误差，把不同人的唇形形状归一化，把每一帧唇形图片上的二维坐标转化为高维空间上的点，将每个点合成一列高维向量，每一个向量代表一帧唇形图片信息，对所有向量进行分类与聚类分析处理，并划分到多个基本唇形类别中，利用语音帧和唇形帧在时间序列上的一一对应关系，将对应的语音帧也进行聚类划分成多个类别,将已经归类的语音帧和唇形帧的每一个类别建立网络模型。

值得注意的是，上述系统实施例中，所包括的各个单元只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本技术的保护范围。

另外，本领域普通技术人员可以理解实现上述各实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，相应的程序可以存储于一计算机可读取存储介质中。

以上公开的本技术优选实施例只是用于帮助阐述本技术。优选实施例并没有详尽叙述所有的细节，也不限制该技术仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本技术的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本技术。本技术仅受权利要求书及其全部范围和等效物的限制。

基于拼音或英文音标读法的数字虚拟人嘴型驱动方法与相关技术

图片简介:本技术介绍了一种基于拼音或英文音标读法的数字虚拟人嘴型驱动方法，涉及数字虚拟图像生成技术领域。本技术包括如下步骤：将中文中每个韵母和每个声母或者英文中每个音标拼读的发音嘴型动作记录下来，构建生成嘴型数据库；识别给定文本，生成拼音序列或音标序列，从序列中筛选出关键音素；对关键音素嘴型建模，完成不同关键音素对应不同嘴型参数匹配；通过插值算法，将声母和韵母或者音标动作混合在

推荐度：

点击下载文档文档为doc格式

基于拼音或英文音标读法的数字虚拟人嘴型驱动方法与相关技术

基于拼音或英文音标读法的数字虚拟人嘴型驱动方法与相关技术

相关推荐文档

精选图文

热门排序

推荐文章

热门标签

相关文章列表