自编码器应用简介与基于循环神经网络的手写蒙古文词语识别

由天下分享时间：2025/1/9 10:55:02 加入收藏我要投稿点赞

CNN，PCA，自编码器和卷积自编码器

?调整MWRCNN的网络结构，使之输入为64*32和滑动窗口的大小一致，第二个全连层的节点数为64。故最后提取的单帧的特征维数为64.

RNN

LSTM（Long-Short Term Memory）

Bidirectional RNN

Deep Bidirectional RNN

CTC（Connectionist temporal classification）

语音识别声学模型和字符序列识别模型（如传统的HMM模型）的训练属于监督学习，需要知道每一帧对应的label才能进行有效的训练，在训练的数据准备阶段必须要进行强制对齐。

CTC的引入可以放宽了这种一一对应的限制要求，只需要一个输入序列和一个输出序列即可以训练。有两点好处：不需要对数据对齐和一一标注；CTC直接输出序列预测的概率，不需要外部的后处理。

语音识别中的DNN训练，每一帧都有相应的状态标记，比如有5帧输入x1,x2,x3,x4,x5，对应的标注分别是状态a1,a1,a1,a2,a2。

?CTC的不同之处在于输出状态引入了一个blank，输出和label满足如下的等价关系： F(a?ab?)=F(?aa??abb)=aab

多个输出路径可以映射到一个输出序列。