?
CNN,PCA,自编码器和卷积自编码器
?调整MWRCNN的网络结构,使之输入为64*32和滑动窗口的大小一致,第二个全连层的节点数为64。故最后提取的单帧的特征维数为64.
?
RNN
?
LSTM(Long-Short Term Memory)
?
Bidirectional RNN
?
Deep Bidirectional RNN
??
?
CTC(Connectionist temporal classification)
语音识别声学模型和字符序列识别模型(如传统的HMM模型)的训练属于监督学习,需要知道每一帧对应的label才能进行有效的训练,在训练的数据准备阶段必须要进行强制对齐。
CTC的引入可以放宽了这种一一对应的限制要求,只需要一个输入序列和一个输出序列即可以训练。有两点好处:不需要对数据对齐和一一标注;CTC直接输出序列预测的概率,不需要外部的后处理。
语音识别中的DNN训练,每一帧都有相应的状态标记,比如有5帧输入x1,x2,x3,x4,x5,对应的标注分别是状态a1,a1,a1,a2,a2。
?CTC的不同之处在于输出状态引入了一个blank,输出和label满足如下的等价关系: F(a?ab?)=F(?aa??abb)=aab
多个输出路径可以映射到一个输出序列。
?
自编码器应用简介与基于循环神经网络的手写蒙古文词语识别
?CNN,PCA,自编码器和卷积自编码器?调整MWRCNN的网络结构,使之输入为64*32和滑动窗口的大小一致,第二个全连层的节点数为64。故最后提取的单帧的特征维数为64.?RNN?LSTM(Long-ShortTermMemory)<
推荐度:
点击下载文档文档为doc格式