欧阳歌谷创编 2024年2月1
2014级数字信号处理课程设计报告
欧阳歌谷(2024.02.01)
题目:钢琴音符识别
姓名:邱晨曦 学号:2014010909008 答辩时间:2016/12/9
一. 题目要求:
(1) 播放和记录一段钢琴音乐中的音符;
(2) 记录到音符以后,找到音符所对应的现代标准钢琴的钢琴键,并分析结果。 二. 课程设计思路:
(1) 涉及到的知识点:
快速傅里叶变换、钢琴音频信号的时域和频域的特性、能熵比的概念、频率校正、频率与音符的转换关系。
(2) 方案分析: A.
预处理部分:
1.
直接用audioread函数读出来的原始数据。 优点:准确率较高;
缺点:数据量较大,采样频率为44kHz,远大于奈奎斯特采样率。
2.
以11kHz的采样率重新采样,并转换为单声道。
欧阳歌谷创编 2024年2月1
欧阳歌谷创编 2024年2月1
优点:数据量小了很多,易于处理;
缺点:牺牲了部分的准确率,但对于音符的判断影响可以忽略。
B. 端点检测算法: <1> . 双门限法:
1. 计算短时能量(高门限)和过零率(低门限); 2. 选取一个较高的门限T2,语音信号的能量包络大部分都
在此门限之上,进行一次初判,语音起止点位于该门限与短时能量包络交点所对应的时间间隔之外;
3. 根据噪声能量,确定一个较低的门限T1,并从初判起点
往左,从初判终点往右搜索,分别找到能零比曲线第一次与门限T1相交的两个点,两点之间段就是用双门限方法所判定的语音段;
4. 以短时平均过零率为准,从低门限点往左右搜索,找到
短时平均过零率低于某阈值的两点,为语音的起止点;
图1:双门限法示意图
说明:算法中的阀值是根据实验过程调节的。
该算法在实际应用的过程中发现:在语音信号频率分布较为集中的时候,端点检测出来的结果比较准确,但当语音信号频率分布比较分散的时候,很难通过控制固定的阀值来检测到每个音符;
<2>. 自相关法:
欧阳歌谷创编 2024年2月1
欧阳歌谷创编 2024年2月1
由于两种信号的自相关函数存在极大的差异,可以利用这种差别来提取语音端点。根据噪声的情况,设置两个阈值T1和T2,当相关函数最大值大于T2时,便判定是语音;当相关函数最大值大于或小于T1时,则判定为语音信号的端点。
该算法同样存在当语音信号频率分布较广的时候,阀值比较难控制的问题。
<3>. 基于谱熵的端点检测:
基于谱熵语音端点检测方法是通过检测谱的平坦程度,来进行语音端点检测的,为了更好进行语音端点检测,采用语音信号的短时功率谱构造语音信息谱熵,从而对语音段和噪声段进行区分。检测思路:
1. 2. 3.
对语音信号进行分帧加窗; 计算每一帧的谱能量;
计算出每一帧中每个样本点的概率密度函数
pn?Yn(k)N2l?0??Y(l)nYn(k); EnN2l?04.
计算出每一帧的谱熵值Hn???pn(l)lnpn(l)(由信息论知识知道,熵值在自变量服从均匀分布的时候,熵值达到最大值,所以噪声的熵值是比较大的,而钢琴音符的熵值是比较小的,由此区别了噪声和音符);
5. 6.
设置判决门限;
根据各帧的谱熵值进行端点检测。
欧阳歌谷创编 2024年2月1
电子科技大学数字信号处理DSP课程设计-钢琴音符识别之欧阳歌谷创编



