图6 “酷狗音乐排行榜前”100名歌曲聚类图
Fig.6 the cluster map of “Cool dog music charts top 100 songs\
从图6我们可以明显地看到“酷狗音乐排行榜”前100名歌曲,具有明显的聚簇现象。所以,我们可以根据AP聚类算法当前进行数据处理的100首歌曲进行分类处理。
我们得到“酷狗音乐排行榜”前100名歌曲中不同风格的音乐在样本中所占的不同比重(如图7所示)。
图7 “酷狗音乐排行榜“前100名歌曲的聚类扇形图
Fig.7 the clustering graph of “Cool dog music charts top 100 songs”
从图7中我们可以直观的看出,采集的样本音乐分为A、B、C、D、E、F、G、H、I、J这10中不同的风格及各种不同风格音乐在样本中所占的比重。经统计,A,B,C等各歌曲风格类群音频特征向量数据所在的空间如下:
A?{(x,y)|10636.27?x?25195.35,57249541.22?y?325293949.30} B?{(x,y)|14795.76?x?28224.00,373782296.50 ?y?698619743.70 } C?{(x,y)| 20928.00?x?37701.82,762539893.40?y?1144798452.00} D?{(x,y)|14115.84?x?42646.59,1223549532.00?y?1529808212.00 }
(9)
E?{(x,y)|24096.00 ?x?44422.74 ,1691034921.00 ?y?2027242334.00 } F?{(x,y)|30904.32?x?55616.00 ,3885170688.00 ?y?5631087670.00} G?{(x,y)|35428.17 ?x?48640.00 ,2601752986.00?y?3194786870.00 } H?{(x,y)|35851.64?x?55177.85,6079983669.00 ?y?7380255980.00 }
其它:
i(x,y)?(19621625856.00,87360.00)
j(x,y)?(10779027118.00,52772.57)综上,我们可以解决问题三:
1. 我们可以直观地看出A、B、C三种风格的音乐占有流行音乐的大多数市场。并且A种风格的音乐占有的市场最广,占市场总量的34%。
2. 由于我们采集的数据代表着整体音乐的特征。所以,我们可以根据AP算法将所有音乐可以划分为图中所表示的A、B、C、D、E、F、G、H、I、J这10种风格。
3. 大多数人偏向于A、B、C这三种风格的音乐。因此,我们可以认为A、B、C这三种风格的音乐对人们的价值观和文化观影响较大。
5.4模型检验
由于问题流行音乐分类问题面对着的是广大的群体,所以该问题的验证方式为分别取酷狗、酷我、百度、QQ四大平台上的热歌若干,通过对样本音频特征向量提取,与各风格类群空间作比较验证模型的正确性,这里在现有平台上分别取歌曲5首进行验证得下表:
表1 歌曲风格检验表
tab 1 the song style verification table X 10948.92308 15664 Y 62267580.23 472404839.5 所处风格类群 A A 27328 18557.02326 18503.44186 15473.77778 17860.08511 50928 40512 15744 18508.8 17300.21053 12084 21257.14286 667529127 371278205 224043634 69274437.23 45659252.51 5562647347 1964782387 495747072 214931865.6 795712009.5 103326720 879495460.6 B A A A A F E B A C A C
22677.33333 246225773.7 A 21480.72727 746440145.5 A 29724.44444 2064647824 E 23943.52941 883251451.9 C 10246.2439 125744935.5 A 36480 1284131109 D 由表1知在所收集到的20首歌里: A风格所占比例为11/20; B风格所占比例为2/20; C风格所占比例为3/20; D风格所占比例为2/20; E风格所占比例为1/20; F风格所占比例为1/20。
通过对先前100个数据中各类群所占比例进而可知:在一定误差范围内,该模型是成立的。
六、模型评价与改进
通过数据对模型的检验可知,模型在一定程度上存在误差,由模型建立过程和数据运用上,可知模型存在以下不足:
1.小数据建立的模型在可信度有所不足。
2.AP算法聚类数量与P值等有关,缺乏一定的监督。 针对以上问题,除数据量缺乏外,模型可做以下改进:
由于AP算法中P的大小比较关键,其影响着最后的聚类数量,值越大,生成的类越多,反之亦然,阻尼系数迭代也是很关键的,此算法可能会出现数据震荡现象。因此选取合适的阻尼系数成为提升算法品质的重要决策。又因为AP算法每一簇只有一个类代表点,只适合表达球形簇,忽略了簇的内部结构及层次结构,AP算法还要求每个类代表点都必须有自己的类代表点等。
提出软约束条件,在寻找优化的过程中允许一个类代表点有其他的类代表点。
由于流形是从观测空间的角度分析数据,可以直观的发现数据集分布的内部规律。现根据以上依据对该算法做以下更改:
1.
?xj,xj?X,计算两点间的欧氏距离
2?dij??x?x?i?j2??1/2
2.依据两类成对约束对距离矩阵调整:
??dij,dij?0,if(xi,xj)?Must?Link???dij,dij??,if(xi,xj)?Cannot?Link
3.其中,
??p(D(xi,xj)/?ij)?1Dis(xi,xj)?(xi,xj)))?1??p(?/(?ij.max(dxi,xj关于?不可达xi,xj关于?密度相连
对距离矩阵调整,即对样本点数据集进行空间变换。
4.根据调整后的距离矩阵构造相似矩阵
Sij?1/Disij?1。
5.基于以上构造相似度矩阵,利用AP算法完成聚类。 以上变化中成对约束只是改变了局部数据的相似度,并不能保证聚类结果满足先验知识给定的所有约束对信息,即存在违反约束对信息的情形,为解决,这一问题,做如下调整:
违反Must-Link约束调整:已知据点到类中心距离之和,即
(xi,xj)?M,yi?k,yj?k'分别计算两个数
,那么改
dik?djk和
dik'?djk',如果
dik?djk?dik'?djk'xi的类标签为yi=k;否则xi的类标签为yi=k’。
违反Cannot-Link约束调整:已知据点到个中心点的距离
如果
(xi,xj)?C,yi?k,yj?k分别计算两个数
dik和djk。
dik?djk,则保持xi的类标签不变,改yi的类标签为:
yi?argmin(d
另外,流行音乐的分类方法将随着音乐的各种流行而不断演变。
七、参考文献
jk')k',k'?k[1] 百度文库,
http://wenku.http://www.diyifanwen.net//view/3b92e260f5335a8102d220c1.html,2013,04,13
[2] HU Jingkai, WU Lei, GAO Yang. MP3 music classification method based
on LCS[J], Journal of Chongqing University of Posts and Telecommunications, 2007,Vol.19 No.4
[3]陈凯,王佳,徐士彪,百度文库,http://wenku.http://www.diyifanwen.net//view/7e52bcdac
e2f0066f5332257.html,2013,04,12
[4] 王开军,张军英等,自适应放射传播聚类,自动化学报,2007,12, 3(12). [5] Jiawei Han Micheline Kamber 范明 孟小峰 译 数据挖掘概念与技术 机械
工业出版社 2008年 251-265.
[6] 徐艺萍,邓辉文,李阳旭,一种新的最近聚类算法,西南师范大学学报(自
然科学版)2006,31(6):114-116.
附录: 1.表格
表1.1 R&B系列歌曲清单
原文件名 调用名 Belle - 布鲁斯.wav R&B1.wav Dizzy - 布鲁斯.wav R&B2.wav Itsogoo - 城市布鲁斯摇篮曲skit.wav R&B3.wav Sissel - Keep Falling Down - 布鲁斯.wav R&B4.wav