了分类效果最好的图表。
由此可以看出,不同类新闻对于不同训练出的模型的影响大体是保持一致的。 最后,给出基于所有训练集得到的最优参数得到的模型测试结果和全程实验最优结果的柱状图: 也可以得到结论,TOPIC的数量需要科学选择才能达到最优。 6. 实验总结 经过此次试验,学习了文本分类的整体流程, 熟悉了机器学习中 SVM的原理与使用方法, 虽然已经取得 了比较好的分类效果,但是还有以下需要改进的地方。 (1) 从图表中可以看出,经济类新闻最影响分类效果,有可能与原始语料有 关,可能存在噪音,可以从语料的选择和处理上改进。 (2) LDA模型虽然在整个实验中,并没有达到最高分类效果,但是已经与此 次实验中最高分类效果非常逼近,并且LDA模型的维数远远低于 CHI的 特征选取维数,由此可以看出LDA模型的运用是非常有效的。可以通过 阅读和学习相关文献,对LDA模型的运用更加熟练,科学的选择 TOPIC 的数量。并且可以考虑加大训练集来考察对性能的影响。 (3) SVM有不同的核函数,不同的核函数会影响 SVM的效率和最终的分类 效果,这也是提升性能的一个需要研究的地方。 (4) 在特征的提取中,本次实验只关注了对于字典中出现词对分类的影响, 却没有关注没有出现的词的信息的利用。如果考虑这一方法,经济类新 闻对整体分类效果的负面影响应该会大大减少, 他新闻类别的分类性能。 (5) 此次使用了 50, 000篇训练文档,139, 515篇测试文档,但是在大数 据下,数量远远超过此次实验使用的数量的数量级。 为此,在ICML2013 同时也能大大的增强其 的会议中,Scalable也成为了一个值得注意的焦点。Scalable可扩展性用 于描述怎样可以在大数据下科学的采样。可以详细阅读, 议上的文献:
Meng X. Scalable Simple Ran dom Sampli ng and Stratified Sampli ng[J].
来考虑大数据学习。在此文中提出了如何科学的在大数据中提取样本,和在数据流中提取样本, 同时也提出了分层提取样本的方法,比如在正例和负例集中如何采集样本。
ICML2013会
附:
1、 降维以前名词(已经取名词、去停用词)的数量: 123598 2、 调参所需时间:
调参系统环境: VMware Ubuntu12.10,内存2G, 32位 样本数量 10, 000 50, 000 LDA TOPIC 50 LDA TOPIC 100 8-10个小时左右 5-6天左右 LDA TOPIC 200 CHI( 7544)
10+小 时 9-10 天 3、 测试所需时间:
测试集:139,515篇
测试环境: Win8.1,内存 8G,64 位,CPU i7 2.40GHz
LDA TOPIC 50 5分钟 LDA TOPIC 100 LDA TOPIC 200 CHI
9分钟 26分钟 39分钟