Hadoop云平台下的聚类算法研究
谭跃生;杨宝光;王静宇;张亚楠
【期刊名称】《计算机工程与设计》 【年(卷),期】2014(035)005
【摘要】为了解决在面对海量数据时机器学习算法很难在有效时间内完成规定的任务,并且很难有效地处理高维度、海量数据等问题,提出了基于Hadoop分布式平台的谱聚类算法并行化研究.利用MapReduce编程模式,将传统的谱聚类算法进行重新编写;在该平台上用Canopy算法对数据进行预处理,以达到更好的聚类效果.实验结果表明了设计的分布式聚类算法在加速比等方面有良好的性能,并且在数据伸缩率方面效果明显,改进后的算法适合处理海量数据. 【总页数】5页(1683-1687)
【关键词】海量数据;机器学习;聚类算法;谱聚类;分布式框架 【作者】谭跃生;杨宝光;王静宇;张亚楠
【作者单位】内蒙古科技大学信息工程学院,内蒙古包头014010;内蒙古科技大学信息工程学院,内蒙古包头014010;内蒙古科技大学网络中心,内蒙古包头014010;内蒙古科技大学信息工程学院,内蒙古包头014010 【正文语种】中文 【中图分类】TP393 【相关文献】
1.基于Hadoop云平台的模糊聚类算法研究 [J], 刘势; 屈静; 蔡政英 2.基于Hadoop平台下的Canopy-Kmeans算法实现 [J], 霍可栋
3.基于Hadoop的客服运维文本聚类算法研究 [J], 王玮; 严文涛; 苏琦; 刘荫;
Hadoop云平台下的聚类算法研究
Hadoop云平台下的聚类算法研究谭跃生;杨宝光;王静宇;张亚楠【期刊名称】《计算机工程与设计》【年(卷),期】2014(035)005【摘要】为了解决在面对海量数据时机器学习算法很难在有效时间内完成规定的任务,并且很难有效地处理高维度、海量数据等问题,提出了基于Hadoop分布式平台的谱聚类算法并行化研究.利用MapReduc
推荐度:
点击下载文档文档为doc格式