好文档 - 专业文书写作范文服务资料分享网站

基于PFP-Growth算法的海量频繁项集挖掘

天下 分享 时间: 加入收藏 我要投稿 点赞

基于PFP-Growth 算法的海量频繁项集挖掘

江雨燕,李 平

【摘 要】摘 要:随着互联网技术的发展,网络数据变得越来越巨大,如何从中挖掘有效信息成为人们研究的重点。近年来频繁项集挖掘由于其在关联规则挖掘、相关挖掘等任务中的相关重要作用,越来越受到人们的重视。文中针对分布式计算环境下频繁项集挖掘算法的研究,对PFP-Growth 算法进行了改进,通过MapReduce 编程模型对改进的PFP-Growth 算法进行了实现和应用,使用户可以从海量数据中高效地获得所有需要的频繁项集。实验结果表明算法在针对海量数据时具有较高的效率和伸缩性。 【期刊名称】计算机技术与发展 【年(卷),期】2013(000)009 【总页数】4

【关键词】关键词:频繁项集;海量数据;PFP-Growth

0 引 言

关联规则由R. Agrawal[1]等人提出,并且相关技术在近几年越来越受到人们的重视,现已经发展成为数据挖掘的重要内容之一。作为挖掘关联规则的一项重要任务,频繁项集的提取是关联规则挖掘算法性能的主要影响因素。R. Agrawal 和R. Srikant 于1994 年提出的Apriori[2]算法,是一种通过迭代搜索的方式产生频繁项集的方法。在2000 年J.Han 等人提出了FP-Growth[3]算法,它是一种利用频繁模式构建属性结构的算法。它不仅在数据压缩方面要远远优于其他算法,而且减少了多次扫描数据集所带不必要的I/O 传输,从而有效提高了算法的运行效率。随后出现了大量关于FP-Growth 算法的改

基于PFP-Growth算法的海量频繁项集挖掘

基于PFP-Growth算法的海量频繁项集挖掘江雨燕,李平【摘要】摘要:随着互联网技术的发展,网络数据变得越来越巨大,如何从中挖掘有效信息成为人们研究的重点。近年来频繁项集挖掘由于其在关联规则挖掘、相关挖掘等任务中的相关重要作用,越来越受到人们的重视。文中针对分布式计算环境下频繁项集挖掘算法的研究,对PFP-Growth
推荐度:
点击下载文档文档为doc格式
56ten5y03m0wacw0f2p46m3qp9xkpa00ynk
领取福利

微信扫码领取福利

微信扫码分享