基于PFP-Growth算法的海量频繁项集挖掘

由天下分享时间：2024/9/20 1:47:18 加入收藏我要投稿点赞

基于PFP－Growth 算法的海量频繁项集挖掘

江雨燕，李平

【摘要】摘要:随着互联网技术的发展，网络数据变得越来越巨大，如何从中挖掘有效信息成为人们研究的重点。近年来频繁项集挖掘由于其在关联规则挖掘、相关挖掘等任务中的相关重要作用，越来越受到人们的重视。文中针对分布式计算环境下频繁项集挖掘算法的研究，对PFP－Growth 算法进行了改进，通过MapReduce 编程模型对改进的PFP－Growth 算法进行了实现和应用，使用户可以从海量数据中高效地获得所有需要的频繁项集。实验结果表明算法在针对海量数据时具有较高的效率和伸缩性。【期刊名称】计算机技术与发展【年(卷),期】2013(000)009 【总页数】4

【关键词】关键词:频繁项集;海量数据;PFP－Growth

0 引言

关联规则由R. Agrawal［1］等人提出，并且相关技术在近几年越来越受到人们的重视，现已经发展成为数据挖掘的重要内容之一。作为挖掘关联规则的一项重要任务，频繁项集的提取是关联规则挖掘算法性能的主要影响因素。R. Agrawal 和R. Srikant 于1994 年提出的Apriori［2］算法，是一种通过迭代搜索的方式产生频繁项集的方法。在2000 年J.Han 等人提出了FP－Growth［3］算法，它是一种利用频繁模式构建属性结构的算法。它不仅在数据压缩方面要远远优于其他算法，而且减少了多次扫描数据集所带不必要的I/O 传输，从而有效提高了算法的运行效率。随后出现了大量关于FP－Growth 算法的改

基于PFP-Growth算法的海量频繁项集挖掘

基于PFP－Growth算法的海量频繁项集挖掘江雨燕，李平【摘要】摘要:随着互联网技术的发展，网络数据变得越来越巨大，如何从中挖掘有效信息成为人们研究的重点。近年来频繁项集挖掘由于其在关联规则挖掘、相关挖掘等任务中的相关重要作用，越来越受到人们的重视。文中针对分布式计算环境下频繁项集挖掘算法的研究，对PFP－Growth

推荐度：

点击下载文档文档为doc格式

基于PFP-Growth算法的海量频繁项集挖掘

基于PFP-Growth算法的海量频繁项集挖掘

相关推荐文档

精选图文

热门排序

推荐文章

热门标签

相关文章列表