好文档 - 专业文书写作范文服务资料分享网站

多段支持度数据挖掘算法研究

天下 分享 时间: 加入收藏 我要投稿 点赞

多段支持度数据挖掘算法研究

李雄飞;苑森淼;董立岩;全勃

【期刊名称】《计算机学报》 【年(卷),期】2001(024)006

【摘要】在基于相联规则的数据挖掘算法中,Apriori等算法最为著名.它分为两个主要步骤:(1)通过多趟扫描数据库求解出频繁项集;(2)利用频繁项集生成规则.随后的许多算法都沿用Apriori中“频繁项集的子集必为频繁项集”的思想,在频繁项集Lk-1上进行JOIN运算构成潜在k项集Ck.由于数据库和Ck的规模较大,需要相当大的计算量才能生成频繁项集.AprioriTid算法给每个事务增加了一个唯一标识Tid,其特点是只扫描一趟数据库,其余趟扫描(如第k趟扫描)均在相应的数据集Ck上进行.由于数据规模改变不大,各算法的效率差别并不明显.该文提出分段计算支持度的思想,是把一个项集的支持度分段计算,每一个段记录该项集在相应规模事务中出现的频度,从而构成一个支持度向量.由于有了项集的多段支持度,可以推测出该项集能否包含在更大规模的频繁项集中,采用这种算法既提高了在扫描数据库过程中的信息获取率,又能及时剔除超集不是频繁项集的项集,进一步缩减了潜在项集的规模.在数据集扫描过程中,按文中定理1的思想调整数据集,达到提高频繁项集生成效率的目的.%Among the studies of KDD, R.Agrawal had presented a theory of association rules based on the basket data, which is the famous algorithm Apriori for data mining. The algorithm is executed in two steps, the large itemsets are generated at first and the set of rules generated afterwards. The algorithms presented by others thereafter

多段支持度数据挖掘算法研究

多段支持度数据挖掘算法研究李雄飞;苑森淼;董立岩;全勃【期刊名称】《计算机学报》【年(卷),期】2001(024)006【摘要】在基于相联规则的数据挖掘算法中,Apriori等算法最为著名.它分为两个主要步骤:(1)通过多趟扫描数据库求解出频繁项集;(2)利用频繁项集生成规则.随后的许多算法都沿用Apriori中“频繁项集的子集
推荐度:
点击下载文档文档为doc格式
3ybcq3988e6tck19hpxv8jj329nz7x003ng
领取福利

微信扫码领取福利

微信扫码分享