v1.0 可编辑可修改 支持度≥最小支持度,则该候选项集合为频繁项集;
(3)在Apriori算法的过程中,首先由数据库读入所有的事务数据,得出候选1_项集合C1及相应的支持度数据,通过将每个1_项集合的支持度与最小支持度比较,得出频繁1_项集合L1,然后将这些频繁1_项集两两进行连接,产生候选2_项集合C2;
(4)然后再次扫描数据库得到候选2_项集合C2的支持度,将2_项集的支持度与最小支持度比较,确定频繁2_项集L2,类似地,利用这些频繁2_项集产生候选3_项集和确定频繁3_项集,以此类推;
(5)反复扫描数据库与最小支持度比较,产生更高项的频繁项集合,再结合产生下一级候选项集,直到不再结合产生出新的候选项集为止。
例2:假定最小支持度是2,最小置信度为50%,求大项集。
11
v1.0 可编辑可修改
第十讲 分类
1 熵(Entropy):针对一个给定的属性(可预测属性)找出一个数学公式,来度量数据集的纯度。
2 ID3算法构建决策树 Step1:建立相关性计数表
Step2:选择一个属性,然后在根层次进行拆分。
12
v1.0 可编辑可修改
例:
3 从树中生成分类规则
– 用 IF-THEN 这种形式来表示规则 – 对从根到叶节点的每条路径创建一条规则 – 沿着一条路径的每个属性值对构成“并”连接 – 叶子节点中的类别就是所预测的类 – 规则更容易被人们理解 4 决策树相关问题 – 理想的决策树有三种
13
v1.0 可编辑可修改 (1)叶子结点数最少;? (2)叶子结点深度最小;? (3)叶子结点数最少且叶子结点深度最小。 – 分类模型的误差分为
? 训练误差(Training Error):是在训练记录上误分类样本比例; ? 泛化误差(Generalization Error):模型在未知记录上的期望误差。
– 一个好的模型不仅要能够很好地拟合训练数据,而且对未知样本也要能够准确地分类。 – 一个好的分类模型必须具有低的训练误差和泛化误差。一个具有低训练误差的模型,其泛化误差可能比具有较高训练误差的模型高。(训练误差低,泛化误差高,称为过渡拟合) – 模型过渡拟合的潜在因素:
(1)噪声导致的过渡拟合:错误的类别值/类标签,属性值等。 (2)缺乏代表性样本所导致的过渡拟合:根据少量训练记录作出的分类
决策模型容易受过渡拟合的影响。由于训练样本缺乏代表性的样本,在没有多少训练记录的情况下,学习算法仍然继续细化模型就会导致过渡拟合。 第十一讲 聚类分析 1 聚类分析的特征
– 适用于没有先验知识的分类。– 可以处理多个变量决定的分类。 – 聚类分析法是一种探索性分析方法,能够分析事物的内在特点和规律,并根据相似性原则对事物进行分组,是数据挖掘中常用的一种技术。 1 数据矩阵与相异度矩阵的比较
3 层次方法(系统聚类法)
– 层次方法就是通过分解所给定的数据对象集来创建一个层次。分为自下而上(凝聚)14
v1.0 可编辑可修改 和自上而下(分裂)两种类型。
? 自下而上的层次方法从每个对象均为一个(单独的)组开始;逐步将这些(对象)组进行合并,直到组合并在层次顶端或满足终止条件为止。
? 自上而下层次方法从所有均属于一个组开始;每一次循环将其(组)分解为更小的组;直到每个对象构成一组或满足终止条件为止。
– 缺陷:合并或分类的步骤不能撤销。
最小距离:又为单链接,是基于来自两个簇中的节点之间的最小距离来衡量两个簇的相似性。合并最小距离最小的两个簇。
15