(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 CN 110175700 A(43)申请公布日 2019.08.27
(21)申请号 201910349379.X(22)申请日 2019.04.28
(71)申请人 南京邮电大学
地址 210003 江苏省南京市新模范马路66
号(72)发明人 夏正新
(74)专利代理机构 南京苏科专利代理有限责任
公司 32102
代理人 姚姣阳(51)Int.Cl.
G06Q 10/04(2012.01)G06K 9/62(2006.01)G06Q 50/20(2012.01)
权利要求书2页 说明书6页 附图3页
(54)发明名称
基于加权深度森林的成人学位英语等级预测方法(57)摘要
本发明提供了一种基于加权深度森林的成人学位英语等级预测方法,其包括如下步骤:数据采集,从大学网络教育数据库提取已有学位英语成绩的本科学生的相关数据;数据预处理,去除异常无效的数据后作为训练样本集和测试样本集;构建深度森林,输入训练样本集及测试样本集;使用训练样本集训练子树,得到当前子树的类概率向量;根据样本间隔及样本多样性来构建每一级森林中每棵子树的权重,再对各个子树的预测概率向量进行加权求和,找出整个森林的预测结果,从而提高成人学位英语等级的预测准确率。
CN 110175700 ACN 110175700 A
权 利 要 求 书
1/2页
1.一种基于加权深度森林的成人学位英语等级预测方法,其特征在于,包括如下步骤:步骤1:数据采集,从大学网络教育数据库提取已有学位英语成绩的本科学生的相关数据;
步骤2:数据预处理,去除异常无效的数据后作为训练样本集和测试样本集;步骤3:构建深度森林,输入训练样本集及测试样本集,所述深度森林包括多粒度扫描与级联森林;所述多粒度扫描可通过获取多个特征子集产生相应类向量,所述类向量被拼接到原始的样本的特征空间里,作为后面级联森林的输入特征;所述级联森林包括随机森林和完全随机树森林,森林之间通过层级方式形成级联结构,所述训练样本集用于训练所述深度森林,所述测试样本集用于评估所述深度森林;
步骤4:使用训练样本集训练子树,得到当前子树的类概率向量;步骤5:根据样本间隔及样本多样性来构建每一级森林中每棵子树的权重,再对各个子树的类概率向量进行加权求和,从而找出整个森林的预测结果。
2.根据权利要求1所述的基于加权深度森林的成人学位英语等级预测方法,其特征在于:所述步骤3还包括判断当训练样本集是否为高维数据集,是则进行多粒度扫描,不是则进行下一步骤。
3.根据权利要求1所述的基于加权深度森林的成人学位英语等级预测方法,其特征在于:所述子树的权重根据样本的最小绝对间隔和样本被正确分类的分类器个数来构建。
4.根据权利要求1所述的基于加权深度森林的成人学位英语等级预测方法,其特征在于:所述步骤5具体包括:
步骤5-1:计算当前子树的权重;步骤5-2:根据各个子树的权重更新森林对每个样本所输出的类概率向量;步骤5-3:对预测结果进行评估,如果是中间级,这些被更新的类概率向量会与原始样本空间向量拼接作为下一级的输入;如果是输出级,这些被更新的类概率向量会作为决策使用。
5.根据权利要求1所述的基于加权深度森林的成人学位英语等级预测方法,其特征在于:给定一个包含M棵子树的森林F和其中任意一个决策树T;在数据集D={(xi,yi)|i=1,2,...,N)}上,所述子树的权重通过以下方法获得:
其中α∈[0,1]表示平衡因子,I(·)表示指示函数,函数fm(xi),fd(xi)分别表示样本分类间隔和分类器多样性。
6.根据权利要求5所述的基于加权深度森林的成人学位英语等级预测方法,其特征在于:函数fm(xi),fd(xi)通过以下方法获得:
2
CN110175700A基于加权深度森林的成人学位英语等级预测方法[专利]



