徽商期货研究所 程序化部
张 龙 量化分析师 从业资格号:F3047985 邮箱:840671808@qq.com
数据建模中分类与预测模型
成文日期:2024/8/27
摘要:
随着计算机技术的兴起,当前社会已经进入大数据信息时代。资本市场随着投资者的不断涌入以及金融科技的不断发展,交易时所涉及到的信息也逐渐繁杂。如果还是利用过往的分析模式,个人的力量就显得愈加薄弱。因此,利用量化平台对多元化的数据进行提取,按照自身的分析模式搭建合理化的分析框架,自动化的得到针对基本面、技术面的分析结果的分析方法也开始逐渐火热起来,这个结果根据需求既可以是定量的,也可以是定性的,目前这种量化建模的方式也已经在众多私募、券商等中应用已久,但是对于大多数个体投资者而言,还是一个十分陌生的领域。 因此,本文基于上期数据预处理部分之后,介绍如何在清洗过后的数据基础之上建立分类与预测模型,为此种模型的构建方法进行简单介绍,辅助投资者对自身分析逻辑中的分析框架进行量化分析,方便其多元化的交易分析。
一、分类与预测的介绍
数据建模中分类与预测模型主要是寻求合适的分类模型并在此基础之上进行未来
预测。分类主要是预测分类标号(离散属性),通俗点而言就像在基本面分析中判定哪些是未来影响价格的因素,比如产量、季节因素、下游产品价格等,这些因素除了其自身属性的不同外还应该具备在同级影响因素中具备较低的相关性,也就是最终分类的因素都会对价格进行影响,但是彼此之间的影响相对较小。而预测主要就是建立连续值函数模型,预测给定自变量对应的因变量的值。
二、分析与预测模型的实现过程
1.分类
分类是构造一个分类模型,输入样本的属性值,输出对应的类别,将每个样本映射到先定义好的类别。
分类模型建立在已有类标记的数据集上,模型在已有样本上的准确率可以方便地计算,所以分类属于有监督的学习。
2.预测
预测是指建立两种或两种以上变量间相互依赖的函数模型,然后进行预测或控制。
3.实现过程
分类算法有两步过程:第一步是学习步,通过归纳分析训练样本集来建立分类模型得到分类规则;第二步是分类步,先用已知的测试样本集评估分类规则的准确率,如果准确率是可以接受的,则使用该模型对未知类标号的待测样本集进行预测。
预测模型的实现也有两步,第一步是通过训练集建立预测属性(数值型的)的函数模型,第二步在模型通过检验后进行预测或控制。
三、常用的分类与预测算法
常见的分类与预测算法如表1所示。由于对于新入学者而言,掌握人工神经网络、
贝叶斯网络、支持向量机三种模型所要求的数理统计算法难度较高,牵扯到的数理知识也较为复杂,因此本文后面在介绍分类模型时主要介绍回归分析与决策树。
表1:主要分类与预测算法简介
算法名称 算法描述 回归分析是确定预测属性(数值型)与其他变量间相互依赖的定量回归分析 关系最常用的统计学方法,包括线性回归、非线性回归、Logistic回归、岭回归、主成分回归、偏最小二乘回归等模型。 决策树采用自顶向下的递归方式,在内部节点进行属性值的比较,并根据不同的属性值从该节点向下分支,最终得到的叶节点是学习划分的类 人工神经网络是一种模拟大脑神经网络结构和功能而建立的信息处理系统,表示神经网络的输入与输出变量之间关系的模型。 贝叶斯网络又称信度网络,是Bayes方法的扩展,是目前不确定知识表达和推理领域最有效的理论模型之一。 支持向量机是一种通过某种非线性映射,把低维的非线性可分转化为高维的线性可分,在高维空间进行线性分析的算法。 决策树 人工神经网络 贝叶斯网络 支持向量机 数据来源:徽商期货研究所
四、回归分析
回归分析是通过建立模型来研究变量之间相互关系的密切程度、结构状态及进行模型预测的一种有效工具,在工商管理、经济、社会、医学和生物学等领域应用十分广泛。从19世纪初高斯提出最小二乘估计起,回归分析的历史已有200多年。从经典的回归分析方法到近代的回归分析方法,按照研究方法划分,回归分析研究的范围大致如表2所示。
表2:回归分析研究的进展