CDALEVELⅠ考试大纲相关关系与函数关系的区别与联系相关关系的种类相关系数的意义以及利用相关系数的具体数值对现象相关等级的划分回归分析的概念回归分析的主要内容和特点建立一元线性回归方程的条件一元线性回归系数的最小二乘估计应用回归分析应注意的问题估计标准误差的意义及计算【应用】运用简捷法公式计算相关系数与回归系数相关分析分析中应注意的问题回归分析与相关分析的区别与联系?7、机器学习的基本概念【领会】机器学习的基本概念机器模型构建的一般流程交叉验证方法与参数选择模型评估方法:混淆矩阵、准确率、召回率、F值、ROC曲线【熟知】机器学习中有监督学习和无监督学习的概念和特点常见有监督学习算法:knn算法,决策树,朴素贝叶斯常见无监督学习算法:k-means算法,PCA算法【应用】有能力根据训练样本集情况来确定采用有监督还是无监督算法,在特定场景中(比如反欺诈领域)知道采用哪种方法更优。PART2SQL数据库基础
?1、SQL基础概念第6页,共13页版权所有,侵权必究CDALEVELⅠ考试大纲【领会】关系型数据库基本概念、属性主键外键E-R图ANSI-SQL以及不同的数据库实现的关系【熟知】逻辑运算符比较运算符算术运算符通配符?2、SQL查询语句【应用】select语句包括查询单列多列,去重,前N列from语句、where语句、groupby语句、having语句、orderby语句、子查询SQL聚合函数,包括count、sum、avg、max、min等?3、SQL连接语句【领会】表的连接类型,包括内连接(等值、不等值)、外连接(左、右、全)、交叉连接(笛卡尔连接)查询的集合操作,只包括并集操作【应用】innerjoin的用法left/right的用法crossjoin的用法union的用法?4、其它SQL语句【领会】第7页,共13页版权所有,侵权必究CDALEVELⅠ考试大纲表的创建视图及索引的概念及创建数据插入、更新、删除常用函数及正则表达式PART3数据采集与处理
?1、数据采集方法【领会】一手数据与二手数据来源渠道优劣势分析使用注意事项【熟知】一手数据采集中的概率抽样与非概率抽样的区别与优缺点【运用】概率抽样方法,包括简单随机抽样、分层抽样、系统抽样、分段抽样明确每种抽样的优缺点根据给定条件选择最可行的抽样方式计算简单随机抽样所需的样本量?2、市场调研【熟知】市场调研的基本步骤(提出问题、理论推演、收集材料、构建模型、归因分析)单选题及多项选择题的设置数据编码及录入?3、数据探索与可视化【领会】数据探索的目的与意义常用数据可视化工具软件(EXCELBI,SPSS,PYTHON,Tableau等其中之一)【熟知】数据探索与数据预处理之间的关系数据探索常用数据描述方法:集中趋势分析,离中趋势分析,数据分布关系,图分析第8页,共13页版权所有,侵权必究CDALEVELⅠ考试大纲数据探索常用数理统计方法:假设检验,方差检验,相关分析,回归分析,因子分析【应用】能够通过使用数据可视化工具(EXCELBI,SPSS,PYTHON,Tableau等其中之一)来完成相关数据分析项目的数据探索任务。(说明:考试中不会考核该部分工具和软件的使用方法)?4、数据预处理方法【熟知】数据预处理的基本步骤,包括数据集成(不同数据源的整合)、数据探索、数据变换(标准化)、数据归约(维度归约技术、数值归约技术),这部分内容不需要涉及计算,只需要根据需求明确可选的处理技术即可。【应用】数据清洗,包括填补遗漏的数据值(根据业务场景使用常数、中位数、众数等方法,不涉及多重查补的方法)、平滑有噪声数据(移动平均)、识别或除去异常值(单变量根据中心标准化值,多变量使用快速聚类),以及解决不一致问题(熟知概念即可),查重(只考核SQL的语句,不涉及其它语言)。PART4数据建模分析
总体要求领会模型基本原理,数值模型操作流程,懂得模型应用场景,能够完成数据建模分析报告。?1、主成分分析【领会】主成分分析的计算步骤主成分分析中对变量自身分布和多变量之间关系的假设以及模型设置【熟知】适用于主成分分析的变量度量类型。通过分析结果,选取合适的保留主成分的个数,注意区分两种不同的分析目的(尽量压缩变量、避免共线性情况下保留更多信息)保留主成分个数的评判标准的差异。【应用】在深入理解主成分的意义的基础之上,在遇到业务问题时,有能力决定是否使用主成分分析第9页,共13页版权所有,侵权必究CDALEVELⅠ考试大纲方法;有能力决定何时采用相关系数计算方法和协方差矩阵计算方法;有能力解释主成分得分的结果;根据变量分布情况进行函数转换。?2、因子分析【领会】了解因子分析模型设置,只需要关注主成分法的计算步骤【熟知】适用于因子分析的变量度量类型。通过分析结果,选取合适的因子个数;知道最常用的因子旋转的方法。【应用】在遇到业务问题时,有能力决定是否使用因子分析,还是使用主成分分析方法就可以了;有能力根据原始变量在各因子上的权重明确每个因子的意义;有能力对大量变量进行维度分析,分维度打分,并比较与专家打分(德尔菲法)的区别;在聚类前对数据进行描述,发现理想的聚类方式和数量。?3、回归分析【领会】线性回归的综合应用【熟知】明确线性回归的6个经典假设(线性模型、不存在共线性、残差期望为0(无内生性)、同方差、正态性、随机抽样)独立同分布的概念明确违反上述假设后出现的问题模型是否违反经典假设的检验方法与模型纠正的方法变量筛选方法离群值、指标计算方法明晰横截面和时间序列数据在回归建模上的差异【应用】结合业务构建回归模型并且解释回归系数根据业务场景与变量分布情况进行函数转换解释变量为分类变量时的处理方法区分预测性建模与解释性建模的关系第10页,共13页版权所有,侵权必究