1 模型评估
我们在建立模型之后,接下来就要去评估模型,确定这个模型是
否有用。
在实际情况中,我们会用不同的度量去评估我们的模型,而度量
的选择取决于模型的类型和模型以后要做的事。
1.1 二分类评估
二分类模型的评估。
1.1.1 业界标准叫法
二分类评估;分类算法。
1.1.2 应用场景
信息检索、分类、识别、翻译体系中。
1.1.2.1 新闻质量分类评估
对于新闻APP,其通过各种来源获得的新闻,质量通常良莠不齐。
为了提升用户体验,通常需要构建一个分类器模型分类低质新闻和优质新闻,进而进行分类器的评估。
1.1.2.2 垃圾短信分类评估
垃圾短信已经日益成为困扰运营商和手机用户的难题,严重影响
人们的生活、侵害到运营商的社会公众形象。
构建二分类器模型对垃圾短信和正常短信进行分类,并进行二分
类评估。
1.1.3 原理
1.1.3.1 混淆矩阵
混淆矩阵(Confusion Matrix)。来源于信息论,在机器学习、人工
智能领域,混淆矩阵又称为可能性表格或错误矩阵,是一种矩阵呈现的可视化工具,用于有监督学习,在无监督学习中一般叫匹配矩阵。
混淆矩阵是一个N*N的矩阵,N为分类(目标值)的个数,假如
我们面对的是一个二分类模型问题,即N=2,就得到一个2*2的矩阵,它就是一个二分类评估问题。
混淆矩阵的每一列代表预测类别,每一列的总数表示预测为该类
别的数据的数目,每一行代表了数据的真实归属类别,每一行的数据
总数表示该类别的实例的数目。
图1 2*2混淆矩阵图
阳性(P,Positive): 阴性(N,Negative):
真阳性(TP,True Positive):正确的肯定,又称“命中”(Hit);被模型预测为正类的正样本。
真阴性(TN,True Negative):正确的否定,又称“正确拒绝”(correct rejection),被模型预测为负类的负样本。
伪阳性(FP,false Positive):错误的肯定,又称“假警报”(false alarm);被模型预测为负类的正样本。
伪阴性(FN,false Negative):错误的否定,又称“未命中”(miss);被模型预测为正类的负样本。
灵敏度(Sensitivity)或真阳性率(TPR,Ture Negative Rate):又称“召回率”(recall)、命中率(Hit Rate)。在阳性值中实际被预测正确所占的比例。TPR=TP/P=TP/(TP+FN)