百度是不是只有在自己的网站发布才会被收录,软文营销软文推广,中小企业名录查询官网入口,做外贸生意上哪个网站什么是泛化能力#xff1f;
通常我们用泛化能力来评判一个模型的好坏#xff0c;通俗的说#xff0c;泛化能力是指一个机器学期算法对新样本#xff08;即模型没有见过的样本#xff09;的举一反三的能力#xff0c;也就是学以致用的能力。
举个例子#xff0c;高三的…什么是泛化能力
通常我们用泛化能力来评判一个模型的好坏通俗的说泛化能力是指一个机器学期算法对新样本即模型没有见过的样本的举一反三的能力也就是学以致用的能力。
举个例子高三的学生在高考前大量的刷各种习题像五年高考三年模拟、三年高考五年模拟之类的目的就是为了在高考时拿到一个好的分数高考的题目就是新题一般谁也没做过平时的刷题就是为了掌握试题的规律能够举一反三、学以致用这样面对新的题目也能从容应对。这种规律的掌握便是泛化能力有的同学很聪明考上名校很大程度上是该同学的泛化能力好。
在机器学习中对于分类和回归两类监督学习分别有各自的评判标准这里我们讨论常用于分类任务的性能度量标准——AUC 和 ROC。 几个重要概念混淆矩阵、准确率、精准率和召回率
1. 混淆矩阵
假设我们建立的是二分类模型将实际类别和预测类别进行两两组合就形成了混淆矩阵。
真实情况预测结果正例反例正例TP真正例FN假反例反例FP假正例TN真反例
接下来的性能度量指标都是由混淆矩阵的各个元素计算得来。
2. 准确率 准确率 T P T N T P T N F P F N 准确率\frac{TPTN}{TPTNFPFN} 准确率TPTNFPFNTPTN
在样本均衡的情况下准确率是一个适用的性能度量指标但是在样本不平衡的情况下并不能很好的衡量结果。例如在信用风险评估中正样本为 90%负样本发生违约的样本为 10%样本严重失衡在这种情况下即使我们全部将样本预测为正样本正确率也会达到 90%的高准确率。这也说明了在样本失衡相对严重的情况下即使准确率很高结果也会有很大的水份准确率指标会失效。
3. 查准率
查准率Precision又叫精准率是指在所有被预测为正的样本中实际为正的样本的概率即在预测为正的样本中我们有多少把握可以预测正确 查准率 T P T P F P 查准率\frac{TP}{TPFP} 查准率TPFPTP
查准率和准确率的区别在于查准率代表对正样本结果中的预测精度而准确率则代表整体的预测准确程度既包括正样本也包括负样本。
4. 召回率
召回率Recall又叫查全率指在实际为正的样本中被预测为正样本的概率。应用场景在网贷信用风险评估中相对好用户我们更关心坏用户不能错放任何一个坏用户因为如果我们过多的将坏用户当成好用户这样后续可能发生的违约金额会远超过好用户偿还的借贷利息金额造成严重亏损。召回率越高表示实际坏用户被预测出来的概率越高即“宁可错杀一千绝不放过一个。” 精准率 T P / ( T P F N ) 精准率TP/(TPFN) 精准率TP/(TPFN)
一般来说查准率和召回率是一对矛盾的度量。查准率高时查全率往往偏低而查全率高时查准率往往偏低。 例如若希望将好瓜尽可能多地选出来则可通过增加选瓜的数量来实现如果将所有西瓜都选上那么所有的好瓜也必然都被选上了但这样查准率就会较低若希望选出的瓜中好瓜比率尽可能高则可只挑选最有把握的瓜但这样就难免会漏掉不少好瓜使得查全率较低通常只有在一些简单的任务中才可能使查全率和查准率都很高。
如果想要在两者之间找到一个平衡点通常会使用 F1 分数它同时考虑了查准率和查全率让二者同时达到最高取一个平衡。 F 1 2 × 查准率 × 召回率 ( 查准率 召回率 ) F1\frac{2 \times 查准率 \times 召回率}{(查准率召回率)} F1(查准率召回率)2×查准率×召回率 ROC和AUC
1. 真正率和假正率
ROC 和 AUC 可以在无视样本不平衡的情况下进行性能度量关键在于两个指标真正率TPR和假正率FPR其中真正率也叫灵敏度Sensitivity假正率则为 1-特异度Specifucity。 真正率 ( T P R ) 灵敏度 T P T P F N 真正率(TPR)灵敏度\frac{TP}{TPFN} 真正率(TPR)灵敏度TPFNTP 假正率 ( F R P ) 1 − 特异度 F P F P T N 假正率(FRP)1-特异度\frac{FP}{FPTN} 假正率(FRP)1−特异度FPTNFP
可以发现 TPR 和 FPR 分别是基于真实情况 1 和 0 出发的即分别在真实情况下的正样本和负样本中来观察相关概率问题正因为如此所以无论样本是否平衡都不会被影响。在之前的信用评估例子中90% 为正样本10% 为负样本我们知道用准确率衡量结果是有水份的但是用 TPR 和 FPR 不一样这里TPR 只关注 90% 正样本中有多少是真正被覆盖的而与剩余 10% 无关同理FPR 只关注 10% 负样本中有多少是被错误覆盖的也与其他 90% 毫无关系所以可以看出如果我们从实际表现的各个结果角度出发就可以避免样本不平衡的问题了这也是为什么选用 TPR 和 FPR 作为 ROC/AUC 指标的原因。
2. ROC-接受者操作特征曲线 ROC(Receiver Operating Characteristic)曲线又称接受者操作特征曲线最早应用于雷达信号检测领域用于区分信号和噪声。后来人们将其用于评价模型的预测能力ROC 曲线是基于混淆矩阵得出的。 ROC曲线中横坐标为假正率(FPR)纵坐标为真正率(TPR)是通过遍历所有阈值来绘制整条曲线的当我们不断的遍历所有阈值预测的正样本和负样本是不断变化相应的在 ROC 曲线图中就会沿着曲线滑动。 改变阈值只是不断的改变正负样本数即 TPR 和 FPR但是曲线本身是不会改变的。那如何通过 ROC 来判断一个模型的好坏呢我们知道 FRP 表示模型虚报的响应程度TPR 表示模型预测响应的覆盖程度一个好的模型虚报的越少越好覆盖的越多越好这就等价于 TPR 越高同时 FPR 越低即 ROC 曲线越陡时模型的性能就越好。 之前已经讨论了 ROC 曲线为什么可以无视样本的不平衡这里通过动图进行演示可以发现无论红蓝样本比率如何改变ROC 曲线都没有影响。 3. AUC-曲线下面积
AUC 是一种基于排序的高效算法取值越大代表模型的预测效果越好其一般判断标准为
0.50.7效果较低0.70.85效果一般0.850.95效果很好0.951效果非常好但很可能是过拟合导致的
sklean 的 metrics 对 ROC 和 AUC 的计算进行了实现。