机器学习算法中分类知识总结! (深度学习算法)

文章编号:41937 资讯动态 2024-12-03 机器学习

机器学习算法中分类知识总结!


本文将介绍机器学习算法中非常重要的知识—分类(classification),即找一个函数判断输入数据所属的类别,可以是二类别问题(是/不是),也可以是多类别问题(在多个类别中判断输入数据具体属于哪一个类别)。与回归问题(regression)相比,分类问题的输出不再是连续值,而是离散值,用来指定其属于哪个类别。分类问题在现实中应用非常广泛,比如废品邮件识别,手写数字识别,人脸识别,语音识别等。

机器学习算法中分类知识总结!

一、指定阈值

逻辑回归返回的是概率。你可以“原样”使用返回的概率(例如,用户点击此广告的概率为 0.00023),也可以将返回的概率转换成二元值(例如,这封电子邮件是废品邮件)。

如果某个逻辑回归模型对某封电子邮件进行预测时返回的概率为 0.9995,则表示该模型预测这封邮件非常可能是废品邮件。相反,在同一个逻辑回归模型中预测分数为 0.0003 的另一封电子邮件很可能不是废品邮件。可如果某封电子邮件的预测分数为 0.6 呢?为了将逻辑回归值映射到二元类别,你必须指定分类阈值(也称为判定阈值)。如果值高于该阈值,则表示“废品邮件”;如果值低于该阈值,则表示“非废品邮件”。人们往往会认为分类阈值应始终为 0.5,但阈值取决于具体问题,因此你必须对其进行调整。

我们将在后面的部分中详细介绍可用于对分类模型的预测进行评估的指标,以及更改分类阈值对这些预测的影响。

⭐️ 注意:

“调整”逻辑回归的阈值不同于调整学习速率等超参数。在选择阈值时,需要评估你将因犯错而承担多大的后果。例如,将非废品邮件误标记为废品邮件会非常糟糕。不过,虽然将废品邮件误标记为非废品邮件会令人不快,但应该不会让你丢掉工作。

二、阳性与阴性以及正类别与负类别

在本部分,我们将定义用于评估分类模型指标的主要组成部分先。不妨,我们从一则寓言故事开始:

我们做出以下定义:

“狼来了”是正类别。

“没有狼”是负类别。

我们可以使用一个 2x2的混淆矩阵来总结我们的“狼预测”模型,该矩阵描述了所有可能出现的结果(共四种):

机器学习算法中分类知识总结!

真正例是指模型将正类别样本正确地预测为正类别。同样,真负例是指模型将负类别样本正确地预测为负类别。

假正例是指模型将负类别样本错误地预测为正类别,而假负例是指模型将正类别样本错误地预测为负类别。

在后面的部分中,我们将介绍如何使用从这四种结果中衍生出的指标来评估分类模型。

三、准确率

准确率是一个用于评估分类模型的指标。通俗来说, 准确率是指我们的模型预测正确的结果所占的比例。 正式点说,准确率的定义如下:

机器学习算法中分类知识总结!

对于二元分类,也可以根据正类别和负类别按如下方式计算准确率:

机器学习算法中分类知识总结!

其中,TP = 真正例,TN = 真负例,FP = 假正例,FN = 假负例。让我们来试着计算一下以下模型的准确率,该模型将 100 个肿瘤分为恶性 (正类别)或良性(负类别):

机器学习算法中分类知识总结!

机器学习算法中分类知识总结!

准确率为 0.91,即 91%(总共 100 个样本中有 91 个预测正确)。这表示我们的肿瘤分类器在识别恶性肿瘤方面表现得非常出色,对吧?

实际上,只要我们仔细分析一下正类别和负类别,就可以更好地了解我们模型的效果。

在 100 个肿瘤样本中,91 个为良性(90 个 TN 和 1 个 FP),9 个为恶性(1 个 TP 和 8 个 FN)。

在 91 个良性肿瘤中,该模型将 90 个正确识别为良性。这很好。不过,在 9 个恶性肿瘤中,该模型仅将 1 个正确识别为恶性。这是多么可怕的结果!9 个恶性肿瘤中有 8 个未被诊断出来!

虽然 91% 的准确率可能乍一看还不错,但如果另一个肿瘤分类器模型总是预测良性,那么这个模型使用我们的样本进行预测也会实现相同的准确率(100 个中有 91 个预测正确)。换言之,我们的模型与那些没有预测能力来区分恶性肿瘤和良性肿瘤的模型差不多。

当你使用 分类不平衡的数据集 (比如正类别标签和负类别标签的数量之间存在明显差异)时,单单准确率一项并不能反映全面情况。

在下一部分中,我们将介绍两个能够更好地评估分类不平衡问题的指标:精确率和召回率。

学习理解

在以下哪种情况下,高的准确率值表示机器学习模型表现出色?

一只造价昂贵的机器鸡每天要穿过一条交通繁忙的道路一千次。某个机器学习模型评估交通模式,预测这只鸡何时可以安全穿过街道,准确率为 99.99%。

一种致命但可治愈的疾病影响着 0.01% 的人群。某个机器学习模型使用其症状作为特征,预测这种疾病的准确率为 99.99%。

在 roulette 游戏中,一只球会落在旋转轮上,并且最终落入 38 个槽的其中一个内。某个机器学习模型可以使用视觉特征(球的旋转方式、球落下时旋转轮所在的位置、球在旋转轮上方的高度)预测球会落入哪个槽中,准确率为 4%。

四、精确率和召回率

4.1 精确率

精确率指标尝试回答以下问题:在被识别为正类别的样本中,确实为正类别的比例是多少?

精确率的定义如下:

机器学习算法中分类知识总结!

⭐️ 注意:如果模型的预测结果中没有假正例,则模型的精确率为 1.0。

让我们来计算一下上一部分中用于分析肿瘤的机器学习模型的精确率:

机器学习算法中分类知识总结!

机器学习算法中分类知识总结!

该模型的精确率为 0.5,也就是说,该模型在预测恶性肿瘤方面的正确率是 50%。

4.2 召回率

召回率尝试回答以下问题:在所有正类别样本中,被正确识别为正类别的比例是多少?

从数学上讲,召回率的定义如下:

机器学习算法中分类知识总结!

⭐️ 注意:如果模型的预测结果中没有假负例,则模型的召回率为 1.0。

让我们来计算一下肿瘤分类器的召回率:

机器学习算法中分类知识总结!

机器学习算法中分类知识总结!

该模型的召回率是 0.11,也就是说,该模型能够正确识别出所有恶性肿瘤的百分比是 11%。

4.3 精确率和召回率:一场拔河比赛

要全面评估模型的有效性,必须同时检查精确率和召回率。遗憾的是,精确率和召回率往往是此消彼长的情况。也就是说,提高精确率通常会降低召回率值,反之亦然。请观察下图来了解这一概念,该图显示了电子邮件分类模型做出的 30 项预测。分类阈值右侧的被归类为“废品邮件”,左侧的则被归类为“非废品邮件”。

机器学习算法中分类知识总结!

图 1. 将电子邮件归类为废品邮件或非废品邮件

我们根据图 1 所示的结果来计算精确率和召回率值:

机器学习算法中分类知识总结!

精确率指的是 被标记为废品邮件的电子邮件 中正确分类的电子邮件所占的百分比,即图 1 中阈值线右侧的绿点所占的百分比:

机器学习算法中分类知识总结!

召回率指的是实际废品邮件中正确分类的电子邮件所占的百分比,即图 1 中阈值线右侧的绿点所占的百分比:

机器学习算法中分类知识总结!

图 2 显示了提高分类阈值产生的效果。

机器学习算法中分类知识总结!

假正例数量会减少,但假负例数量会相应地增加。结果,精确率有所提高,而召回率则有所降低:

机器学习算法中分类知识总结!

机器学习算法中分类知识总结!

相反,图 3 显示了降低分类阈值(从图 1 中的初始位置开始)产生的效果。

机器学习算法中分类知识总结!

假正例数量会增加,而假负例数量会减少。结果这一次,精确率有所降低,而召回率则有所提高:

机器学习算法中分类知识总结!

机器学习算法中分类知识总结!

我们已根据精确率和召回率指标制定了各种指标。有关示例,请参阅 F1 值。

学习理解

让我们以一种将电子邮件分为“废品邮件”或“非废品邮件”这两种类别的分类模型为例。如果提高分类阈值,精确率会怎样?

让我们以一种将电子邮件分为“废品邮件”或“非废品邮件”这两种类别的分类模型为例。如果提高分类阈值,召回率会怎样?

以两个模型(A 和 B)为例,这两个模型分别对同一数据集进行评估。以下哪一项陈述属实?

五、ROC 和 AUC

5.1 ROC 曲线

ROC 曲线(接收者操作特征曲线)是一种显示分类模型在所有分类阈值下的效果图表。该曲线绘制了以下两个参数:

真正例率 (TPR) 是召回率的同义词,因此定义如下:

机器学习算法中分类知识总结!

假正例率 (FPR) 的定义如下:

机器学习算法中分类知识总结!

ROC 曲线用于绘制采用不同分类阈值时的 TPR 与 FPR。降低分类阈值会导致将更多样本归为正类别,从而增加假正例和真正例的个数。下图显示了一个典型的 ROC 曲线。

机器学习算法中分类知识总结!

图 4. 不同分类阈值下的 TP 率与 FP 率

为了计算 ROC 曲线上的点,我们可以使用不同的分类阈值多次评估逻辑回归模型,但这样做效率非常低。幸运的是,有一种基于排序的高效算法可以为我们提供此类信息,这种算法称为曲线下面积。

5.2 曲线下面积:ROC 曲线下面积

曲线下面积 表示“ROC 曲线下面积”。也就是说,曲线下面积测量的是从 (0,0) 到 (1,1) 之间整个 ROC 曲线以下的整个二维面积(参考积分学)。

机器学习算法中分类知识总结!

图 5. 曲线下面积(ROC 曲线下面积)

曲线下面积对所有可能的分类阈值的效果进行综合衡量。曲线下面积的一种解读方式是看作模型将某个随机正类别样本排列在某个随机负类别样本之上的概率。以下面的样本为例,逻辑回归预测从左到右以升序排列:

机器学习算法中分类知识总结!

图 6. 预测按逻辑回归分数以升序排列

曲线下面积表示随机正类别(绿色)样本位于随机负类别(红色)样本右侧的概率。

曲线下面积的取值范围为 0-1。预测结果 100% 错误的模型的曲线下面积为 0.0;而预测结果 100% 正确的模型的曲线下面积为 1.0。

曲线下面积因以下两个原因而比较实用:

不过,这两个原因都有各自的局限性,这可能会导致曲线下面积在某些用例中不太实用:

学习理解

以下哪条 ROC 曲线可产生大于 0.5 的 AUC 值?

机器学习算法中分类知识总结!

机器学习算法中分类知识总结!

机器学习算法中分类知识总结!

机器学习算法中分类知识总结!

机器学习算法中分类知识总结!

将给定模型的所有预测结果都乘以 2.0(例如,如果模型预测的结果为 0.4,我们将其乘以 2.0 得到 0.8),会使按 AUC 衡量的模型效果产生何种变化?

这会使 AUC 变得更好,因为预测值之间相差都很大。没有变化。AUC 只关注相对预测分数。这会使 AUC 变得很糟糕,因为预测值现在相差太大。

六、预测偏差

逻辑回归预测应当无偏差。即:

机器学习算法中分类知识总结!

预测偏差指的是这两个平均值之间的差值。即:

预测偏差=预测平均值−数据集中相应标签的平均值

⭐️ 注意:“预测偏差”与偏差(“wx + b”中的“b”)不是一回事。

如果出现非常高的非零预测偏差,则说明模型某处存在错误,因为这表明模型对正类别标签的出现频率预测有误。

例如,假设我们知道,所有电子邮件中平均有 1% 的邮件是废品邮件。如果我们对某一封给定电子邮件一无所知,则预测它是废品邮件的可能性为 1%。同样,一个出色的废品邮件模型应该预测到电子邮件平均有 1% 的可能性是废品邮件。(换言之,如果我们计算单个电子邮件是废品邮件的预测可能性的平均值,则结果应该是 1%。)然而,如果该模型预测电子邮件是废品邮件的平均可能性为 20%,那么我们可以得出结论,该模型出现了预测偏差。

造成预测偏差的可能原因包括:

你可能会通过对学习模型进行后期处理来纠正预测偏差,即通过添加校准层来调整模型的输出,从而减小预测偏差。例如,如果你的模型存在 3% 以上的偏差,则可以添加一个校准层,将平均预测偏差降低 3%。但是,添加校准层并非良策,具体原因如下:

如果可能的话,请避免添加校准层。使用校准层的项目往往会对其产生依赖

最终,维护校准层可能会令人苦不堪言。

⭐️ 注意:出色模型的偏差通常接近于零。即便如此,预测偏差低并不能证明你的模型比较出色。特别糟糕的模型的预测偏差也有可能为零。例如,只能预测所有样本平均值的模型是糟糕的模型,尽管其预测偏差为零。

七、分桶偏差和预测偏差

逻辑回归可预测 0 到 1 之间的值。不过,所有带标签样本都正好是 0(例如,0 表示“非废品邮件”)或 1(例如,1 表示“废品邮件”)。因此,在检查预测偏差时,你无法仅根据一个样本准确地确定预测偏差;你必须在“一大桶”样本中检查预测偏差。也就是说,只有将足够的样本组合在一起以便能够比较预测值(例如 0.392)与观察值(例如 0.394),逻辑回归的预测偏差才有意义。

你可以通过以下方式构建桶:

请查看以下某个特定模型的校准曲线。每个点表示包含 1000 个值的分桶。两个轴具有以下含义:

两个轴均采用对数尺度。

机器学习算法中分类知识总结!

为什么只有模型的某些部分所做的预测如此糟糕?以下是几种可能性:

版权文章,未经授权禁止转载。详情见 转载须知 。

机器学习算法中分类知识总结!

全局中部横幅
网商银行

浙江网商银行是经中国银监会批准设立的股份制商业银行,纯互联网运营,于2015年6月25日正式开业。网商银行以服务小微企业、支持实体经济、践行普惠金融为使命,希望做互联网银行的探索者和普惠金融的实践者,为小微企业、个人创业者提供高效、便捷的金融服务。

九维网

网页游戏的领航者九维网是从事开发和运营网页游戏的游戏平台,连续多年被评为最佳网页游戏运营商,为广大网友提供武林英雄,小李飞刀,天策,武林三国,武林足球经理2,武林足球经理,商业大亨,德州扑克,卧龙吟,神仙道,明朝时代等多款最新最好的网页游戏产品。

bob电子·(中国)公司官方网站

知板网创意设计党建文化宣传展板模板和海量样式的企业文化墙,主题涵盖廉洁文化展板、学校节日宣传展示、全会精神展板、社区普法活动,欢迎部队、学校、建筑企业等用户到知板网下载优质素材资源

医疗行业钣金

佛山市艾锐达精密钣金有限公司是一个专业的钣金加工公司,主要从事医疗行业钣金、控制箱钣金、充电桩钣金、精密钣金等各行业设备钣金的生产加工。公司从市场规模、产品结构、产品技术性能以及综合的经营管理体系等方面,逐步形成了一个集产品开发、设计、制造、教育培训售后服务为一体并具备营销网络的大型公司。艾锐达(AIRUIDA)公司位于广东佛山三水,其生产钣金加工场地充足,机械的品种多,涉及到医疗行业钣金、控制箱钣金、充电桩钣金等等,且生产的设备钣金产品性能优越,技术先进,是钣金加工行业的专业服务商。

赚钱网

赚钱网建立于2004年,是一家老牌赚钱资讯网站。网上怎么赚钱一直是每个网站站长和网民最关心的内容,网络赚钱充满了诱惑、欺诈和不良因素,需要谨慎选择。网站怎样赚钱?做什么最赚钱?一切赚钱资讯尽在赚钱网!

RCC
RCC

RCCChina(瑞达恒)在北京、上海、广州、天津、重庆、武汉、南京、杭州和西安等地设有十个公司,主要业务包括建筑和工业工程信息的收集和发布、市场调研服务及会议服务,是中国领建筑行业领先的专业信息咨询公司。

PVC热缩管/PVC热收缩套管/PVC热缩套/.PVC热收缩管

南通市捷华热收缩材料有限公司专业生产各种通过sgs认证符合欧盟RoHs指令的环保热缩管/PVC热缩套管/PET热收缩管/PE热收缩套管。公司产品市场覆盖面日益扩大到美国、澳大利亚、东南亚等各国,热忱欢迎海内外客商前来洽谈业务。PVC热缩管/PVC热收缩套管/PVC热缩套管/PVC热收缩管

首页

法书网创办初衷,为法律需求者、法律问题疑惑者提供更加全面细致的法律知识,让您在遇到问题时学会利用法律武器维护自身权益。

汽车维修电路图

汽修手册网(qixiushouce.com)是一个在线维修手册及电路图资料查询平台,上千个车型详细汽车维修资料库,受到专业汽车维修技术人员的一致好评,找汽车维修手册资料就上汽修手册网。

全局底部横幅