吴恩达 机器学习的六个核心算法 (吴恩达机器学课程讲义)

吴恩达:机器学习的六个核心算法

最近,吴恩达在其创办的人工智能周讯《The Batch》上更新了一篇博文,总结了机器学习领域多个基础算法的历史溯源。
文章开头,吴恩达回忆他的研究历程中曾有一次抉择:
多年前,在一次项目中,选择算法时,他不得不在神经网络与决策树学习算法之间做选择。考虑到计算预算,他最终选择了神经网络,在很长的一段时间内弃用增强决策树。
这是一个错误的决定,「幸好我的团队很快修改了我的选择,项目才成功。」吴恩达谈道。
他由此感叹,不断学习与更新基础知识是十分重要的。与其他技术领域一样,随着研究人员的增加、研究成果数量的增长,机器学习领域也在不断发展。但有些基础算法与核心思想的贡献是经得起时间考验的:
在吴恩达看来,这些算法与概念是许多机器学习模型的核心思想,包括房价预测器、文本-图像生成器(如DALL·E)等。
这六种算法分别是:线性回归、逻辑回归、梯度下降、神经网络、决策树与k均值聚类算法。



线性回归:直的&窄的
线性回归是机器学习中的一个关键的统计方法,但它并非不战而胜。它由两位杰出的数学家提出,但200 年过去了,这个问题仍未解决。长期存在的争议不仅证明了该算法具有出色的实用性,还证明了它的本质十分简单。
那么线性回归到底是谁的算法呢?
1805 年,法国数学家 Adrien-Marie Legendre 发表了将一条线拟合到一组点的方法,同时试图预测彗星的位置(天体导航是当时全球商业中最有价值的科学方向,就像今天的人工智能一样)。

吴恩达:机器学习的六个核心算法

四年后,24 岁的德国神童 Carl Friedrich Gauss (高斯)坚称他自 1795 年以来一直在使用它,但认为它太琐碎了,无法写。高斯的主张促使Legendre匿名发表了一份文章,称“一位非常著名的几何学家毫不犹豫地采用了这种方法。”

吴恩达:机器学习的六个核心算法

斜率和偏差 :当结果与影响它的变量之间的关系遵循直线时,线性回归很有用。例如,汽车的油耗与其重量成线性关系。
普及的两个步骤 :该算法立即帮助航海者追踪星星,以及帮助后来的生物学家(尤其是查尔斯·达尔文的堂兄Francis Galton)识别植物和动物的可遗传特征。这两项深入发展释放了线性回归的广泛潜力。1922 年,英国统计学家 Ronald Fisher 和 Karl Pearson 展示了线性回归如何适应相关性和分布的一般统计框架,使其在所有科学中都有用。而且,近一个世纪后,计算机的出现提供了数据和处理能力,可以更大程度地利用它。
应对歧义 :当然,数据永远不会被完美地衡量,有些变量比其他变量更重要。这些生活事实激发了更复杂的变体。例如,带有正则化的线性回归(也称为「岭回归」,ridge regression)鼓励线性回归模型不要过多地依赖于任何一个变量,或者更确切地说,均匀地依赖于最重要的变量。如果为了简单起见,另一种形式的正则化(L1 而不是 L2)会产生 lasso(压缩估计),鼓励尽可能多的系数为零。换句话说,它学会选择具有高预测能力的变量并忽略其余的。弹性网络结合了这两种类型的正则化。当数据稀疏或特征看起来相关时,它很有用。
在每个神经元中 :现在,简单的版本仍然非常有用。神经网络中最常见的神经元类型是线性回归模型,随后是非线性激活函数,使线性回归成为深度学习的基本组成部分。




逻辑回归:跟随曲线
毒物控制
逻辑函数可以追溯到 1830 年代,当时比利时统计学家 P.F. Verhulst 发明它来描述人口动态:随着时间的推移,指数增长的初始爆炸随着它消耗可用资源而趋于平缓,从而产生特征逻辑曲线。一个多世纪过去后,美国统计学家 E. B. Wilson 和他的学生 Jane WorCESter 又设计了逻辑回归来计算给定有害物质有多少是致命的。

吴恩达:机器学习的六个核心算法

拟合函数 :逻辑回归将逻辑函数拟合到数据集,以便预测给定事件(例如,摄入士的宁)发生特定结果(例如,过早死亡)的概率。
更多结果 :Verhulst 的工作发现了二元结果的概率,忽略了进一步的可能性,例如中毒受害者可能会进入来世的哪一边。他的继任者扩展了算法:

吴恩达:机器学习的六个核心算法

多功能曲线 :逻辑函数以相当准确的方式描述了广泛的现象,因此逻辑回归在许多情况下提供了有用的基线预测。在医学上,它可以估计死亡率和疾病风险。在政治学中,它预测选举的赢家和输家。在经济学中,它预测商业前景。更重要的是,它在各种各样的神经网络中驱动一部分神经元(其中非线性是 Sigmoid 函数)。




梯度下降:一切都在下坡
想象一下黄昏后在山上徒步旅行,发现脚下什么都看不到。而且您的手机电池没电了,因此您无法使用 GPS 应用程序找到回家的路。您可能会通过梯度下降找到最快的路径。小心不要从悬崖上走。
太阳和地毯: 梯度下降比通过陡峭的地形下降更有利。1847年,法国数学家Augustin-Louis Cauchy发明了近似恒星轨道的算法。60 年后,他的同胞 Jacques Hadamard 独立开发了它来描述薄而灵活的物体(如地毯)的变形,这可能会使膝盖向下徒步更容易。然而,在机器学习中,它最常见的用途是找到学习算法损失函数的最低点。

吴恩达:机器学习的六个核心算法

向下爬 :经过训练的神经网络提供了一个函数,该函数在给定输入的情况下计算所需的输出。训练网络的一种方法是通过迭代计算实际输出与期望输出之间的差异,然后更改网络的参数值以缩小差异,从而将输出中的损失或误差最小化。梯度下降缩小了差异,将计算损失的函数最小化。网络的参数值相当于地形上的一个位置,损失的是当前高度。随着你的下降,你可以提高网络计算接近所需输出的能力。可见性是有限的,因为在典型的监督学习情况下,该算法仅依赖于网络的参数值和损失函数的梯度或斜率——即你在山上的位置和你脚下的斜率。
卡在山谷里 :太糟糕了,你的手机没电了,因为算法可能没有把你推到凸山的底部。你可能会陷入由多个山谷(局部最小值)、山峰(局部最大值)、鞍点(鞍点)和高原组成的非凸面景观中。事实上,图像识别、文本生成和语音识别等任务都是非凸的,并且已经出现了梯度下降的许多变体来处理这种情况。例如,该算法可能具有帮助它放大小幅上涨和下跌的动量,从而使其更有可能到达底部。研究人员设计了如此多的变体,以至于看起来优化器的数量与局部最小值一样多。幸运的是,局部最小值和全局最小值往往大致相等。
最优优化器 :梯度下降是寻找任一函数的最小值的明确选择。在可以直接计算精确解的情况下——例如,具有大量变量的线性回归任务中——它可以逼近一个值,而且通常速度更快、成本更低。但它确实在复杂的非线性任务中发挥了作用。凭借梯度下降和冒险精神,你可能可以及时赶出山区吃晚饭。




神经网络:寻找函数
让我们先把这个问题弄清楚: 大脑不是一个图形处理单元集, 如果它是的话,那它运行的软件要比典型的人工神经网络复杂得多。而神经网络的灵感来自大脑的结构:一层层相互连接的神经元,每个神经元根据其相邻状态来计算自己的输出,由此产生的一连串活动形成了一个想法——或识别出一张猫的照片。
从生物到人工 :大脑通过神经元之间相互作用来学习的想法可以追溯到 1873 年,但直到 1943 年,美国神经科学家 Warren McCulloch 和 Walter Pitts 才利用简单的数学规则建立了生物神经网络模型。1958 年,美国心理学家Frank Rosenblatt开发出感测器——这是一种在打卡机上实现的单层视觉网络,旨在为美国海军建立一个硬件版本。

吴恩达:机器学习的六个核心算法

越大越好 :Rosenblatt 的发明只能识别单线分类。之后,乌克兰数学家 Alexey Ivakhnenko 和 Valentin Lapa 通过在任意层数中堆叠神经元网络,克服了这一限制。1985 年,独立工作的法国计算机科学家 Yann LeCun、David Parker 和美国心理学家 David Rumelhart 及其同事,描述了使用反向传播来有效训练此类网络。在新千年的第一个十年中,包括 Kumar Chellapilla、Dave Steinkraus 和 Rajat Raina(与吴恩达合作)在内的研究人员通过使用图形处理单元进一步推动了神经网络的发展,这使得越来越大的神经网络能从互联网生成的海量数据中得到学习。
适合每项任务 :神经网络背后的原理很简单:对于任何任务,都有一个可执行它的函数。一个神经网络通过组合多个简单函数构成可训练函数,每个函数由单个神经元执行。一个神经元的功能由称为「权重」的可调参数决定。给定这些权重和输入示例及其所需输出的随机值,就可以反复更改权重,直到可训练的函数能完成手头的任务。
黑匣子 :虽然运气好的话,一个训练有素的网络可以完成它的任务,但最终你要阅读一个函数,往往会非常复杂——包含数千个变量和嵌套的激活函数——以至于解释网络是如何成功完成其任务也是非常困难的。此外, 一个训练有素的网络只和它所学的数据一样好。例如,如果数据集有偏差,那么网络的输出也会出现偏差。如果它只包含猫的高分辨率图片,那它对低分辨率图片的反应就不得而知了。
一个常识:在报道 Rosenblatt 于1958年发明的感测器时,《纽约时报》开辟了人工智能炒作的道路,报道中提到“美国海军期望拥有一台会走路、说话、看、写、自我复制和意识到自己存在的电子计算机雏形。” 虽然当时的感测器没有达到这个要求,但它产生了许多令人印象深刻的模型:用于图像的卷积神经网络;文本的循环神经网络;以及用于图像、文本、语音、视频、蛋白质结构等的transformers。它们已经做出了令人惊叹的事情,像下围棋时的表现超过了人类水平,在诊断X射线图像等实际任务中也接近人类水平。然而,它们在常识和逻辑推理方面的问题仍然较难应对。




决策树:从根到叶
亚里士多德是一个什么样的「野兽」?这位哲学家的追随者、第三世纪期间生活在叙利亚的 Porphyry 想出了一个合乎逻辑的方法来回答这个问题。他将亚里士多德提出的“存在类别”从一般到具体组合起来,将亚里士多德依次归入到每个分类中:亚里士多德的存在是物质的而不是概念或精神;他的身体是有生命的而不是无生命的;他的思想是理性的而不是非理性的。因此,他的分类是人类。中世纪的逻辑教师将这个序列绘制为垂直流程图:一个早期的决策树。
数字差异 :快进到 1963 年,密歇根大学社会学家John Sonquist和经济学家James Morgan在将调查的受访者分组时,首次在计算机中实行了决策树。随着自动训练算法软件的出现,这种工作变得很普遍,如今包括 scikit-learn 等在内的各种机器学习库也已经使用决策树。这套代码是由斯坦福大学和加州大学伯克利分校的四位统计学家花费了10 年时间开发的。到今天,从头开始编写决策树已经成为了《机器学习 101》中的一项家庭作业。
空中的根 :决策树可以执行分类或回归。它向下生长,从根部到树冠,将一个决策层次结构的输入示例分类为两个(或更多)。想到德国医学家和人类学家Johann Blumenbach的课题:大约在 1776 年,他首先将猴子与猿(撇开人类除外)区分开来,在此之前,猴子和猿是被归为一类的。这种分类取决于各种标准,例如是否有尾巴、胸部狭窄或宽阔、是直立还是蹲伏、还有智力的高低。使用经训练的决策树来为这类动物贴上标签,逐一考虑每个标准,最终将这两组动物分开。
进入前 10 名:鉴于 Blumenbach 的结论(后来被Charles Darwin推翻),即人类与猿的区别在于宽阔的骨盆、手和紧牙的牙齿,如果我们想扩展决策树以不仅分类猿和猴子,而是对人类进行分类,那会怎么样呢?澳大利亚计算机科学家 John Ross Quinlan 在 1986 年通过 ID3 实现了这一可能,它扩展了决策树,以支持非二元结果。2008 年, 在IEEE国际数据挖掘会议策划的数据挖掘十大算法名单中,一项命名为 C4.5 的扩展细化算法名列前茅。在一个创新猖獗的世界里,这就是持久力。
扒开树叶:决策树确实有一些缺点。 它们很容易通过增加多级别层次来过度拟合数据,以至于叶节点只包括一个例子。 更糟糕的是,它们很容易出现蝴蝶效应:更换一个例子,长出来的树就大不相同。
走进森林:美国统计学家 Leo Breiman 和新西兰统计学家 Adele Cutler 将这一特征转化为优势,于 2001 年开发了随机森林(random forest)——这是一个决策树的集合,每个决策树会处理不同的、重叠的示例选择,并对最终结果进行投票。随机森林和它的表亲XGBoost不太容易过度拟合,这有助于使它们成为最受欢迎的机器学习算法之一。这就像让亚里士多德、Porphyry、Blumenbach、Darwin、 Jane Goodall、Dian Fossey和其他 1000 位动物学家一起在房间里,确保你的分类是最好的。




K均值聚类:群体思维
如果你在聚会上与其他人站得很近,那么你们很可能有一些共同点。这就是使用 k 均值聚类将数据点分组的想法。无论是通过人类机构还是其他力量形成的群体,这个算法都会找到它们。
从爆炸到拨号音 :美国物理学家 Stuart Lloyd 是贝尔实验室标志性创新工厂和发明原子弹的曼哈顿计划的校友,他于 1957 年首次提出 k-means 聚类,以在数字信号中分配信息,但直到 1982 年才发表这个工作:

吴恩达:机器学习的六个核心算法

与此同时,美国统计学家 Edward Forgy 在 1965 年描述了一种类似的方法,导致了它的替代名称为「Lloyd-Forgy 算法」。
寻找中心 :考虑将聚类分成志同道合的工作组。给定房间中参与者的位置和要形成的组数,k-means 聚类可以将参与者分成大小大致相等的组,每个组都聚集在一个中心点或质心周围。
不同的距离 :当然,聚类对象之间的距离不需要很大。两个向量之间的任何度量都可以。例如,k-means 聚类可以根据他们的服装、职业或其他属性来划分他们,而不是根据物理距离对参加派对的人进行分组。在线商店使用它根据客户的喜好或行为来划分客户, 天文学家也可以将相同类型的星星分在一组。
数据点的力量 :这个想法产生了一些显着的变化:
n 维狂欢 :尽管如此,原始形式的算法仍然广泛有用——特别是因为作为一种无监督算法,它不需要收集昂贵的标记数据。它的使用速度也越来越快。例如,包括 scikit-learn 在内的机器学习库受益于 2002 年添加的 kd-trees,这些 kd-trees 可以非常快速地划分高维数据。
吴恩达:机器学习的六个核心算法

版权文章,未经授权禁止转载。详情见 转载须知 。

吴恩达:机器学习的六个核心算法

全局中部横幅
真石漆搅拌机

信阳升华化工科技有限公司16年专注研发生产真石漆搅拌机,为客户提供一站式解决方案,主营:立式真石漆搅拌机、干粉搅拌机、腻子粉搅拌机、卧式真石漆搅拌机等,致力于帮助客户一站式解决真石漆问题,咨询电话:19603768669.

论文投稿

万维书刊—免费投稿网、期刊大全、投稿地址大全,论文投稿发表更容易!

青岛海伦达国际贸易有限公司

青岛海伦达国际贸易有限公司是一家享有进出口经营权的股份制外贸进出口公司,专业从事进出口贸易和技术服务。主营阻燃吸声系列产品、各种装饰用布、阻燃帘幕和其它建筑声学材料等,产品出口九十多个国家和地区,主要应用于影剧院、会堂、娱乐中心、体育场所等建筑声学场所。服务内容包括各类建筑声学产品和装饰纺织品的创新、设计和产品开发,以及深化设计方面的技术咨询和安装服务等。公司具有丰富的专业产品和国际贸易经验、先进的管理水平、专业的人才队伍,能够为国内外的采购商、建筑装饰企业提供优质的产品和良好的服务。

舞台灯光

广州彩熠灯光股份有限公司

卫生公共学校

学校专业设置规范,普通中专开设有护理、药剂、口腔修复工艺、中医康复技术、中医养生保健等专业,3+3对口升学统招专科专业开设有护理、药剂、中药、医学影像技术、医学检验技术、眼视光技术、医学美容技术等。学校设施设备齐全,拥有重症监护室、基础护理实训室、健康评估室和内科、外科、妇产科、儿科、老年科等近20个专科实训基地,拥有形体室、心理咨询室、图书阅览室和多媒体教室等其础教育教学配查设施。

不丢客

不丢客-是上海大府旗下自主研发的一款销售过程管理系统,针对企业客户服务售前、售中、售后过程的各种痛点,通过过程管理、呼叫中心及运营商线路资源整合等方式,帮助企业提升企业营收、降低运营成本,为企业提供超预期的使用价值。不丢客

植草格

泰安市卓宝工程材料有限公司是一家以生产销售排水板,生态袋,植草格,泰安蓄排水板,泰安膨润土防水毯为主的企业,产品价廉物美,规格齐全,库存充足,还能够为您提供施工方案,具体详情欢迎咨询13563802701!

衡阳市蓝天环保有限公司

衡阳市蓝天环保有限公司业务范围:环境影响评价、工业污染治理、畜禽养殖污染治理,环境工程方案设计、施工、环保设施运营管理、能源沼气施工;工程咨询,可行性研究报告、第三方环境监测、检测。

陕西屹达空压机有限公司主营空压机,无油空压机,螺杆空压机,高压空压机,空压机配件,空压机维修,空压机保养,空压站设备

陕西屹达空压机有限公司主营空压机,无油空压机,螺杆空压机,高压空压机,空压机配件,空压机维修,空压机保养,空压站设备,空气后处理设备,冷干机,吸干机,过滤器等产品

安畅网络

安畅网络是专注于下一代云管理服务(Next-GenCloudMSP)的科技公司,企业在云基础架构、云安全、数据智能、云原生应用等领域拥有领先的专业技术能力和大规模最佳实践。目前,安畅已成功助力零售、地产、物流、制造、医疗健康、金融和政府等行业的3000多家企业和机构客户实现“云转型”,是数字化转型过程中可信赖的合作伙伴。

玩物派

玩物派(wanwupai.com)专业且专注的性价比产品购买指南网站,涵盖超多优秀产品排行榜,囊括手机、电脑、家电、美妆、服装、食品等大类产品榜,让您的选择物超所值,为您省钱!

65软件园

65软件园免费提供单机游戏、免费软件等下载,65软件园带给您快速和安全的下载,免费软件下载站

全局底部横幅