机器学习算法实践 K均值聚类的实用技巧 (机器学习)

文章编号:36897 资讯动态 2024-11-30 聚类分析K均值无监督学习

机器学习算法实践 K均值聚类的实用技巧

编者按:本文作者为美国数据分析专家 Bilal Mahmood,他是用户数据分析平台 Bolt 的创始人之一。在本文中,他详细介绍了一种称为 K-Means Clustering(k均值聚类)的算法,其中包括如何衡量算法效果,以及如何确定你需要生成的数据段集数量。雷锋网编译整理,更多AI开发技术文章,关注AI研习社(微信号:okweiwu)。

Bilal Mahmood:我们最常做的分析之一,便是在数据中提取模式。 比方说,某公司的客户可被划分入哪些细分市场? 我们如何在用户网络中找到特定群体的聚类?

通过机器学习的方式,我们可以得到这些问题的答案。 即使当我们不知道需要查找哪些特定数据段,亦或我们的数据格式是非结构化数据,我们都可以有这么一种技术手段,在算法上,分析出数据中合理的数据模式,合适的数据段和分类结果。

在本文中,我们将会详细介绍一种算法,K-Means Clustering(K均值聚类),包括如何衡量其效果,以及如何确定我们要生成的数据段集数量。

监督VS无监督学习

机器学习算法实践 K均值聚类的实用技巧

在数据分类领域里,有两种有效的机器学习方式。

通过监督学习,如果你搞清楚哪些输入能映射到哪些离散数据段,便可以对结果的分类做预测。 但在许多情况下,实际上不会有这些预定义好的标签,而只有非结构化数据——根本没有定义好的数据段。这时,您可能就需要借助无监督学习,从未标记的数据中推理出目标数据段。

为了更清楚一些,我们以分类T恤尺寸为例

如果我们拿到如图1A所示数据集,我们将有一组宽度(X1)和长度(X2)的输入,以及他们对应的T恤衫尺寸(S(蓝色)L(绿色)) 。 在这种情况下,我们就可以通过监督学习的技术,如逻辑回归,来绘制一个明确的决策边界,并分离出各类T恤。

但如果我们得到一个如图1B所示的数据集,我们得到一组宽度(X1)和长度(X2)的输入,但没有对应的T恤衫尺寸标签。 在这种情况下,我们就需要使用K均值聚类等无监督式学习技术,来找到相似的T恤衫,并将它们聚集到小(蓝色圆圈)和大(绿色圆圈)的各个类中。

现实世界的许多应用中,你将面临如图2A所示的情况,因此搞明白如何从非结构化的数据中提取出结构,会有很大的用处。

K均值聚类 机器学习算法实践 K均值聚类的实用技巧

K均值聚类给无监督机器学习提供了一个非常直观的应用,在非结构化的数据中归纳出结构,

K均值聚类,正如其名,会将您的数据中相似的观察结果,分配到同组簇中。 它包括4个简单重复的步骤,迭代地评估对每个观察值有最近(平均)距离的簇。 因此,如果一组观察结果彼此接近,它们可能属于一组簇。

让我们逐步细细了解该算法。 第一步,随机初始化一组聚类中心(上面图2A中的X),或者说,是各组簇的中心。在开始之前,你可以将这些聚类中心设置在任何地方,但我们建议,在你对其初始化的时候,用与你设定的观察值相匹配的随机点。您将依次利用这些类中心,来对你的观察值进行分组,将那些与类中心平均距离最近的观察值(图2B中的蓝色和绿色圆圈)确定一个聚类归属。

该步骤会将数据初始化成几组簇,将你的数据中与类中心最接近的观察值聚集到一起。 但是这些第一次分配后的数据簇,可能不是十分合适的。 所以下一步,你会将你的聚类好的数据簇移动到一个更接近,更合适的位置。即在每个当前已有的各个簇中 找到它们的平均观察值,然后你的聚类中心移动到该位置来(图2C)。 然后,以新的聚类中心为基准,找到的平均距离最近的观察值,并将其分配到新的簇(图2D)

您可以重复进行此过程:簇分配-查找平均距离-移动聚类中心,直到达到收敛。 一旦你找到了一组簇,而且其中所有的观察值都能找到最接近的聚类中心,那就不需要再继续评估最近的平均距离和移动了。 那些分组在一起的观察值将被聚类,这样的话它们可以在输入中共享相似性(如由它们对同一聚类中心所表现出的接近度),你也为你的数据找到了一组合适的聚类方式。

你使用了多少组簇?

机器学习算法实践 K均值聚类的实用技巧

K均值聚类是一种有效的方法,可以为你的数据找到一个良好的聚类方式。 但仍然有一个问题,一开始你如何决定要使用多少组簇?

当你不清楚非结构化数据集的标签或者分类时,需要无监督学习的方式(如K均值聚类)来辅助。 因此,数据本身不会告诉你,簇的正确数量(或标签)是多少。

那么,你该如何衡量自己数据用多少组簇呢? 最简单的方法是利用测量簇的误差,具体如下:

机器学习算法实践 K均值聚类的实用技巧

此函数通过比较观察值(X)与其指定的聚类中心(μ)之间的距离来评估簇的误差。 如果每个对应的聚类中心均呈现最低距离,或者最低总体误差最低,那么这些聚类中心就是与数据最符合的聚类结果。

回到我们T恤衫尺寸的示例,我们如何使用该误差函数来确定正确的簇的数目? 一种方法是“肘部法则”,如上图3所示。 通过绘制数据相对于你初始化的簇的数量的误差,你可以发现误差变化率最尖锐的点。 图3中似乎是在两个簇的地方,表明我们应该可能去划分为小和大两种。

雷锋网提醒,该方法需要注意:通常在你的误差曲线中没有明显的拐点。 因此,不可能总是使用肘部法则来确定合适数量的簇。

在这种情况下,建议依靠你的直觉或者待解决的问题的上下文。 例如,在T恤尺寸案例中,你可能很清楚你想将T恤分为5种尺寸 - 超小型,小型,中型,大型和超大型。但这并不是数据给你提示清楚的,但基于你的直觉,你可以初始化为五个簇数量,并得到合适的聚类。

总而言之,对于到一个聚类问题,K均值聚类提供了一种可迭代的并且有效的算法来发掘数据中的结构。

雷锋网注:这篇博文是基于吴恩达在 Coursera 机器学习课程 中教授的概念。

版权文章,未经授权禁止转载。详情见 转载须知 。

机器学习算法实践 K均值聚类的实用技巧

全局中部横幅
虎牙直播

虎牙直播是以游戏直播为主的弹幕式互动直播平台,累计注册用户2亿,提供热门游戏直播、电竞赛事直播与游戏赛事直播,手游直播等。包含英雄联盟lol,王者荣耀,绝地求生,和平精英等游戏直播,lol、dota2、dnf等热门游戏直播以及单机游戏、手游等游戏直播。

智能制造能力成熟度模型

江苏赫玛信息科技有限公司是智能制造知识运营商,专业提供智能制造能力成熟度培训、智能制造能力成熟度评估、智能制造能力成熟度模型、智能工厂/智能车间顶层设计和规划、两化融合管理体系贯标咨询、信息化项目咨询等知识运营服务。欢迎咨询

盖得排行

盖得排行是一款为有消费升级需求的人提供的客观、中立的商品品牌排行的产品,帮助用户在海量信息中筛选出最有用的信息。盖得排行是北京博雅传媒文化发展有限公司旗下产品,背靠深厚媒体资源与商业财经报道经验,倾注大量人力物力,广泛征集各行业专业意见,帮助用户轻松做出消费决策的同时,成为购物达人

隔音屏障

天津再发隔音墙有限公司长期制造隔声屏、隔音屏障、隔音屏、公路隔声屏、高速隔音屏、公路隔音板、声屏障、隔音墙、隔声屏障、公路隔音墙、吸音板、隔音板、公路声屏障的企业,拥有自己的公路声屏障厂家、隔声屏障厂家和声屏障厂家。生产基地在天津市武清区逸仙园亨通路3号,距京津塘高速公路1公里,距天津市中心28公里,距北京市86公里,交通非常便利。公司自组建以来,一直坚持开拓进取的方针,主动参与市场竞争。企业的管理水平、施工能力、经济效益和社会效益都不断提高。

福建华商

福建华商——企业经营管理解决方案专家,16年的咨询沉淀,累计服务1000+家福建本土知名企业的成功咨询案例。为企业提供股权设计、经营规划、合伙人模式、融资规划、商业模式设计、人力资源咨询等,福建华商总部位于福州。

企业能力体系建设评价网

北京证帮帮信息咨询中心(个人独资),企业能力建设专业委员会

写作材料网

从句子大全中挑选出最精彩的励志句子、春天句子、生活感悟句子、爱情句子等,以及抖音最火的闺蜜句子、朋友圈心情不好的句子,送给你最美的文字陪伴,给你最醉人的感动!

泉州市华展机电有限公司,烫金机,全自动移印机,丝印机,热转印机,油墨,印刷机,装配机生产厂家

泉州市华展机电有限公司(www.63633.com)是一家集销售全自动及半自动(移印机,丝印机,烫金机,装配机,热转印机,丝印机,油墨)印刷设备,各类印刷配件及辅料,及技术支持和设备维修维护为一条龙的专业型企业。另外公司还经营销售油墨,详情请联系张先生电话:13850782807

浙江广播电视集团官网

浙江广播电视集团成立于2001年11月8日,是一家以广播电视为主业,兼营相关产业的综合媒体集团,是国内最具影响力的省级媒体之一。2016年,连续第六年荣获“中国500最具价值品牌”,位居全国媒体第五、浙江媒体第一。

5511休闲游戏

5511休闲游戏提供各种不同类型的休闲手机游戏,玩家朋友们可以在这里免费下载。在日常闲暇之时不知道玩什么游戏,就来5511休闲游戏网吧,各种不同类型的游戏资源,保证你能找到自己喜欢的游戏。

二氧化碳CO2压缩机

蚌埠压缩机,天然气压缩机,液化气压缩机,氟利昂压缩机,沼气压缩机,氯化氢压缩机,氢气等各种气体压缩机的定制,联系电话0552-4111699邮箱:aotysj@163.com

全局底部横幅