Kaggle 面向解决特征工程与验证两大难题 nyaggle 附代码和离线比赛实用工具库 (kaggle官网)

文章编号：46688 资讯动态 2024-12-10 附代码和离线比赛实用工具库解决特征工程与验证两大难题 nyaggle Kaggle 面向

在大多数机器学习竞赛中，特诊工程的质量通常决定着整个作品的得分与排名，也是参赛者们非常看重的一部分。在 GitHub 上，作者 Nomi（专注于计算机视觉与嵌入式技术，也是 tiny-dnn 的原作者）向我们介绍了一个面向 Kaggle 数据科学和离线竞赛的实用工具库 nyaggle，可供开发者专用于特征工程与验证。

面向和离线比赛实用工具库 nyaggle，解决特征工程与验证两大难题（附代码）

在机器学习和模式识别中，特征工程的好坏将会影响整个模型的预测性能。其中特征是在观测现象中的一种独立、可测量的属性。选择信息量大、有差别性、独立的特征是模式识别、分类和回归问题的关键一步，可以帮助开发者最大限度地从原始数据中提取特征以供算法和模型使用。

面向和离线比赛实用工具库 nyaggle，解决特征工程与验证两大难题（附代码）

而 nyaggle 就是一个特定于 Kaggle 和离线比赛的实用工具库，它主要作用于四个部分，即：特征工程、模型验证、模型实验以及模型融合，尤其在特征工程和模型验证方面有较强的性能。

其中，在特征工程方面，nyaggle 包含了 K 个特征目标编码和 BERT 句子向量化。目标编码使用的是目标变量的均值编码类别变量，为训练集中的每个分组计算目标变量的统计量，之后会合并验证集、测试集以捕捉分组和目标之间的关系。BERT 句子向量化则是对 Bert 模型的输入做一个向量化，提取词句的三维信息。

面向和离线比赛实用工具库 nyaggle，解决特征工程与验证两大难题（附代码）

API 详情说明： nyaggle.experiment 类，实现模型实验的各个功能

在典型的表格数据竞赛中，开发者可能会通过交叉验证重复进行评估，并记录参数和结果以跟踪实验。

其中，run_experiment（）正是用于此类交叉验证实验的高级 API，它在指定目录下输出参数、指标、异常预测、测试预测、功能重要性和 Submitting.csv。

它可以与 mlflow 跟踪结合使用，如果使用 LightGBM 作为模型，则代码将非常简单如下所示：

值得注意的是，默认的验证策略是包含了 5 个特征的计算机视觉，开发者可以通过传递 cv 参数来更改此行为（可参阅 API 参考，）。

之后，run_experiment API 执行交叉验证后，会将工件存储到日志目录。输出文件存储如下：

而如果要使用 XGBoost、CatBoost 或其他 sklearn 估计器，则需要在代码开头指定算法类型，其中的参数将传递给 sklearn API 的构造函数（例如 LGBMClassifier）。

如果想让 GUI 仪表板管理实验，开发者则可以通过只设置 with_mlfow = True 来将 run_experiment 与 mlflow 一起使用（需要预先安装 mlflow）。然后在与执行脚本相同的目录中，运行即可。

然后在与执行脚本相同的目录中，运行即可，相关结果（带有 CV 得分和参数的实验列表）可在 http：// localhost：5000 页面上查看。

面向和离线比赛实用工具库 nyaggle，解决特征工程与验证两大难题（附代码）

注意：如果要自定义日志记录的行为，可以在 mlflow run 上下文中调用 run_experiment；如果正在运行，则 run_experiment 将使用当前正在运行的运行，而不是创建新的运行。

nyaggle.feature 类——以特征格式管理运行系列功能

nyaggle.validation 类——对抗性验证，其中的验证拆分器与 sklearn 兼容

nyaggle.Hyper_parameters 类——从以往的解决方案中选取 Hypara 相关参数

面向和离线比赛实用工具库 nyaggle，解决特征工程与验证两大难题（附代码）

雷锋网 AI 开发者

原创文章，未经授权禁止转载。详情见转载须知。

面向和离线比赛实用工具库 nyaggle，解决特征工程与验证两大难题（附代码）

谷普下载提醒您

本文链接：http://www.gpxz.com/article/fa767c157032572d4e34.html

上一篇：Transformer模型深度解读精读transferwise

下一篇：过去一周的大会都有哪些看点IROS2016极飞科

天道木业官方平台

电影视频 2024-07-04 12:53:54

电影大全

影视快搜电影频道-提供最新电影,好看的电影,最新电影排行榜,涵盖喜剧片、科幻片、战争片、武侠片、爱情动作片、等电影大全在线观看或下载,精细分类让您发现好看的电影大片。

电影视频 2023-11-29 02:20:59

CE认证

上海沃证机电技术服务有限公司是欧盟CE认证技术服务机构，可协助申请CE认证，包括机械CE认证、电梯CE认证、压力容器CE认证(PED认证)等，同时也提供EAC认证、EN1090认证、EN15085认证等技术服务。

商业服务 2024-08-17 19:05:20

汇流高科机电设备有限公司

manfield孟斐德泵业创建于2010年，专注别墅住宅地下室污水提升泵，产品获得出口欧美CE认证、SGS认证等各项顶级认证。十余年服务了上万家别墅客户。拥有铬镍电机、超低滞留，一机三挡，自洁净等多项独特设计，其独创的紧凑型双泵型号深获高端别墅客户的好评。

设计美化 2024-08-18 19:17:14

商用健身器材批发

美国潘赛源自纽约,美式设计台湾工艺,健身器材厂家批发,厂价直销,高性价比,为健身房器材配置,提供规划,安装,施工,售后全方位服务,承接30-3000平米健身房器材采购!

设计美化 2024-11-17 05:37:24

中国投资界

中国投资界是投资与创业资讯第一门户网站,本网以专业的投资视角和丰富的信息资源，为投资创业人士、兴趣爱好者，客观快速提供国际国内焦点新闻、投资资讯、产业新闻、行业分析、社会热点等全覆盖的资讯服务。

新闻资讯 2024-11-17 22:24:16

阅报栏灯箱

龙喜宣传栏精神堡垒价值观标牌标识科技有限公司拥有厂房面积5000多平米是专业的阅报栏灯箱生产厂家，外形美观，价格公道，并支持来图订制，欢迎广大客户来电咨询。

管理咨询 2024-12-03 21:44:17

商河招聘网

商河在线招聘平台，汇聚了大量兼职|保安|司机等岗位信息，为您提供临时工|事业单位等多元化招聘需求。商河招聘网人才市场动态一手掌握，找工作|求职信息尽在掌握，济南商河地区招聘首选平台，助您快速找到理想工作！

招聘求职 2024-12-04 17:32:16

新开网页游戏排行榜

45游戏集网页游戏,h5游戏,手游为一体的综合游戏平台，为游戏爱好者提供最全手游,并提供2023最新最全的网页游戏，今日新开网页游戏开服表信息，游戏攻略。

游戏网游 2025-01-29 21:03:38

埃及旅游

埃及旅游-埃及包车-埃及接机-开罗机场接机包车-埃及旅游团

旅游度假 2025-02-06 22:16:12

中国政法大学诉讼法学研究院

中国政法大学,中国政法大学法律信息中心,中国政法大学司法文明协同创新中心

行业信息 2025-02-09 16:49:02

诸葛金融

诸葛金融提供专业全面、及时的财经新闻资讯,力求为广大网友提供最新最快最全面的财经资讯。

新闻资讯 2025-02-09 17:14:55

2011年中国虚拟主机服务商排行榜 (2011年中国的GDP是多少)

由十余家知名互联网企业机构联合对中国数百家域名注册、虚拟主机、网站建设、网站备案、vps主机、服务器托管等互联网基础服务产品提供商进行综合评测，经过数天的用户调查及第三方知名互联网平台的数据调研，联名发布了2011年优秀互联网基础服务提供商排行榜，1，万网官方网址，www.net.cn隶属公司，北京万网志成科技有限公司2，华夏名网官方...。

2025-02-01 22:16:26

王思聪怒赏女主播夜吞营养快线 (王思聪打脸)

关爱八卦成长协会，爆料称，最近，国民老公，王思聪王校长深夜查房，遇上一韩国女主播让其干掉一瓶营养快线，就打赏了15个佛跳墙，也就是一万五软妹币，小编不是老司机，不太懂为什么女主播喝营养快线就可以轻松转到一万五，是因为女主播会卖萌么?其实，作为一个富二代王思聪每天也是忙的不可开交，但是他自从创立了熊猫TV以来也经常查房，怒刷存在感，...。

2025-01-30 22:59:27

在家有实现目标的十种方法 (在家有实现目标的人吗)

现代社会，许多人都希望在工作之余，找一些方法，来补贴家用或是让自己的生活过的丰富一些，充实一些，那么在这广告满天飞的今天，什么样的工作才能既不耽误上班，又可以利用业余时间来补充一下自己的小金库呢，下面就为大家介绍一下在家兼职的十种方法，如果是女士，可以在网上开一个浪漫春天的内衣品牌店，它是具有智慧之选价值的内衣，质量上乘，价格优惠，提...。

2024-12-21 20:39:02

云原生与开源的未来腾讯云十年新风向 (云原生开源项目)

腾讯开放平台发布以来，腾讯进入到了一个新的起始点，站在前沿技术层面，腾讯的格局和视野越来越大，今天更为强调的微信小程序云开发、腾讯音视频、腾讯数据库、腾讯大数据与AI、腾讯安全等相关领域的技术生态，很大程度上也源自于贯穿腾讯过去十年的关键词——拥抱云原生与开源，消除内部的技术孤岛2018年930变革中，腾讯除了新成立CSIG、PCG两...。

2024-12-03 19:04:33

抢人企业不止砸钱这届春招 (企业抢人大战)

又是一年金三银四，对于HR来说，这是疯狂放出HC、工作量激增的阶段，与此同时，求职者为了把握黄金期，马不停蹄在各个招聘网站寻觅机会，，输入岗位关键词，、，选择职业条件，、，浏览合适的需求，在收藏职位和打招呼间，和用人方迅速完成诉求交换，有意思的是，这套轻车熟路的流程近年来发生了微妙的变化，特别是随着第一批00后踏入职场，在，什么样的...。

2024-12-03 17:22:22

C2Pro和C2Ultra区别 C2S 看懂ViddaC2 一图了解ViddaC2全系列产品 (c2pro和c2ultra区别)

发表在海信激光电视2024，5，909，13ViddaC2系列新品发布，总共有四款产品，分别是ViddaC2、C2S、C2Pro和C2Ultra，那么这四款投影仪各有什么特点呢，下面分享详细参数对比图看懂ViddaC2、C2S、C2Pro和C2Ultra区别，一图了解ViddaC2全系列产品，ViddaC2、C2S、C2Pro和C2U...。

2024-11-28 16:22:26

开面包店流程 (开面包店流程怎么写)

面包是一种以小麦为原料制作而成的烘焙类食品，是西方的主食之一，面包自流传至后，现在也被越来越多的国人所接受，成为了餐桌上的一员，在生活中我们不难发现，面包烘焙屋越开越多，而且生意也都进行得不错，想开面包店的创业者还有很多，所以，今天小编就来带大家了解一下开面包店流程是什么，优先步，掌握面包制作技术面包是时鲜类产品，保质期短，很好的经营...。

2024-11-22 19:45:26

facilitate是什么意思 (facilitate 翻译)

facilitate是促成意思，vt.促成；促使；使便利，第三人称复数，facilitates；如今分词，facilitating；过去式，facilitated；过去分词，facilitated，派生词，facilitation，双语例句1、Thenewairportwillfacilitatethedevelopmentoftou...。

2024-07-05 20:37:25

美媒又炒作古巴均批驳！中国中国应用古巴雷达站监听美国 (美媒又炒作古董了吗)

[全球时报综合报道]，华尔街日报，2日颁布所谓，独家信息，称，美国智库策略与国际疑问钻研核心，CSIS，1日颁布的报告显示，卫星图像发现古巴正在树立一个新的雷达站，或者监听左近的关塔那摩湾美国海军基地，从而协助中国启动，特务优惠，相似的炒作，之前美国媒体已传出屡次，关于美国智库的新说法，古巴副外长和中国外交部发言人均予以批驳，华尔...。

2024-07-04 14:11:38

DeskProto破解版-DeskProto(多轴刀路软件)v7.1.11141免费版

DeskProto是国外的一款功能强大的专业多轴刀路软件，用于为各种CNC铣床生成刀轨文件，帮助用户从任何3DCAD程序导入STL文件

2023-11-12 02:53:02

重庆分类目录网被拦截原因-站长资讯

重庆分类目录网2020年网站增加恶意刷新流量自动判断拦截、自动拦截网站主页含违规内容或被黑或篡改网址，以及增加收录网址的服务器状态的自动分析判断拦截！

2023-09-18 01:02:57

文章推荐

CVIA流明测量方法分享 CVIA流明是怎么测量的 (cvia流明和ansi流明的换算)

发表在综合交流大区2023，3，1513，41CVIA流明是中国电子视像行业协会联合当贝等投影行业代表所制定的亮度标准，主要是为了解决投影行业的亮度虚表现象，具体CVIA流明是怎么测量的呢，下面就分享CVIA流明测量方法的详细操作步骤及注意事项，一、CVIA流明测量的具体要求1.统一标识，按该文件中试验方法测得的光输出值将统一标识为C...。

2024-11-28 14:08:37

网络百科

减速权势交接仅剩两月向美芯片行业拨款拜登

[全球时报记者丁雅栀全球时报特约记者任重]据美国，政治资讯网，报道，随着特朗普在2024年美国总统选举中获胜，拜登政府正在加紧与英特尔、三星电子等芯片公司谈判，敲定，芯片和迷信法，中的最终协定，力争在特朗普入主白宫之前坚固这项拜登任内的标记性产业政策，思考到新旧政府将在明年1月实现交接，关于仍在谈判环节中的20多家公司来说，接上去的两...。

2024-11-13 13:38:39

行业软件

深夜重磅！北京限购调整有名目连夜收回折扣 (深夜重磅!北京刚刚突然宣布!!)

北京楼市新政的，靴子，终于落地，9月30日晚间，北京市住房和城乡树立委员会、北京市财政局、中国人民银行北京市分行、国度金融监视治理总局北京监管局、国度税务总局北京市税务局、北京住房公积金治理中心六部门联结印发，关于进一步优化调整本市房地产相关政策的通知，以下简称，通知，，调整北京房地产政策，从通知内容来看，包含落实降低存量房贷利率...。

2024-11-13 12:25:38

公告消息

合新铁路树立资料一割就开存安保隐患以次充好经参调查丨弹性垫层 (合新铁路施工招标)

弹性垫层是铁路轨道树立的关键资料，其品质间接相关铁路运转的稳固性，近日，，经济参考报，记者在合新铁路，合肥至新沂，树立现场发现，多家施工单位为节俭老本，以次充好，违规将，三元乙丙橡胶弹性垫层，偷换为不合乎铁路行业规范的，再生胶仿造品，，这些仿冒品功能远低于设计需要，存在安保隐患，合新铁路树立资料，以次充好，存安保隐患视频制造，刘超本应...。

2024-11-13 03:00:33

销售心理学