AutoML在IEEE (automl怎么读)

文章编号:43942 资讯动态 2024-12-09 自动机器学习automl

雷锋网 AI 科技评论按,近日,IEEE ISI 2019 国际大数据分析竞赛结果出炉,今年的竞赛包括企业投资价值评估和法律诉讼类型预测两个赛题,来自深兰科技北京 AI 研发中心的 DeepBlueAI 团队分别取得了一项冠军和一项季军的优异成绩,本文作者罗志鹏(深兰科技北京 AI 研发中心),他为雷锋网 AI 科技评论独家撰写了该团队在企业投资价值评估赛题中的算法思路与技术细节分享。

IEEE 年度国际会议是安全信息学领域的旗舰会议,于 2003 年首次在美国亚利桑那州图森市召开。在过去的 16 年中,IEEE ISI 会议已经从传统的智能和安全领域发展到多领域联合研究与创新。今年,第 17 届 IEEE ISI 会议在中国深圳于 7 月 1 日至 3 日由深圳人工智能与数据科学研究所主办。

为了促进人工智能分析行业的发展,并为学术交流和技术讨论提供一个平台,IEEE ISI 会议发起了此次国际大数据分析竞赛 (IEEE ISI 2019 年世界杯,IWC 2019)。本竞赛面向全球高校、研究机构、企业、政府开放。共有来自中国、美国、巴基斯坦、伊拉克、英国、德国、挪威 7 个国家,来自华为、京东、滴滴等知名企业,以及来自清华大学、北京大学、浙江大学等知名高校的三百余支队伍参赛,参赛总人数逾千人。

在企业投资价值评估赛题中 DeepBlueAI 团队以较大领先优势获得冠军,排名如下:

AutoML在IEEE-ISI World Cup 2019竞赛中的应用:冠军团队DeepBlueAI技术分享

AutoML在IEEE-ISI World Cup 2019竞赛中的应用:冠军团队DeepBlueAI技术分享

本次比赛提供了基于 3500 家上市公司全量信息,描述公司在财务、法务、股权、经营状况、舆论等方面的属性特征,包含企业的工商信息、年报、财务信息、纳税信息、股权信息、法务信息、知识产权信息、经营信息、购地信息等数据(以实际发布的数据集为准)。这些数据来自于官方统计平台,数据真实可信。每一家企业对应一个类目 ID。参赛选手需要合理运用现有数据集材料,筛选出对竞赛有价值的信息进行特征构建和模型训练。

本次会议共有两个赛题:

赛题 1 企业投资价值评估

参赛者可参照企业的年报、财务信息、经营信息、资产信息、税务信息,知识产权等企业综合信息对企业投资情况进行打分,为投资者提供投资依据。

赛题 2 法律诉讼类型预测

参赛者可根据企业的法院公告、裁判文书、动产抵押、司法冻结、行政处罚、欠税信息、开庭公告等法务信息预测企业未来一段时间可能收到的法律诉讼类型,为企业规避法律风险。

本文接下来分享赛题 1 的思路与技术细节。

使用均方根误差 RMSE 作为本次竞赛的主要性能指标。返回结果越小代表模型性能越好。比赛成绩以参赛团队提交的测试集结果为准,此部分占总成绩 90%。同时会根据代码的鲁棒性、可扩展性、可读性为算法模型打分,此部分占总成绩 10%。比赛最终排名取决于以上两部分成绩总和。

AutoML在IEEE-ISI World Cup 2019竞赛中的应用:冠军团队DeepBlueAI技术分享

题目特点以及主要工作

在这次比赛中,主要有以下难点:

对于这样大量的字段,如果直接采用人工去做特征,一方面工作量巨大,另外一方面很多特征也难以想到。故团队成员基于以上难点,采用了自研的 AutoML 系统进行建模,该系统包括了自动数据清洗、自动特征工程、自动特征选择、自动模型调参、自动模型融合等步骤,能极大的提高任务建模的效率,并且在此次竞赛中也大大提升了效果。

在通常的竞赛中,我们的数据往往是比较干净的,要么采集比较规范,要么已经经过加工处理。这次竞赛提供的数据是真实的工业界应用数据,含有大量的不规范字段。比如时间列,就存在各种各样的格式,比如存在年份缩写、中文年月日、标记格式不统一(有时用「\」,有时用「-」来分隔)等情况。

AutoML在IEEE-ISI World Cup 2019竞赛中的应用:冠军团队DeepBlueAI技术分享

考虑这些数据情况,可能是由于数据录入的时候,不同年代采用不同的格式,并且数据保留了原来的格式,从而造成了大量数据不规范的问题。另外数据中存在着大量的噪声。而我们的自动化数据清洗模块,对不同类型的数据使用不同的清洗方法,能够有效地清洗不规范数据。

我们的特征工程部分包含两个阶段:AutoML 自动特征工程阶段和业务特征强化阶段。

在 AutoML 自动特征工程阶段,将原始数据清洗成 AutoML 系统可处理的格式后,进行自动特征生成,然后进行特征选择迭代。在特征选择阶段我们采用 lightGBM 单模型。在自动特征工程中,我们假设通用场景类型,选择和本次任务契合的场景类型进行自动特征工程,在每一轮特征迭代过程中我们参考了上一轮特征的重要性,在重要性高的特征上面进行迭代更新。筛选出的特征中比较重要的有:行业细类特征、资历、年报等。具体地,原始特征包含了数值类型,分类类型,时间类型以及文本类型。我们对数值类型和类目特征生成了基本统计特征,以及数值和分类的聚合特征。对时间类型,提取了周期性特征。对文本特征,采用 TF-IDF、LDA 方法提取特征。同时我们也提取重要特征进行高阶组合,从而避免了指数级的特征组合,并且能挖掘三阶甚至四阶不同类型的特征组合,有效地提升模型性能。

AutoML在IEEE-ISI World Cup 2019竞赛中的应用:冠军团队DeepBlueAI技术分享

在自动特征阶段生成的全部特征累计有 7000 多列,自动特征选择采用递减的方式,在业务特征强化阶段,我们通过深入思考业务的逻辑,结合已有特征的重要性,挖掘出业务中我们认为应该考虑进去的信息,然后构造出能反应这些信息的特征。

在自动特征工程阶段,我们发现专利和资质认证两个信息对模型效果提升较大。这很符合我们的直觉,在对企业价值评分时,专利的数量、种类等信息无疑是非常重要的。

首先是针对专利信息,我们挖掘了公司的专利在时间线上的活跃度,公司在该专利领域的实力。我们猜测在长期专利数量较多或者存在上升趋势的企业投资价值评分应该更高。根据实际专利的申请审核流程,提交申请到出审核结果的时间长度,我们提取了企业在最近 1、3、6、12、24 个月的专利数量以及专利数量较多的种类。其次我们挖掘了每个城市每个行业的企业竞争力,用城市中各个行业的公司数量以及他们之间的相对特征来表现。我们猜测公司地址在其行业密集度较高的城市具有更强的竞争意识和竞争氛围,成长性较高,可能会得到较高的投资价值评分。之后我们挖掘了公司的认证资格竞争力信息,在行业内理论上应该是资历认证更完善的公司实力更强,风险更小,我们通过构造公司在资历全集中的完善度特征来反映这个信息。

AutoML在IEEE-ISI World Cup 2019竞赛中的应用:冠军团队DeepBlueAI技术分享

为了增强最终结果的稳定性,我们采用 Stacking+Bagging 的方式进行模型融合。融合的主体方法是 Stacking, 第一层我们采用过的模型有 LightGBM、XGBoost、Random Forest、Support Vector Regressor、ExtraTrees Regressor。每个模型采用交叉验证的方式进行线下验证。

AutoML在IEEE-ISI World Cup 2019竞赛中的应用:冠军团队DeepBlueAI技术分享

在 Stacking 的第二层中我们采用了基于约束的线性模型,在实验中发现效果好于其他线性和非线性模型。

在 Bagging 中我们使用不同 seed 以及随机微调了一些参数分别生成 10 个 LightGBM 和 10 个 XGBoost 模型。最后将 Stacking 的结果与 Bagging 结果进行简单线性加权融合作为最终预测结果。在这次竞赛中模型融合提升并不是很大,从榜单来看我们的单模型结果就能获得冠军,因此 AutoML 自动特征工程部分是我们制胜的关键。

AutoML在IEEE-ISI World Cup 2019竞赛中的应用:冠军团队DeepBlueAI技术分享

在此次竞赛中,我们的主要工作包括:

此次竞赛主办方提供的数据量比较小,可以收集多年的数据根据滑窗的方式获取更多的训练数据。

影响企业投资价值的因素多,可能需要更多公司动态信息,例如人员流动信息和招聘信息等,这些信息可能有助于提升预测效果。

原创文章,未经授权禁止转载。详情见 转载须知 。

AutoML在IEEE-ISI World Cup 2019竞赛中的应用:冠军团队DeepBlueAI技术分享

全局中部横幅
免费注册公司取名

免费注册公司取名网站,公司核名在线查询,3秒出结果。通过大数据起名,分析公司名字的公司核名通过率。为您快速找到适合自己的公司名字,注册公司起名查询网,让取名更简单。以及工商代办审批、公司注册等服务。

卜风堂

卜风堂,汇集全网国学智慧,整理易经八卦、取名、风水学,八字排盘等资源,教你怎样获取易经里面的好名字,公司起名,提供生辰八字查询,六爻占卜等国学经典资源。

荆州市格林环保建材有限公司

荆州市格林环保建材有限公司专业专注于环保建材涂料的研发、生产、和销售。荆州格林环保建材有限公司热诚欢迎各界朋友前来参观、考察、洽谈业务。主营环保竹炭腻子;耐水内墙腻子;耐水外墙腻子;护角条;接缝王。有需要的朋友请来电18995849926

南京经纬国际货运代理有限公司

南京经纬国际货运,公司经营范围涵盖国际海运、空运进出口货物的国际运输代理业务,包括拖车、仓储、中转、订舱、结算运杂费、报关、报检、货运保险等国际物流服务。

顺义区图书馆·数字图书馆

智慧门户平台提供在线自助建站服务。平台易用,用户使用拖拽方式、所见即所得,搭建过程轻松、零代码;具有丰富的模板体现不同行业的特征与风格;布局模块搭配样式模板,满足用户的各类样式需求;添加内容多方式,可本地添加和外接数据;持续统计分析数据,用户随时掌握网站概况。

江西粤工电线电缆有限公司,江西电线电缆,江西家装线缆,江西控制电缆,江西交联电缆,江西高压电力电缆

江西粤工电线电缆有限公司位于江西历史文化名城,原苏区21个全红县之一—信丰县县名取“人信物丰,因信而丰”之意.公司于2019年7月25日成立,是一家专业化的大型电线电缆生产企业.主导产品以电气装备用线,电力输送电缆,特种电缆及信号输送电缆等强,弱电系列产品为主,是江西电线电缆行业企业之一

精选案例

山东枣庄华师律师事务所在线为您提供枣庄知名律师免费咨询,业务范围:公司法律顾问、建筑工程、刑事辩护、劳动争议、民事诉讼等。在线咨询枣庄律师,为您解决法律援助等困难!

差示扫描量热仪,热重分析仪,同步热分析仪,导热仪

上海众路实业有限公司是一家集研发、制造、销售、服务一体的综合性企业,坐落于上海嘉定安亭黄渡美达菱文化创意园。

深圳市弘盛科技实业有限公司

深圳市弘盛科技实业有限公司位于深圳市龙华区大浪街道三合新村。现有设计工程师3~4人,自有模具车间和注塑车间,公司专注于OWS/TWS蓝牙耳机、音响、手表、通讯电子、移动电源、门铃、美容、医疗等电子产品及塑胶模具设计制作和塑胶制品注塑生产,以及塑胶产品的表面喷涂丝印,镭雕电镀后续加工。

无损检测网

★中国无损检测网是以无损检测资讯为主的门户网站,提供全面及时的无损检测设备、无损超声探伤、无损设备、无损标准等,设有资讯、标准、展会、仪器、技术、下载等20多个内容频道。

乐植花卉

乐植花卉,一个专注于花卉养护与种植知识的平台,为广大园艺爱好者提供了一个丰富的知识宝库。在这里,您可以发现各种花卉的养护秘籍,学习到种植的艺术,与同好们一起分享养花的乐趣。

国际货运

西岸货运网:权威的国际空运资讯交易平台,提供机场三字代码查询,空运货物跟踪查询,港口查询,集装箱查询,全国机场到全球的空运价格服务。

全局底部横幅