最新进展详解! 模型压缩到模型蒸馏 从架构优化 加速BERT模型有多少种方法 (最新的进展)

文章编号:46133 资讯动态 2024-12-09 蒸馏模型压缩BERT

原文作者:Grigory Sapunov

翻译:Camel

原文标题:Speeding up BERT

原文链接:

雷锋网AI科技评论按:BERT 在 NLP 领域的地位正如 ResNet 在 CV 领域的地位一样,属于里程碑的进展。目前,BERT 已经成为 NLP 深度学习管道中的重要组成部分。

加速BERT模型有多少种方法?从架构优化、模型压缩到模型蒸馏,最新进展详解!

但 BERT 并不是完美无瑕的,它最大的问题就是:太大。

BERT-base 模型能够包含一亿个参数,较大的 BERT-large 甚至包含 3.4 亿个参数。显然,很难将这种规模的模型部署到资源有限的环境(例如移动设备或嵌入式系统)当中。

模型太大是其一,BERT 的训练和推理时间也太长了!

在基于 Pod 配置的 4 个 Cloud TPUs(总共 16 个 TPU 芯片)上对 BERT-base 进行训练,或者在 16 个 Cloud TPU(总共 64 个 TPU 芯片)上对 BERT-large 进行训练,每次预训练都需要至少 4 天的时间才能完成。

当然对于最终的用户而言,训练时间通常似乎并不是什么大问题,因为反正只需要训练一次就够了(实际上往往会训练多次,因为你可能要多次重新训练模型,才能获得满意的结果)。不过如果能够加速,当然也是好的,因为迭代越快,你就能越早地解决你的问题。

BERT 的推理时间可能取决于你用的是什么设备(什么型号、多少个),在许多情况下,它会极大地限制你要处理数据的数量、速度以及成本。对于某些实时的应用程序来讲,用 BERT 简直是让人望而却步。

对以上的问题,能够想到的最直接的方法就是优化神经网络。这在神经网络中并不陌生,其他领域(例如计算机视觉)以前也有相同的问题,并且已经开发了几种压缩和加速神经网络模型的方法。大致可以分为几类:

我们来看下 BERT 在这些策略上可以做什么。雷锋网

1、架构和优化改进

大规模分布式训练

加速 BERT 训练能够想到的第一件事(甚至是第零件事)是将其分发到更大的集群当中。虽然最初的 BERT 已经使用了多台机器进行训练,但还有更多针对 BERT 分布式训练的优化解决方案,例如阿里巴巴 [1] 和英伟达 [2] 的一些工作。

加速BERT模型有多少种方法?从架构优化、模型压缩到模型蒸馏,最新进展详解!

英伟达最近使用 NVIDIA DGX SuperPOD(具有 92 个 DGX-2H 节点,共有 1472 个 V100 GPU,理论上可以提供 190PFLOPS)刷新了 BERT 训练的记录,在 53 分钟内训练出了 BERT-large 模型 [3]。当然,这个训练也是非常昂贵的,除了英伟达,其他公司和个人很难去做这样的事情。

加速BERT模型有多少种方法?从架构优化、模型压缩到模型蒸馏,最新进展详解!

还有另外一种更为巧妙优化方案,这是一种被称为 LAMB 的新的分层自适应大批量优化技术 [4],这种技术可以将 TPUv3 Pod 上的 BERT 训练时间从 3 天降低到 76 分钟(1024 个 TPUv3 芯片,可以提供超过 100PFLOPS),显然,训练这个模型也不会便宜。

架构

现在考虑更加架构性的以及更少硬件的解决方案。

加速BERT模型有多少种方法?从架构优化、模型压缩到模型蒸馏,最新进展详解!

有一种基于对自注意层行为的观察来训练 BERT 的渐进式堆叠方法 [5],该方法的分布局部地集中在其位置和 start-of-sentence token 周围,且在浅层模型中的注意力分布与深层模型相似。为此,作者提出了将知识从浅层模型转移到深层模型的堆叠算法,并逐步应用堆栈来加快 BERT 训练的速度。凭借这种方式,作者获得模型的训练时间相比原始 BERT 的训练时间缩短了约 25%,归其原因则在于对于相同数量的步骤,训练一个小的模型需要的计算也相对较少。

还有一种方法是注意力矩阵的稀疏分解(也称 Sparse Transformer,这项研究是由 OpenAI 完成的)[6] 和 block attention[7],它们都属于能够减少内存和计算总量的体系结构改进。

最后不得不提的是,已经提交给 ICLR 2020 的一个 BERT 的后代,被称为 ALBERT(A Lite BERT)[8]。

ALBERT 结合了两种参数降低的技术。

第一种是分解式嵌入参数化,将隐藏层的大小与词嵌入的大小分开。这种分隔使得在不显著增加词汇表嵌入参数大小的情况下能够更容易增加隐藏层的大小。

第二种是跨层参数共享。这种技术可以防止参数随着网络深度的增加而增大。

这两种技术可以显著降低 BERT 的参数数量,而不会严重影响性能,从而提高参数效率。

加速BERT模型有多少种方法?从架构优化、模型压缩到模型蒸馏,最新进展详解!

与 BERT-large 具有相似配置的 ALBERT,其参数能够降低 18 倍,训练速度提高了月 1.7 倍。

加速BERT模型有多少种方法?从架构优化、模型压缩到模型蒸馏,最新进展详解!

相比严格调校的 RoBERTa,ALBERT 则同样更胜一筹 [9]。

2、量化和修剪

加速BERT模型有多少种方法?从架构优化、模型压缩到模型蒸馏,最新进展详解!

量化 会降低模型权重的数值精度。通常情况下,使用 FP32(32 位浮点)来训练模型,然后可以将其量化为 FP16(16 位浮点),INT8(8 位整数),甚至将其量化为 INT4 或 INT1。于是模型尺寸将随之减小 2 倍、4 倍、8 倍或 32 倍。这称为 post-training quantization。

另一个选项是 量化感知训练 (也是较为困难和较为不成熟的)。这种方法的 FP16 训练现在已成为一种普遍的方法。而在 ICLR 2020 提交的论文中有一个比较有趣的工作 [10],它使用 ResNet、GNMT、Transformer 的 8 位浮点表示获得了最先进的训练结果。

修剪 即从模型中删除一些不重要或不太重要的权重(有时会是神经元),从而产生稀疏的权重矩阵(或较小的图层)。甚至还有一些研究直接去除掉与 Transformer 的注意力头相对应的整个矩阵。量化,可以使用 TensorFlow Lite(用于设备上推断的 TensorFlow 的部分)[11] 来执行。TensorFlow Lite 提供了在移动设备、嵌入式设备和 IoT 设备上转换和运行 TensorFlow 模型的工具,它支持训练后量化和量化感知训练。

另一个选择是使用英伟达的 TensorRT 框架 [12]。英伟达 TensorRT 是用于高性能深度学习推理的平台,它包括深度学习推理优化器,并且在运行时能够为深度学习推理应用程序提供低延迟和高吞吐量。

英伟达最近发布了具有最新优化功能的 TensorRT 6[13],它可以在 T4 GPU 上仅用 5.8 毫秒对 BERT-large 进行推理,而在 V100 上甚至只需要 4.2 毫秒,对于 Titan RTX,速度可能会更快。

当批处理数为 1 时,对于 340M 个参数的 BERT-large 模型,仅需 5.84 毫秒;对于 110M 参数的 BERT-Base 模型,则只需 2.07 毫秒。若将批处理数设为 128,你在使用 BERT-large 时甚至可以达到 250 个句子/秒的处理速度。

更多的数据我们这里就不再一一列举了。

PyTorch 最近也宣布了在其 1.3 版本 [14] 中支持量化。尽管目前它还处于实验阶段,但我们已经可以使用它了,因为在其教程中提到他们已经能够将动态量化应用于将模型权重转换为 INT8 的 LSTM 语言模型 [15]。

3、蒸馏

另一个有趣的模型压缩方法是蒸馏,这是一种将大型「teacher」网络的知识转移到较小的「student」网络的技术,训练学生网络来模仿教师网络的行为。

加速BERT模型有多少种方法?从架构优化、模型压缩到模型蒸馏,最新进展详解!

Rich Caruana 及其合作者率先采用了这种策略。在他们先驱性的论文 [17] 中,他们提供了令人信服的证明:大型集成模型所获得的知识可以转移到单个小型的模型中。

Geoffrey Hinton 等人在他们的「Distilling the Knowledge in a Neural Network」{18} 论文中证明了这种技术可以应用于神经网络模型。

DistilBERT

从 Hinton 开始,蒸馏的方法逐渐被应用到了不同的神经网络中,当然你可能也听过 HuggingFace 提出的 DistilBERT,这是一种对 BERT 的蒸馏。这项工作出自论文「DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter」[19],目前已经提交到 NeurIPS 2019。

DistilBERT 是一种较小的语言模型,受 BERT 的监督而训练。在该模型中,作者删除了令牌类型嵌入和合并器(用于下一个句子分类任务),并保持体系架构其余部分不变,同时将层数减少了两倍。

您可以在 HuggingFace(以前叫做 pytorch-transformers 和 pytorch-pretrained-bert)的 translators python 软件包的帮助下,使用现成的 DistilBERT。该软件包的 2.0.0 版本支持 TensorFlow 2.0 / PyTorch 互操作。

DistilBERT 的作者还使用了最新 RoBERTa 论文中的一些训练技巧,这些技巧表明 BERT 的训练方式对其最终性能至关重要。

DistilBERT 与 BERT 相比具有出人意料的结果:作者保留了 95%以上的性能,但参数却减少了 40%。

加速BERT模型有多少种方法?从架构优化、模型压缩到模型蒸馏,最新进展详解!

比较 GLUE 基准测试的开发集

在推断时间方面,DistilBERT 比 BERT 快了 60%以上,比 ELMo + BiLSTM 快 120%。

加速BERT模型有多少种方法?从架构优化、模型压缩到模型蒸馏,最新进展详解!

TinyBERT

就在几天前,出现了一种新的 BERT 蒸馏方法,来自华为诺亚方舟实验室的刘群团队提出了 TinyBERT[20]。

为了构建一个具有竞争力的 TinyBERT,作者首先提出了一种新的 Transformer 蒸馏方法,来蒸馏嵌入 BERT 的知识。

加速BERT模型有多少种方法?从架构优化、模型压缩到模型蒸馏,最新进展详解!

具体来说就是,他们设计了几个损失函数来适合 BERT 层的不同表示形式:

1、嵌入层的输出;

2、Transformer 层派生的隐藏状态和注意力矩阵;

3、预测层输出的 logits 输出。

论文中基于注意力的拟合则得益于最近的发现,即 BERT 学习的注意力权重可以捕获大量的语言知识,这意味着语言知识可以很好地从教师 BERT 转移到学生 TinyBERT。而在 BERT 的现有知识蒸馏的方法(如 Distilled BiLSTM_SOFT,BERT-PKD 和 DistilBERT)中却忽略了这一点。

加速BERT模型有多少种方法?从架构优化、模型压缩到模型蒸馏,最新进展详解!

在这项工作中,作者还提出了一种新颖的两阶段学习框架,包括通用蒸馏和特定任务蒸馏。在通用蒸馏阶段,未经微调的原始 BERT 充当教师模型,学生 TinyBERT 通过在通用领域对大型语料库执行通常的 Transformer 蒸馏来学习模仿教师的行为。他们获得了可以对各种下游任务进行微调的通用 TinyBERT。在特定任务蒸馏阶段,他们将数据进行扩充,来提供更多与任务相关的材料供教师-学生学习,然后在增强的数据上重新执行 Tranformer 蒸馏。

这个两阶段方法对于提升 TinyBERT 的性能和泛化能力是必不可少的。

TinyBERY 在实验上取得了非常的成绩,相对于 GLUE 数据集的 BERT-base,其性能并没有下降多少,而推理参数小了 7.5 倍,推理时间快了 9.4 倍。

加速BERT模型有多少种方法?从架构优化、模型压缩到模型蒸馏,最新进展详解!

我们期待他们能够将这种方法应用到 BERT-large 和 XLNet 等大型模型中,同样也期待他们开放源码。

其他蒸馏方法

除了 DistilBERT 和 TinyBERT 外,还有其他一些为大家所熟知的蒸馏方法。

(2019/03)「Distilling Task-Specific Knowledge from BERT into Simple Neural Networks」[21]

这篇论文将 BERT 蒸馏到单层 BiLSTM 中,取得了与 ELMo 可比的结果,同时使用的参数减少了大约 100 倍,推理时间减少了 15 倍。

加速BERT模型有多少种方法?从架构优化、模型压缩到模型蒸馏,最新进展详解!

BiLSTM_SOF 是 TBiLSTM 的蒸馏,后者是在 soft logit 目标上训练出来的。

(2019/08)「Patient Knowledge Distillation for BERT Model Compression」[22]

这篇论文提出了一种耐心知识蒸馏的方法,这是首次尝试使用教师的隐藏状态,而不仅仅是最后一层的输出。他们的学生模型从教师模型的多个中间层「耐心」地学习来获得更多知识。在他们的耐心蒸馏知识框架中,只训练学生模仿中间层的 [CLS] 令牌的表示形式。代码已公开 [23]。

加速BERT模型有多少种方法?从架构优化、模型压缩到模型蒸馏,最新进展详解!

(2019/09)「Extreme Language Model Compression with Optimal Subwords and Shared Projections」

这是最近提交到 ICLR 2020 的一篇论文,这篇论文专注于一种用于训练词汇量显著较小、嵌入和隐藏状态维度较低的学生模型的知识蒸馏技术。作者采用了双重训练机制,可以同时训练教师和学生模型,从而能够获得针对学生词汇的最佳词嵌入。该方法能够将 BERT-base 模型压缩 60 倍以上,而下游任务指标只有很小的下降,从而使得语言模型占用的空间只有不到 7MB。

加速BERT模型有多少种方法?从架构优化、模型压缩到模型蒸馏,最新进展详解!

加速BERT模型有多少种方法?从架构优化、模型压缩到模型蒸馏,最新进展详解!

TinyBERT 的结果似乎更好,但一个 7MB 的类 BERT 模型简直爽的不能再爽!

需要强调,以上所介绍的方法并不互相冲突,所以我们期待能够将这些方法协同起来使用来加速 BERT 模型(或其他相似模型)。

参考资料

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]~caruana/compression.kdd06.pdf

[18]

[19]

[20]

[21]

[22]

[23]

[24]

雷锋网报道。

原创文章,未经授权禁止转载。详情见 转载须知 。

加速BERT模型有多少种方法?从架构优化、模型压缩到模型蒸馏,最新进展详解!

全局中部横幅
小说

hao123小说频道,最新最热的小说推荐,最全的小说网站,热门小说站点排行榜,小说分类大全,小说类贴吧,免费小说精选,提供给您最全面的小说阅读。

稻壳儿官网

Docer稻壳儿是金山办公旗下WPS办公资源分享平台,为WPS用户提供有需要的ppt模板、PPT背景图,PPT素材,PPT图表,ppt课件,文档模版,表格模板,云字体和图标图片素材资源;下载ppt模板,工作总结模板,个人求职应聘简历模版,就来稻壳儿官网,稻壳儿为每个人的进步加分!

创意维简全屋定制

金凯特家具有限公司总部位于广东省肇庆市,旗下拥有“创意维简”全屋定制品牌。经过多年的不懈努力金凯特已发展成为集研发、生产、承接、设计、制造、销售于一体的大型家具企业。服务热线:07588491010

北京锐通安达校车运营管理有限公司

北京锐通安达校车运营管理有限公司是经国家工商部门批准的并登记注册,注册资金1000万元、有全国权威机构认证的资质证书的专业校车运营部及巴士运营部的多元化公司。经营范围:汽车租赁、校车运营管理、校车信息数据管理、道路旅客运输、道路交通信息数据采集与管理业务。

易网数据

易网数据专注行业资讯发布!

【校方】济南大学3+2多国留学HND(3+1+1留学)

济南大学-中国(教育部)留学服务中心-英、美、澳、加多国留学3+1+1本硕连读项目(SQA-HND),山东济南唯一教育部认证HND出国留学预科项目,hnd留学首选济南大学

一串数字集团

一串数字是全国领先的一站式企业服务平台,专注于企业创立、发展、成熟等生命周期的多元化服务,涵盖品牌设计、知识产权、IT/软件、企业宣传、工商财税、新媒体电商运营、国际服务等。

成都白癜风医院

成都治疗白癜风哪家医院好?四川成都白癜风医院地址在哪里?成都治疗白癜风多少钱?成都博润白癜风医院是一家以白癜风治疗为重点的成都白癜风专科医院.24小时免费咨询热线:400-005-7879。

架空绝缘导线,架空绝缘导线厂家

河北安通电线电缆有限公司是专业生产架空绝缘导线的厂家,位于任丘市经济技术开发区,期待您来厂参观指导。官方网址:www.jkjydx.cn,手机:13930733392

球形起重气垫

江苏安瑞特消防装备有限公司生产:球形起重气垫、打球形起重气垫、打捞袋、打浮力袋、气动吸盘堵漏工具、外封式堵漏袋等产品,现有产品均已通过国家消防装备质量监督检验中心检验合格,并且获得多项国家专利证书。

人乳腺癌细胞MCF

云克隆(北京)生物科技有限公司(www.riiyao.com)主营:人乳腺癌细胞MCF-7,人表皮癌细胞A-431,人前列腺癌细胞PC-3,LNCap,人组织细胞淋巴瘤细胞U-937,人胚肾细胞HEK-293T,人慢性髓原白血病细胞K-562,人恶性黑色素瘤细胞A-375等产品,欢迎来电洽谈

全局底部横幅