点人脸关键点技术全解读 MTlab 10000 美图影像实验室 (人脸关键点模型)

文章编号:43683 资讯动态 2024-12-09 计算机视觉人脸关键点检测

雷锋网 AI 科技评论按,日前,美图影像实验室(MTlab, Meitu Imaging & Vision Lab)推出「10000 点 3D 人脸关键点技术」——利用深度学习技术实现 10000 点的人脸五官精细定位,该项技术可以在 VR 游戏中构建玩家人脸的 3D 游戏角色并且驱动,也可以应用于虚拟试妆试戴和医疗美容领域等。本文为美图影像实验室 MTlab 基于该技术为雷锋网 AI 科技评论提供的独家解读。正文如下:

计算机视觉领域,人脸关键点定位在视觉和图形中具有广泛的应用,包括面部跟踪、情感识别以及与多媒体相关的交互式图像视频编辑任务。目前行业内常用的是 2D 人脸关键点技术,然而,2D 人脸点定位技术由于无法获取深度信息,不能分析用户的立体特征,比如苹果肌,法令纹等更加细致的用户信息,也无法分析出用户当前的姿态和表情。为了能够给用户的自拍添加动画效果,如面具、眼镜、3D 帽子等物品,并且提供更加智能的 AI 美颜美型效果,需要一套特殊的感知技术,实时跟踪每个用户的微笑、眨眼等表面几何特征。因此,美图影像实验室 MTlab 研发人员研发了 10000 点人脸关键点技术,将面部图像提升到三维立体空间,将用户的姿态、脸型以及表情分解开来,实时跟踪用户当前的姿态、表情、五官特征改变后的面部形态,调整后的图像更加自然美观。

美图影像实验室(MTlab)10000 点人脸关键点技术全解读

基于 3DMM 的人脸关键点定位方法

1. 三维形变模型 (3DMM)

1999 年,瑞士巴塞尔大学的科学家 Blanz 和 Vetter 提出了一种十分具有创新性的方法——三维形变模型 (3DMM)。三维形变模型建立在三维人脸数据库的基础上,以人脸形状和人脸纹理统计为约束,同时考虑了人脸的姿态和光照因素的影响,生成的人脸三维模型精度较高。

美图影像实验室(MTlab)10000 点人脸关键点技术全解读

如上图所示 3DMM 的主要思想是:一张人脸模型可以由已有的脸部模型进行线性组合。也就是说,可以通过改变系数,在已有人脸基础上生成不同人脸。假设建立 3D 变形的人脸模型由 m 个人脸模型组成,其中每一个人脸模型都包含相应的脸型和纹理两种向量,这样在表示新的 3D 人脸模型时,就可以采用以下方式:

美图影像实验室(MTlab)10000 点人脸关键点技术全解读

其中 美图影像实验室(MTlab)10000 点人脸关键点技术全解读 表示平均脸部形状模型, 美图影像实验室(MTlab)10000 点人脸关键点技术全解读 表示 shape 的 PCA 部分, 美图影像实验室(MTlab)10000 点人脸关键点技术全解读 表示对应脸型系数。

Blanz 和 Vetter 提出的 3DMM 虽然解决了人脸变形模型的表达问题,但其在人脸表情表达上依然存在明显不足。2014 年时,FacewareHouse 这篇论文提出并公开了一个人脸表情数据库,使得 3DMM 有了更强的表现力,人脸模型的线性表示可以扩充为:

美图影像实验室(MTlab)10000 点人脸关键点技术全解读

在原来的脸型数据基础上,增加了表情 美图影像实验室(MTlab)10000 点人脸关键点技术全解读美图影像实验室(MTlab)10000 点人脸关键点技术全解读 表示对应的表情系数,系数让实时表情 Tracking 成为了可能。

2. 美图 MT3DMM 模型

为了能够更加精细地刻画不同人脸的 3D 形状,并且适用于更广泛的人种,MTlab 的研发团队采用先进的 3D 扫描设备采集了 1200 个不同人物、每人 18 种表情的 3D 人脸数据,其中男女各半,多为中国人,年龄分布在 12~60 岁,模型总数超过 20000 个,基于这些数据,建立了基于深度神经网络的 MT3DMM 模型。相比于目前主流的 3DMM 模型,MT3DMM 具有表情丰富,模型精度高,并且符合亚洲人脸分布的特点,是目前业界精度最高的 3D 人脸模型之一。

3DMM 模型,代表了一个平均脸,也同时包含了与该平均脸的偏差信息。例如,一个胖脸在一个瘦脸模型基础上,通过调整五官比例可以得到胖脸模型。利用这种相关性,计算机只需要利用用户的脸与平均人脸的偏差信息,就能够生成专属于用户的 3D 模型。不仅如此,这些偏差还包括大致的年龄、性别和脸部长度等参数。但是,这样也存在一个问题,世界上的人脸千变万化,要将所有人脸与平均人脸的偏差都存储下来,3DMM 模型需要集成大量面部的信息,然而目前的开源模型在模仿不同年龄和种族人脸方面的能力十分有限。

如下图 BFM 的人脸数据基本都是外国人脸,跟亚洲人脸的数据分布存在差异;Facewarehouse 的数据主要是亚洲人脸,但是用 Kinect 扫描的模型则存在精度较低的问题;SFM 开源的数据只包含了 6 种表情,并且模型的精度较低,无法满足我们的需求;LSFM 数据包含了较多的人脸数据,但是不包含表情,无法用于用户表情跟踪。

美图影像实验室(MTlab)10000 点人脸关键点技术全解读

扫描出来的模型虽然是高精度的模型,但是不包含具体的语义信息。因此,MTlab 的 3D 研发团队专门为此开发了一套自动注册算法,无需人工进行标定就可以对扫描模型进行精细化注册,如下图所示:

美图影像实验室(MTlab)10000 点人脸关键点技术全解读

美图影像实验室(MTlab)10000 点人脸关键点技术全解读

最终,MTlab 将所有注册好的 3D 模型组合成 MT3DMM 数据库,用于 10000 点面部关键点定位。高精度的扫描模型也为开发其它功能提供了更多的可能。

3. 数据制作

为了能够发挥深度学习的大数据优势,需要给神经网络提供大量的数据,MTlab 研发人员设计了一套高复杂度的数据制作算法,同时配合高精度的 MT3DMM 模型制作出大量的训练数据。相比目前主流的训练数据制作方法,MTlab 的训练数据可以有效的解耦脸型,表情以及姿态信息,在进行精确的稠密点人脸定位的同时,进行 AR 特效以及精准的人脸表情驱动。

从上面的公式可以将人脸重建的问题转化成求 美图影像实验室(MTlab)10000 点人脸关键点技术全解读 , 美图影像实验室(MTlab)10000 点人脸关键点技术全解读 系数的问题,将我们参数化的 3D 人脸模型 美图影像实验室(MTlab)10000 点人脸关键点技术全解读 跟 2D 特征点 美图影像实验室(MTlab)10000 点人脸关键点技术全解读 进行映射后,便可以用下面的公式对脸部进行拟合,具体求解过程如下:

美图影像实验室(MTlab)10000 点人脸关键点技术全解读

这里 美图影像实验室(MTlab)10000 点人脸关键点技术全解读 是三维模型投影到二维平面的点,P 为正交投影矩阵,R 为旋转矩阵, 美图影像实验室(MTlab)10000 点人脸关键点技术全解读 为位移矩阵,这样我们就可以将三维求解问题转化成求解下面的能量方程:

美图影像实验室(MTlab)10000 点人脸关键点技术全解读

这里加了正则化部分,其中 美图影像实验室(MTlab)10000 点人脸关键点技术全解读 是 PCA 系数(包括形状系数 美图影像实验室(MTlab)10000 点人脸关键点技术全解读 以及表情系数 美图影像实验室(MTlab)10000 点人脸关键点技术全解读 ), 美图影像实验室(MTlab)10000 点人脸关键点技术全解读 表示对应的主成分偏差。

目前的 3D 重建算法大多都是将姿态,脸型以及表情参数一起优化,并不能将这三者独立开来,为了能够解耦姿态,表情,以及脸型之间的关系,MTlab 的数据包含了一个人同一姿态下的不同表情,以及同一表情下不同姿态的数据集,采用 Joint Optimization 策略来计算每个人的脸型,姿态以及表情参数,得到解耦后的参数数据可以真实反应出当前人脸的姿态信息,脸型信息以及表情信息,极大的丰富了应用场景。

4. 神经网络训练

传统的 3D 人脸重建算法,不管是单图重建、多图重建还是视频序列帧重建,都需要通过凸优化算法优化出所需要的参数,为了能够让算法在移动端实时运行,MTlab 研发人员采用深度神经网络进行 End-to-End 学习,通过神经网络强大的学习能力替代了凸优化过程的大量计算。通过研究分析目前移动端较快的网络(SqueezeNet、Shufflenet V2、PeleeNet、MobilenetV2、IGCV3)的特性,MTlab 研发人员提出了一种适合移动端网络,并且具备低功耗特性的 ThunderNet,配合 MTlab 研发的 AI 前向引擎和模型量化技术,在美图 T9 上运行帧率达到 500fps。MT3DMM 神经网络训练的要点如下:

美图影像实验室(MTlab)10000 点人脸关键点技术全解读

数据增益:为了适应 In-the-wild 图像,需要让算法对低分辨率、噪声、遮挡或包含运动和不同的光照场景下具有强鲁棒性,MTlab 采用了海量的数据,并用算法扰动模拟了各种真实环境下的数据进行训练。

网络结构:使用了 MTlab 自研的 ThunderNet 网络结构,在速度和精度上都超过了同规模的快速网络,包括 SqueezeNet、Shufflenet V2、PeleeNet、MobilenetV2、IGCV3,并具有低功耗的特点。

损失函数:Loss 主要采用了参数 Loss、KeyPoints Loss、3D Vertexes Loss 以及 Texture Loss,并且用相应的权重去串联它们,从而使网络收敛达到最佳效果。实验发现,参数 Loss 可以获取更加准确的参数语意信息,KeyPoints Loss 可以使最终的稠密人脸点贴合人脸五官信息,3D Vertexes Loss 能更好地保留用户脸部 3D 几何信息,Texture Loss 则可以帮助网络实现更好的收敛效果。

最终,在得到网络输出的参数后,MTlab 用 MT3DMM 模型解码出相应的人脸 3D 模型,根据姿态以及投影矩阵就可以得到面部稠密人脸点。模型都是经过参数化后,每一个点都有其相对应的语义信息,可以通过修改 3D 模型对图像进行相应的编辑。美图手机上光效相机、个性化美颜档案、3D 修容记忆、美颜立体提升、3D 姿态调整、App 萌拍动效、美妆相机万圣节妆容、彩妆、Avatar 驱动等功能都采用了该项技术。

V. Blanz and T. Vetter. A morphable model for the synthesis of 3D faces. In Proceedings of the 26th annual conference on Computer graphics and interactive techniques, pages 187– 194, 1999.

Cao C, Weng Y, Zhou S, et al. Facewarehouse: A 3d facial expression target="_blank">转载须知。

美图影像实验室(MTlab)10000 点人脸关键点技术全解读

全局中部横幅
问卷星

欢迎访问问卷星,免费使用创建问卷调查,在线考试,360度评估等应用,问卷星提供2700万问卷调查模板包括顾客满意度调查,大学生问卷调查等,统计分析报告和原始答卷可免费下载,问卷星支持手机填写,微信群发,红包抽奖,自定义域名等功能,超过18亿人次在问卷星上填写问卷调查,欢迎了解!

心理测评系统

心米科技股份有限公司(简称心米科技)是中国北京师范大学心身健康研究所专家专注于成果转化临床心理运营管理和患者康复的专业机构。心米愿景:成为中国最优秀的临床心理服务机构,让每一位需要心理支持的医院和患者都能得到专业的服务,早日康复!公司创始人于2008年50万人民币创办北京心米科技有限公司,十年时间,先后引入西门子等三轮风险投资1亿多美元,将心米发展成为国内临床心理诊断行业领军企业。

朋友不让放辣椒就成了这个样子

豆果美食为华人美食菜谱社区,提供各种美食、菜谱大全、食谱大全、精选的家常菜谱大全,用户通过图文形式记录生活的点滴,社区每天产生数万次的笔记曝光,内容覆盖时尚、护肤、美食、旅行、影视、读书、健身等各个生活方式领域。与千万会员一同分享的人生!

SIGEP

SIGEPChina深圳国际手工冰淇淋、烘焙及咖啡展览会,2023年落户深圳!是全球领先致力于甜品烘焙和咖啡餐饮业的B2B展会,被誉为欧洲最大的烘焙咖啡行业盛会!是整个行业创新的参考点,提供了所有新市场发展的完整概览:烘焙、巧克力、西点、冰淇淋、咖啡板块相互连接.提供了一个360度的甜点和咖啡世界。

热爱收录库

热爱收录库(www.r22.cn)是一个全面性大全网站,分享各类优秀的正规站点与网址免费收录。提供分类网站检索信息、排序整理分类、按行业分类或关键词搜索查询,免费自助式申请,并且免费收录各类正规网站网址!

亚通科技

浙江亚通通信科技有限公司,简称亚通科技,专业从事系统集成及相关产品的软件开发及制造,致力于浙江地区辐射全国,主营产品无人售货机,共享果蔬店,共享果蔬柜,消毒通道,测温通道,手机充电站,智能垃圾桶,便民自助终端,自助售卡/售票机,排队管理系统及医院智能自助设备

12580黄页

12580黄页为你提供全面、准确的企业及各类信息查询服务。涵盖多个行业领域,轻松找到你所需的联系方式与详细资讯。让12580黄页成为你商务与生活的得力助手。

户外休闲椅

湖北迎扬新材料技术有限公司专注塑木材料的应用与推广,面向湖北武汉.孝感.襄樊.荆州.宜昌.十堰.荆门.鄂州.黄冈.咸宁.随州.汉川.仙桃.潜江.天门.恩施等地销售塑木制品。

广州明讯信息科技有限公司

广州明讯信息科技有限公司是以中国科学园自动化控制系统技术力量为依托,明讯科技位于广州科学城TCL文化产业园1000平方的办公面积,拥有100平方的大型演示厅,广州明讯是一家专注从事数字会议音响系统,大屏幕拼接显示系统,智能中控系统,专业舞台灯光音响扩声系统等智能系统集成工程商,集咨询、技术支持、工程施工、方案设计、售后服务于一体的全方位专业工程公司。

简设计

简设计众包设计平台,为广大的设计师团队提供了一个发挥自己才能的平台,工作时间自由

船途

船途是专业的船舶查询平台,提供海量船舶搜索、筛选、定位、轨迹查询、免费卫星船位、电子围栏警报等功能,更有手机提醒船舶进出港动态、船舶运行状态功能,方便及时掌握船舶动态

全局底部横幅