多种高难度乐器信手拈来! 就能完美复现音乐 MIT联合沃森实验室团队推出最新AI 只看手势动作 (多种高难度乐谱图片)

文章编号:46624 资讯动态 2024-12-10 AI生成音乐

会玩乐器的人在生活中简直自带光环!

不过,学会一门乐器也真的很难,多少人陷入过从入门到放弃的死循环。

但是,不会玩乐器,就真的不能演奏出好听的音乐了吗?

最近,麻省理工(MIT)联合沃森人工智能实验室(MIT-IBM Watson AI Lab)共同开发出了一款AI模型 Foley Music ,它可以根据演奏手势完美还原乐曲原声!

只看手势动作,就能完美复现音乐,MIT联合沃森实验室团队推出最新AI,多种高难度乐器信手拈来!

而且还是不分乐器的那种,小提琴、钢琴、尤克里里、吉他,统统都可以。

只看手势动作,就能完美复现音乐,MIT联合沃森实验室团队推出最新AI,多种高难度乐器信手拈来!

只要拿起乐器,就是一场专业演奏会!如果喜欢不同音调,还可以对音乐风格进行编辑,A调、F调、G调均可。

只看手势动作,就能完美复现音乐,MIT联合沃森实验室团队推出最新AI,多种高难度乐器信手拈来!

这项名为《Foley Music:Learning to GenerateMusic from VIDeos》的技术论文已被ECCV2020收录。

接下来,我们看看AI模型是如何还原音乐的?

会玩多种乐器的Foley Music

如同为一段舞蹈配乐需要了解肢体动作、舞蹈风格一样,为乐器演奏者配乐,同样需要知道其手势、动作以及所用乐器。

如果给定一段演奏视频,AI会自动锁定目标对象的身体关键点(Body Keypoints),以及演奏的乐器和声音。

只看手势动作,就能完美复现音乐,MIT联合沃森实验室团队推出最新AI,多种高难度乐器信手拈来!

身体关键点:由AI系统中的 视觉感知模块 (Visual Perception Model)来完成。它会通过身体姿势和手势的两项指标来反馈。一般身体会提取25个关2D点,手指提起21个2D点。

乐器声音提取:采用 音频表征模块 (Audio Representation Model),该模块研究人员提出了一种乐器数字化接口(Musical Instrument Digital Interface,简称MIDI)的音频表征形式。它是Foley Music区别于其他模型的关键。

研究人员介绍,对于一个6秒中的演奏视频,通常会生成大约500个MIDI事件,这些MIDI事件可以轻松导入到标准音乐合成器以生成音乐波形。

在完成信息提取和处理后,接下来, 视-听模块 (Visual-Audio Model)将整合所有信息并转化,生成最终相匹配的音乐。

我们先来看一下它完整架构图:主要由视觉编码,MIDI解码和MIDI波形图输出三个部分构成。

只看手势动作,就能完美复现音乐,MIT联合沃森实验室团队推出最新AI,多种高难度乐器信手拈来!

视觉编码: 将视觉信息进行编码化处理,并传递给转换器MIDI解码器。从视频帧中提取关键坐标点,使用GCN(Graph-CNN)捕获人体动态随时间变化产生的潜在表示。

MIDI解码器: 通过Graph-Transfomers完成人体姿态特征和MIDI事件之间的相关性进行建模。Transfomers是基于编解码器的自回归生成模型,主要用于机器翻译。在这里,它可以根据人体特征准确的预测MIDI事件的序列。

MIDI输出: 使用标准音频合成器将MIDI事件转换为最终的波形。

实验结果

研究人员证实Foley Music远优于现有其他模型。在对比试验中,他们采用了三种数据集对Foley Music进行了训练,并选择了9中乐器,与其它GAN-based、SAmpleRNN和WaveNet三种模型进行了对比评估。

其中,数据集分别为AtinPiano、MUSIC及URMP,涵盖了超过11个类别的大约1000个高质量的音乐演奏视频。乐器则为风琴,贝斯,巴松管,大提琴,吉他,钢琴,大号,夏威夷四弦琴和小提琴,其视频长度均为6秒。以下为定量评估结果:

可见,Foley Music模型在贝斯(Bass)乐器演奏的预测性能最高达到了72%,而其他模型最高仅为8%。

只看手势动作,就能完美复现音乐,MIT联合沃森实验室团队推出最新AI,多种高难度乐器信手拈来!

另外,从以下四个指标来看,结果更为突出:

只看手势动作,就能完美复现音乐,MIT联合沃森实验室团队推出最新AI,多种高难度乐器信手拈来! 黄色为Foley Music模型,它在各项指标上的性能表现远远超过了其他模型,在正确性、噪音和同步性三项指标上最高均超过了0.6,其他最高不足0.4,且9种乐器均是如此。

另外,研究人员还发现,与其他基准系统相比,MIDI事件有助于改善声音质量,语义对齐和时间同步。

说明

另外,该模型的优势还在于它的可扩展性。MIDI表示是完全可解释和透明的,因此可以对预测的MIDI序列进行编辑,以生成A\G\F调不同风格音乐。如果使用波形或者频谱图作为音频表示形式的模型,这个功能是不可实现的。

只看手势动作,就能完美复现音乐,MIT联合沃森实验室团队推出最新AI,多种高难度乐器信手拈来!

最后研究人员在论文中表明,此项研究通过人体关键点和MIDI表示很好地建立视觉和音乐信号之间的相关性,实现了音乐风格的可拓展性。为当前研究视频和音乐联系拓展出了一种更好的研究路径。

以下为Youtobe视频,一起来感受下AI音乐!

引用链接:

原创文章,未经授权禁止转载。详情见 转载须知 。

全局中部横幅
长鸿精密

深圳市长鸿塑胶模具有限公司,12年专注于电木模具厂家,电木模具加工,电木生产厂家,深圳PF注塑厂家,胶木加工厂,提供产品设计,模具制作,生产注塑,喷油印丝,产品组装一站式服务,全国咨询热线:0755-23217349

太平洋汽车网pcauto.com.cn

太平洋汽车网下设汽车报价,汽车评测以及新闻、导购、维修、保养、安全、汽车论坛、自驾游、汽车休闲、汽车文化等方面的内容,是中国汽车排名前列的综合汽车网站,提供全面的车型数据、参数、配置、报价、相关新闻和图片等

东港远东节水灌溉设备有限公司

辽宁省东港市远东节水灌溉设备有限公司是生产PE、PVC、PPR等塑料管材、管件,集喷灌、微喷、滴灌、渗灌、过滤施肥系统等节水设备。是研制开发,生产销售为一体的专业公司

铝合金阳光雨棚

重庆博晟装饰工程有限公司专注于铝艺护栏、围栏、车棚、阳光雨棚、凉亭、葡萄架、庭院门、阳光房等各种铝艺产品设计、生产、定做、安装、售后等业务。从事铝艺行业多年,款式多样,质量可靠,大气美观,可为客户提供量身设计定制的服务,欢迎来电咨询!

雨伞厂,广州市荃雨美雨伞有限公司,广州雨伞厂,雨伞厂家,广东雨伞厂,广州太阳伞厂,太阳伞厂,帐篷厂,恩平雨伞厂,肇庆雨伞厂,鹤山雨伞厂,佛山雨伞厂,深圳雨伞厂,荃雨美雨伞厂,东莞雨伞厂,高尔夫雨伞,广州制伞厂,清远雨伞厂,中山雨伞厂,珠海雨伞厂,江门雨伞厂,韶关雨伞厂,伞厂,三水雨伞厂,阳江雨伞厂,阳春雨伞厂,雨伞工厂,雨伞生产工厂,广告雨伞厂,广告伞

广州市荃雨美雨伞有限公司,是广东地区一家集设计、生产、广告策划于一体的综合性企业。公司主要生产制造各类时尚的雨伞、广告伞,太阳伞,帐篷,广告太阳伞、沙滩伞等。公司有专业设计团队免费设计快速出版、欢迎来人来样定制各种广告雨伞、多年制伞经验受到客户一致好评,我们以客户理念为根本、以质量求生存的原则让本厂员工把好每一道质量关,荃雨美雨伞厂是一家实体雨伞厂、欢迎来人来电咨询定制。

杭州科莱迪环保技术有限公司

杭州科莱迪环保技术有限公司位于风景秀丽的浙江省杭州市,创建于2003年,致力于环境保护工程,科技攻关,新工艺研法应用;新产品开发与生产为主导,博采国内外先进的给排水处理工艺和设备的长处。对生活污水、工业废水处理与资源回用等净化消毒技术,进行了长期的开发与应用,研制生产出了新一代,先进典型实用的消毒新产品“CL缓释消毒器”,并已申报了国家专利,同时赢得了广大用户的青睐。对此,本厂遵循专业、诚信、创新的精神,奉行质量第一,用户至上的宗旨,为推动中国环保事业作出自己的贡献。

必要商城

必要商城是国内首家C2M(CustomerTOManufactory)模式电子商务平台,消费者直连制造商购物,享受大牌品质,工厂价格。2024年加入一线品牌商品,大牌特卖,买贵退差,为您提供高性价比的商品和服务。

登录

乐用微信应用开发平台是微信第三方合作伙伴,拥有小程序生成工具,在这里您能找到您想要的各种模块功能并快速生成您想要的小程序.无需编码,无需程序员,300秒就可以完成快速制作。

【龙岩吊车

龙岩鼎邦起重吊装有限公司主提供:龙岩起重,龙岩吊车,龙岩拖车,龙岩背车,龙岩交通施救,龙岩设备就位,龙岩装卸,龙岩工程机械出租,龙岩设备安装,龙岩物流,龙岩货车

伊马莱富(上海)制药机械有限公司

伊马莱富(上海)制药机械有限公司是一家年轻而富有活力的公司,坐落于上海青浦工业园区。专业从事液体、粉末药品的无菌灌装联动线的研发、生产、销售和服务;包括洗瓶机、灭菌烘箱、液体和粉体灌装机、轧盖机。伊马莱富(上海)制药机械有限公司致力于服务国内外市场并取得了显著的成就,在2012年底成为了意大利伊马(IMA)集团成员。

钢结构不锈钢岗亭

上海岗亭厂家产品:保安岗亭、门卫岗亭、钢结构不锈钢岗亭等小区保安值班成品岗亭,更有豪华型真石漆岗亭。翼亭岗亭行业的智慧工厂。可来图来样设计岗亭,定制移动厕所、垃圾房等产品。翼亭岗亭厂家直销价格优惠,品质保证!覆盖浙江|上海|江苏|北京|天津|河北|山东|山西|江西|湖南|湖北|宁夏|安徽|内蒙古等全国地区

全局底部横幅