多种高难度乐器信手拈来! 就能完美复现音乐 MIT联合沃森实验室团队推出最新AI 只看手势动作 (多种高难度乐谱图片)

文章编号:46624 资讯动态 2024-12-10 AI生成音乐

会玩乐器的人在生活中简直自带光环!

不过,学会一门乐器也真的很难,多少人陷入过从入门到放弃的死循环。

但是,不会玩乐器,就真的不能演奏出好听的音乐了吗?

最近,麻省理工(MIT)联合沃森人工智能实验室(MIT-IBM Watson AI Lab)共同开发出了一款AI模型 Foley Music ,它可以根据演奏手势完美还原乐曲原声!

只看动作,就能完美复现音乐,MIT联合沃森实验室团队推出最新AI,多种高难度乐器信手拈来!

而且还是不分乐器的那种,小提琴、钢琴、尤克里里、吉他,统统都可以。

只看动作,就能完美复现音乐,MIT联合沃森实验室团队推出最新AI,多种高难度乐器信手拈来!

只要拿起乐器,就是一场专业演奏会!如果喜欢不同音调,还可以对音乐风格进行编辑,A调、F调、G调均可。

只看动作,就能完美复现音乐,MIT联合沃森实验室团队推出最新AI,多种高难度乐器信手拈来!

这项名为《Foley Music:Learning to GenerateMusic from Videos》的技术论文已被ECCV2020收录。

接下来,我们看看AI模型是如何还原音乐的?

会玩多种乐器的Foley Music

如同为一段舞蹈配乐需要了解肢体动作、舞蹈风格一样,为乐器演奏者配乐,同样需要知道其手势、动作以及所用乐器。

如果给定一段演奏视频,AI会自动锁定目标对象的身体关键点(Body Keypoints),以及演奏的乐器和声音。

只看动作,就能完美复现音乐,MIT联合沃森实验室团队推出最新AI,多种高难度乐器信手拈来!

身体关键点:由AI系统中的 视觉感知模块 (Visual Perception model)来完成。它会通过身体姿势和手势的两项指标来反馈。一般身体会提取25个关2D点,手指提起21个2D点。

乐器声音提取:采用 音频表征模块 (Audio Representation Model),该模块研究人员提出了一种乐器数字化接口(Musical Instrument Digital Interface,简称MIDI)的音频表征形式。它是Foley Music区别于其他模型的关键。

研究人员介绍,对于一个6秒中的演奏视频,通常会生成大约500个MIDI事件,这些MIDI事件可以轻松导入到标准音乐合成器以生成音乐波形。

在完成信息提取和处理后,接下来, 视-听模块 (Visual-Audio Model)将整合所有信息并转化,生成最终相匹配的音乐。

我们先来看一下它完整架构图:主要由视觉编码,MIDI解码和MIDI波形图输出三个部分构成。

只看动作,就能完美复现音乐,MIT联合沃森实验室团队推出最新AI,多种高难度乐器信手拈来!

视觉编码: 将视觉信息进行编码化处理,并传递给转换器MIDI解码器。从视频帧中提取关键坐标点,使用GCN(Graph-CNN)捕获人体动态随时间变化产生的潜在表示。

MIDI解码器: 通过Graph-Transfomers完成人体姿态特征和MIDI事件之间的相关性进行建模。Transfomers是基于编解码器的自回归生成模型,主要用于机器翻译。在这里,它可以根据人体特征准确的预测MIDI事件的序列。

MIDI输出: 使用标准音频合成器将MIDI事件转换为最终的波形。

实验结果

研究人员证实Foley Music远优于现有其他模型。在对比试验中,他们采用了三种数据集对Foley Music进行了训练,并选择了9中乐器,与其它GAN-based、SampleRNN和WaveNet三种模型进行了对比评估。

其中,数据集分别为AtinPiano、MUSIC及URMP,涵盖了超过11个类别的大约1000个高质量的音乐演奏视频。乐器则为风琴,贝斯,巴松管,大提琴,吉他,钢琴,大号,夏威夷四弦琴和小提琴,其视频长度均为6秒。以下为定量评估结果:

可见,Foley Music模型在贝斯(Bass)乐器演奏的预测性能最高达到了72%,而其他模型最高仅为8%。

只看动作,就能完美复现音乐,MIT联合沃森实验室团队推出最新AI,多种高难度乐器信手拈来!

另外,从以下四个指标来看,结果更为突出:

只看动作,就能完美复现音乐,MIT联合沃森实验室团队推出最新AI,多种高难度乐器信手拈来! 黄色为Foley Music模型,它在各项指标上的性能表现远远超过了其他模型,在正确性、噪音和同步性三项指标上最高均超过了0.6,其他最高不足0.4,且9种乐器均是如此。

另外,研究人员还发现,与其他基准系统相比,MIDI事件有助于改善声音质量,语义对齐和时间同步。

说明

另外,该模型的优势还在于它的可扩展性。MIDI表示是完全可解释和透明的,因此可以对预测的MIDI序列进行编辑,以生成A\G\F调不同风格音乐。如果使用波形或者频谱图作为音频表示形式的模型,这个功能是不可实现的。

只看动作,就能完美复现音乐,MIT联合沃森实验室团队推出最新AI,多种高难度乐器信手拈来!

最后研究人员在论文中表明,此项研究通过人体关键点和MIDI表示很好地建立视觉和音乐信号之间的相关性,实现了音乐风格的可拓展性。为当前研究视频和音乐联系拓展出了一种更好的研究路径。

以下为Youtobe视频,一起来感受下AI音乐!

引用链接:

原创文章,未经授权禁止转载。详情见 转载须知 。

全局中部横幅
生死狙击2

《生死狙击2》是一款华流次世代畅爽射击网游!生死狙击2打造全模式玩法,极致超燃战斗体验!4399生死狙击2官网提供更多游戏视频、生死狙击2游戏下载、游戏攻略等资料。

叶ིྀ落ིྀ知ིྀ秋ིྀ的所有菜谱视频

这里有所有篇,叶ིྀ落ིྀ知ིྀ秋ིྀ的菜谱和视频,以及所有的故事

中国摩擦片网

南通海天摩擦材料科技有限公司专业生产各类摩擦片、机械用工业印刷机械刹车片、包装机械制动器摩擦片、纺织机械离合摩擦片、橡胶机械制动器刹车片、线缆机械设备摩擦片、食品机械离合器摩擦片、工程机械制动电机刹车片、风电偏航制动刹车片等高端摩擦制品。

小葱科技

小葱科技以整合供应链为基础,通过整合实物,虚拟供应链,向合作方和消费者提供全类目,高品质的一站式服务平台,通过APi,H5,团购,集采,一站式代发等方式,帮助企业客户实现一站式采购。降低采购成本,提高采购效率。 小葱科技提供产品供应链,仓储物流,技术研发到创新营销策略一站式解决方案!满足各种私域电商对全品类商品一件倒入,一件代发,极速售后等功能需求,助力企业降本增效。 小葱科技提供虚拟类产品对接,整合数百种互联网会员权益,涵盖影音娱乐,吃喝玩乐,衣食住行,等生活场景

广州注册公司,公司注册,代理记账

广州市正穗财税咨询有限公司是一家成立17年的公司,主要为大家提供企业服务、财务服务、知识产权等服务,主要的业务包括广州注册公司、商标注册、代理记账等,如有需求可以联系我们。

福州订花,福州鲜花店,福州鲜花速递

签收满意后再付款,获多家媒体报到,福州鲜花新鲜的花材,特价优惠,福州鲜花店不满意免单、过期退款,福州兰草缘花坊,具影响力的,福州市订花异地订花,福州送鲜花用心传递,送花到福州覆盖本地及全国各区县。

广州仟岱机电设备有限公司

广州仟岱机电设备有限公司,主营仟岱离合器,仟岱刹车器,台湾仟岱所生产产品。

防鸟网@尼龙防鸟网@果园尼龙防鸟网@葡萄果园尼龙防鸟网@防鸟网生产厂家@德阳尼龙葡萄果园防鸟网

★★★★安平县龚祥丝网制品有限公司专业生产防鸟网,尼龙防鸟网,果园尼龙防鸟网,葡萄果园尼龙防鸟网,防鸟网厂家,防鸟网生产厂家,德阳尼龙葡萄果园防鸟网,达州葡萄果园尼龙防鸟网,泸州葡萄果园防鸟尼龙网各种规格可加工定做。

项目管理者联盟

项目管理者联盟网[www.mypm.net]是国内最知名的项目管理专业网站,涵盖工程项目管理领域,IT软件项目管理领域,制造研发项目管理领域的项目管理专业资料、知识与专题。

九色石(广东)建筑材料科技有限公司

九色石(广东)建筑材料科技有限公司

首页

欢迎来到我的技术博客。在这里,我分享我在软件开发、编程语言、前端和后端技术等方面的见解和经验。让我们一起学习和成长!

全局底部横幅