腾讯版Sora发布即开源!130亿参数 推理代码全开放 模型权重 (腾讯版sora)

梦晨 西风 发自 凹非寺

量子位 | 公众号 QbitAI

腾讯版Sora,发布即开源!

,成为目前参数量最大的开源视频生成模型。 模型权重、推理代码、模型算法 等全部上传GitHub与Hugging Face,一点没藏着。

实际效果如何呢?

不瞒你们说,我真的看见一只大熊猫,在跳广场舞、吃火锅、打麻将,请看VCR:

到底是来自四川的猫!

目前该模型已上线腾讯元宝APP,用户可在AI应用中的“AI视频”板块申请试用。

开发者可通过腾讯云接入。

腾讯混元视频生成主打四大特点:

那么实际表现能否符合描述?下面结合实例一一拆解。

实测腾讯首个文生视频模型

腾讯版Sora发布即开源130亿参数推理代

首先是冲浪题材,涉及到画面大幅度运动,水的物理模拟等难点。

提示词中还特别指定了摄像头的运动,腾讯混元表现出流畅运镜的能力,只是在“最后定格在…”这个要求上稍显不足。

提示词:超大海浪,冲浪者在浪花上起跳,完成空中转体。摄影机从海浪内部穿越而出,捕捉阳光透过海水的瞬间。水花在空中形成完美弧线,冲浪板划过水面留下轨迹。最后定格在冲浪者穿越水帘的完美瞬间。

镜子题材,考验模型对光影的理解,以及镜子内外主体运动是否能保持一致

提示词中的白床单元素又加大了难度,涉及到的布料模拟,也符合物理规律。

不过人们想象中的幽灵一般没有脚,AI似乎没学到,又或者是跳舞涉及大量腿部动作,产生了冲突。

穿着白床单的幽灵面对着镜子。镜子中可以看到幽灵的倒影。幽灵位于布满灰尘的阁楼中,阁楼里有老旧的横梁和被布料遮盖的家具。阁楼的场景映照在镜子中。幽灵在镜子前跳舞。电影氛围,电影打光。

再来一个综合型的复杂提示词,对主角外貌、动作、环境都有细致描述,画面中还出现其他人物,腾讯混元表现也不错。

特写镜头拍摄的是一位60多岁、留着胡须的灰发男子,他坐在巴黎的一家咖啡馆里,沉思着宇宙的历史,他的眼睛聚焦在画外走动的人们身上,而他自己则基本一动不动地坐着,他身穿羊毛大衣西装外套,内衬系扣衬衫,戴着棕色贝雷帽和眼镜,看上去很有教授风范,片尾他露出一丝微妙的闭嘴微笑,仿佛找到了生命之谜的答案,灯光非常具有电影感,金色的灯光,背景是巴黎的街道和城市,景深,35毫米电影胶片。

最后附上来自官方的写prompt小tips:

更多腾讯混元生成的视频,以及与Sora同提示词PK,还可以看看量子位在内测阶段的尝试。

最大的开源视频生成模型。

看完效果,再看看技术层面有哪些亮点。

首先从官方评估结果看,混元视频生成模型在文本视频一致性、运动质量和画面质量多个维度效果领先。

然后从目前公开资料看,腾讯混元视频生成模型还有三个亮点。

1、文本编码器部分,已经适配多模态大模型

当下行业中多数视觉生成模型的文本编码器,适配的主要是上一代语言模型,如OpenAI的CLIP和谷歌T5及各种变种。

腾讯在开源图像生成模型Hunyuan-DiT中适配的是T5和CLIP的结合,这次更进一步,直接升级到了新一代多模态大语言模型(Multimodal Large Language Model)。

由此能够获得更强大的语义跟随能力,体现在能够更好地应对画面中存在的多个主体,以及完成指令中更多的细节。

2、视觉编码器部分,支持混合图片/视频训练,提升压缩重建性能

视频生成模型中的视觉编码器,在压缩图片/视频数据,保留细节信息方面起着关键作用。

混元团队自研了3D视觉编码器支持混合图片/视频训练,同时优化了编码器训练算法,显著提升了编码器在快速运行、纹理细节上的压缩重建性能,使得视频生成模型在细节表现上,特别是小人脸、高速镜头等场景有明显提升。

3、从头到尾用full attention(全注意力)的机制,没有用时空模块,提升画面流畅度。

混元视频生成模型采用统一的全注意力机制,使得每帧视频的衔接更为流畅,并能实现主体一致的多视角镜头切换。

与“分离的时空注意力机制”分别关注视频中的空间特征和时间特征,相比之下,全注意力机制则更像一个纯视频模型,表现出更优越的效果。

更多细节,可以参见完整技术报告~

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

全局中部横幅
成都共板法兰风管厂家

四川吉瑞通机电是一家集风管研发生产制作于一体的成都风管加工厂,公司主营成都共板法兰风管,成都角钢法兰风管以及成都消防排烟管,同时吉瑞通还从事成都镀锌风管和成都人防风管的批发销售业务.我们拥有多条先进风管生产线和各类专用设备几十台,可达快速质优日产千余平方的高要求,如果您对风管有相关需求,欢迎来电18428369100洽谈合作.

新闻直播间

《新闻直播间》是CCTV-13新闻频道的整点新闻报道。

发表情

发表情,最新最全的无水印表情包分享与制作平台。有海量热门表情、聊天表情、微信表情包、QQ表情包、金馆长表情包、蘑菇头表情包等各类表情。

天禾助学官网

天禾助学官网_西安市天禾助学慈善基金会_教育资助网_一对一公益助学平台_大学生资助_中小学贫困生_初中教师资助平台

四川夹江风顺运业有限公司

四川夹江风顺运业有限公司于2004年8月通过交通部长航局组织的长江及内河航运企业的资质审查合格。主要营运范围:“长江干流及其省际普通货船运输、长江干流外贸集装箱内支线班轮运输、内河的大件及其他货物运输”。

广州商标注册

正穗知识产权代理公司为中小企业提供广州商标注册、商标申请、注册流程及费用咨询、商标注册查询等服务,致力于为小微企业提供安全、优质、高效的工商财税一站式服务。

上海舞台灯光音响租赁搭建线阵

上海舞台音响租赁灯光音响出租、舞台灯光租赁、舞台搭建、线阵音箱、摇头灯、光束灯、面光灯、大屏租赁、上海led大屏出租,电话:13818073616,专业做事,实在做人!

火数云

火数云云服务器是火数云基于独有的云计算技术打造的可弹型伸缩的高性能计算服务,达到网站秒开、安全稳定、24小时金牌服务。公司致力于全球网络建设深耕十余年,目前有国内电信服务器、国内联通服务器、国内移动服务器、国内高防服务器、国内BGP多线服务器、高防CDN等、全部24小时技术支持。

古诗词网

古诗词网专注于诗词歌赋汉语词典古诗词大全服务,唐诗网收录了数千万宋词和唐诗三百首诗歌文章及诗词大全名句和古典文集,古诗词网致力于让古诗词爱好者更便捷地获取古诗词相关资料,唐诗网品读经典,传承文明,欣赏中国最美古诗词从古诗词网开始。

深圳爱立家家居有限公司

爱立家家居,中国家居行业中的优秀品牌,隶属深圳爱立家家居,自成立以来,专业从事软体家居产品的研究、开发、生产与销售,为千万家庭提供健康、舒适、环保的客厅和卧房家居产品。

压片机

压片机网,制药设备,服务制药行业用户和制药设备企业的网站,有制药设备操作演示视频的资源,为用户和厂家提供服务,欢迎访问咨询!

新侨光电

新侨激光是一家专注于研制、开发和生产于一体的CO2激光器及其核心部件的现代化企业,也是国内目前单类单品规模最大、品质最好,最具稳定性中功率二氧化碳玻璃激光管厂家,公司推出的800W中功率二氧化碳玻璃激光器属于国内首创,填补了国内单品市场的空白。依托于华中科大拥有目前国内最好的技术研发团队和经验最丰富的工艺团队,产品性能相对于同类厂家更佳,具备很大的竞争优势。公司的主要产品有:300W、450W、600W、800W等中功率激光器。

全局底部横幅