腾讯版Sora发布即开源!130亿参数 推理代码全开放 模型权重 (腾讯版sora)

梦晨 西风 发自 凹非寺

量子位 | 公众号 QbitAI

腾讯版Sora,发布即开源!

,成为目前参数量最大的开源视频生成模型。 模型权重、推理代码、模型算法 等全部上传GithubHugging Face,一点没藏着。

实际效果如何呢?

不瞒你们说,我真的看见一只大熊猫,在跳广场舞、吃火锅、打麻将,请看VCR:

到底是来自四川的猫!

目前该模型已上线腾讯元宝APP,用户可在AI应用中的“AI视频”板块申请试用。

开发者可通过腾讯云接入。

腾讯混元视频生成主打四大特点:

那么实际表现能否符合描述?下面结合实例一一拆解。

实测腾讯首个文生视频模型

腾讯版Sora发布即开源130亿参数推理代

首先是冲浪题材,涉及到画面大幅度运动,水的物理模拟等难点。

提示词中还特别指定了摄像头的运动,腾讯混元表现出流畅运镜的能力,只是在“最后定格在…”这个要求上稍显不足。

提示词:超大海浪,冲浪者在浪花上起跳,完成空中转体。摄影机从海浪内部穿越而出,捕捉阳光透过海水的瞬间。水花在空中形成完美弧线,冲浪板划过水面留下轨迹。最后定格在冲浪者穿越水帘的完美瞬间。

镜子题材,考验模型对光影的理解,以及镜子内外主体运动是否能保持一致。

提示词中的白床单元素又加大了难度,涉及到的布料模拟,也符合物理规律。

不过人们想象中的幽灵一般没有脚,AI似乎没学到,又或者是跳舞涉及大量腿部动作,产生了冲突。

穿着白床单的幽灵面对着镜子。镜子中可以看到幽灵的倒影。幽灵位于布满灰尘的阁楼中,阁楼里有老旧的横梁和被布料遮盖的家具。阁楼的场景映照在镜子中。幽灵在镜子前跳舞。电影氛围,电影打光。

再来一个综合型的复杂提示词,对主角外貌、动作、环境都有细致描述,画面中还出现其他人物,腾讯混元表现也不错。

特写镜头拍摄的是一位60多岁、留着胡须的灰发男子,他坐在巴黎的一家咖啡馆里,沉思着宇宙的历史,他的眼睛聚焦在画外走动的人们身上,而他自己则基本一动不动地坐着,他身穿羊毛大衣西装外套,内衬系扣衬衫,戴着棕色贝雷帽和眼镜,看上去很有教授风范,片尾他露出一丝微妙的闭嘴微笑,仿佛找到了生命之谜的答案,灯光非常具有电影感,金色的灯光,背景是巴黎的街道和城市,景深,35毫米电影胶片。

最后附上来自官方的写prompt小tips:

更多腾讯混元生成的视频,以及与Sora同提示词PK,还可以看看量子位在内测阶段的尝试。

最大的开源视频生成模型。

看完效果,再看看技术层面有哪些亮点。

首先从官方评估结果看,混元视频生成模型在文本视频一致性、运动质量和画面质量多个维度效果领先。

然后从目前公开资料看,腾讯混元视频生成模型还有三个亮点。

1、文本编码器部分,已经适配多模态大模型

当下行业中多数视觉生成模型的文本编码器,适配的主要是上一代语言模型,如OpenAI的CLIP和谷歌T5及各种变种。

腾讯在开源图像生成模型Hunyuan-DiT中适配的是T5和CLIP的结合,这次更进一步,直接升级到了新一代多模态大语言模型(Multimodal Large Language Model)。

由此能够获得更强大的语义跟随能力,体现在能够更好地应对画面中存在的多个主体,以及完成指令中更多的细节。

2、视觉编码器部分,支持混合图片/视频训练,提升压缩重建性能

视频生成模型中的视觉编码器,在压缩图片/视频数据,保留细节信息方面起着关键作用。

混元团队自研了3D视觉编码器支持混合图片/视频训练,同时优化了编码器训练算法,显著提升了编码器在快速运行、纹理细节上的压缩重建性能,使得视频生成模型在细节表现上,特别是小人脸、高速镜头等场景有明显提升。

3、从头到尾用full attention(全注意力)的机制,没有用时空模块,提升画面流畅度。

混元视频生成模型采用统一的全注意力机制,使得每帧视频的衔接更为流畅,并能实现主体一致的多视角镜头切换。

与“分离的时空注意力机制”分别关注视频中的空间特征和时间特征,相比之下,全注意力机制则更像一个纯视频模型,表现出更优越的效果。

更多细节,可以参见完整技术报告~

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

全局中部横幅
六间房

六间房是中国知名的在线视频娱乐直播平台之一,提供24小时不间断的视频直播服务,你可以找到喜欢的网络主播,看TA视频直播,和TA聊天交友互动。六间房:直播精彩人生,给平凡人展现自己的舞台!

众车网

众车网为您提供汽车报价、行情导购、试驾评测、汽车图片、汽车新闻、用车养车等专业内容,及在线询价、购车贷款、以旧换新等服务,想了解更多汽车信息,就上众车网。

网易126免费邮箱登录

网易免费邮箱--你的专业电子邮局,提供以@163.com、@126.com和@yeah.net为后缀的免费邮箱。16年邮箱运营经验,系统快速稳定,垃圾邮件拦截率超过98%,邮箱容量自动翻倍,支持高达2G超大附件,提供免费网盘及手机邮箱服务。

渝朗婚庆网

渝朗婚庆网提供了婚庆酒店、婚庆用品、婚庆布置、婚庆摄影、婚庆文案、婚庆车队等信息资讯。

压力变送器

天长市正业测控仪表有限公司是一家集设计_研发_生产和销售于一体的变送器厂家;主要产品有:压力变送器,差压变送器,单晶硅变送器,液位变送器等,广泛应用于石油开采-火力发电-矿山机械设备等行业.

广东固盾不锈钢玻璃防火门厂,不锈钢防火门,钢质防火门,不锈钢防火玻璃门,电影院防火隔音门生产厂家,东莞市固盾实业有限公司官网

广东固盾防火门生产厂家全国销售电话:18075925566专业生产销售钢质防火门,不锈钢防火玻璃门,不锈钢玻璃防火门,不锈钢防火门,KTV不锈钢防火门,电影院隔音防火门,防火卷帘门,木质防火门芯,防火窗.固盾防火门产品通过国家防火门3C强制性认证。公司具有一批优秀防火门设计师团队,采用防火门自动生产线流水作业,以优惠的防火门价格,过硬的防火门质量保证防火门通过消防验收标准赢得大批客户好评。

浙江学前网

浙江学前教育网提供(学前教育,早期教育,幼儿园教材,园长管理,学前幼师培训,幼儿机构求职招聘,幼儿园教案,课件下载,蒙氏数学)的省内综合性幼儿教育,学前教育网络平台

锦州自然之声听力

锦州自然之声助听器听力连锁在锦州市拥有多座验配中心可为您提供最佳的服务品质帮您完美解决助听器验配问题还您一个清晰的世界咨询热线:0416-3230380

德国玛格力磁电

百度地图API自定义地图,帮助用户在可视化操作下生成百度地图

华康整形网

华康整形网全国知名整形咨询平台,在这里我们可以为您提供各方面的整形美容咨询,想要变美就上华康网。全国上千家整形机构合作,筛选用户真实体验反馈,见证了上万名用户变美。

建业集团

建业住宅集团(中国)有限公司(下称“本公司”)成立于1992年,由建业地产股份有限公司董事局主席胡葆森先生创建。本公司于2008年6月6日在香港联合交易所有限公司(“联交所”)主板上市(股票编号:832.HK),具有中国房地产开发企业一级资质。

全局底部横幅