模型权重 推理代码全开放 腾讯版Sora发布即开源!130亿参数 (模型权重推理怎么做)

梦晨 西风 发自 凹非寺

量子位 | 公众号 QbitAI

腾讯版Sora,发布即开源!

,成为目前参数量最大的开源视频生成模型。 模型权重、推理代码、模型算法 模型权重推理代码全开放腾讯版Sora发布即开 等全部上传GitHub与Hugging Face,一点没藏着。

实际效果如何呢?

不瞒你们说,我真的看见一只大熊猫,在跳广场舞、吃火锅、打麻将,请看VCR:

到底是来自四川的猫!

目前该模型已上线腾讯元宝APP,用户可在AI应用中的“AI视频”板块申请试用。

开发者可通过腾讯云接入。

腾讯混元视频生成主打四大特点:

那么实际表现能否符合描述?下面结合实例一一拆解。

实测腾讯首个文生视频模型

首先是冲浪题材,涉及到画面大幅度运动,水的物理模拟等难点。

提示词中还特别指定了摄像头的运动,腾讯混元表现出流畅运镜的能力,只是在“最后定格在…”这个要求上稍显不足。

提示词:超大海浪,冲浪者在浪花上起跳,完成空中转体。摄影机从海浪内部穿越而出,捕捉阳光透过海水的瞬间。水花在空中形成完美弧线,冲浪板划过水面留下轨迹。最后定格在冲浪者穿越水帘的完美瞬间。

镜子题材,考验模型对光影的理解,以及镜子内外主体运动是否能保持一致。

提示词中的白床单元素又加大了难度,涉及到的布料模拟,也符合物理规律。

不过人们想象中的幽灵一般没有脚,AI似乎没学到,又或者是跳舞涉及大量腿部动作,产生了冲突。

穿着白床单的幽灵面对着镜子。镜子中可以看到幽灵的倒影。幽灵位于布满灰尘的阁楼中,阁楼里有老旧的横梁和被布料遮盖的家具。阁楼的场景映照在镜子中。幽灵在镜子前跳舞。电影氛围,电影打光。

再来一个综合型的复杂提示词,对主角外貌、动作、环境都有细致描述,画面中还出现其他人物,腾讯混元表现也不错。

特写镜头拍摄的是一位60多岁、留着胡须的灰发男子,他坐在巴黎的一家咖啡馆里,沉思着宇宙的历史,他的眼睛聚焦在画外走动的人们身上,而他自己则基本一动不动地坐着,他身穿羊毛大衣西装外套,内衬系扣衬衫,戴着棕色贝雷帽和眼镜,看上去很有教授风范,片尾他露出一丝微妙的闭嘴微笑,仿佛找到了生命之谜的答案,灯光非常具有电影感,金色的灯光,背景是巴黎的街道和城市,景深,35毫米电影胶片。

最后附上来自官方的写prompt小tips:

更多腾讯混元生成的视频,以及与Sora同提示词PK,还可以看看量子位在内测阶段的尝试

最大的开源视频生成模型。

看完效果,再看看技术层面有哪些亮点。

首先从官方评估结果看,混元视频生成模型在文本视频一致性、运动质量和画面质量多个维度效果领先。

然后从目前公开资料看,腾讯混元视频生成模型还有三个亮点。

1、文本编码器部分,已经适配多模态大模型

当下行业中多数视觉生成模型的文本编码器,适配的主要是上一代语言模型,如OpenAI的CLIP和谷歌T5及各种变种。

腾讯在开源图像生成模型Hunyuan-DiT中适配的是T5和CLIP的结合,这次更进一步,直接升级到了新一代多模态大语言模型(MulTimodal Large Language Model)。

由此能够获得更强大的语义跟随能力,体现在能够更好地应对画面中存在的多个主体,以及完成指令中更多的细节。

2、视觉编码器部分,支持混合图片/视频训练,提升压缩重建性能

视频生成模型中的视觉编码器,在压缩图片/视频数据,保留细节信息方面起着关键作用。

混元团队自研了3D视觉编码器支持混合图片/视频训练,同时优化了编码器训练算法,显著提升了编码器在快速运行、纹理细节上的压缩重建性能,使得视频生成模型在细节表现上,特别是小人脸、高速镜头等场景有明显提升。

3、从头到尾用full attention(全注意力)的机制,没有用时空模块,提升画面流畅度。

混元视频生成模型采用统一的全注意力机制,使得每帧视频的衔接更为流畅,并能实现主体一致的多视角镜头切换。

与“分离的时空注意力机制”分别关注视频中的空间特征和时间特征,相比之下,全注意力机制则更像一个纯视频模型,表现出更优越的效果。

更多细节,可以参见完整技术报告~

— 完 —

量子位 QbitAI · 头条号签约

关注我们,第一时间获知前沿科技动态

全局中部横幅
腾讯网

腾讯网从2003年创立至今,已经成为集新闻信息,区域垂直生活服务、社会化媒体资讯和产品为一体的互联网媒体平台。腾讯网下设新闻、科技、财经、娱乐、体育、汽车、时尚等多个频道,充分满足用户对不同类型资讯的需求。同时专注不同领域内容,打造精品栏目,并顺应技术发展趋势,推出网络直播等创新形式,改变了用户获取资讯的方式和习惯。

点镜scrm

点镜scrm提供企业微信相关所有服务,包括员工企业微信号风控客服监管系统,企业微信朋友圈运营、聊天会话内容合规存档、业务对话记录管控的移动手机在线scrm,公司私域流量营销管理软件。

山东济容热工科技有限公司

山东济容热工科技有限公司(简称“山东济容”)位于山东省济南市,依托济南市压力容器厂,致力于海外市场的业务拓展,国际标准的产品设计、制造及技术研发。

西安网站优化

铭赞富海360网络营销系统专业从事互联网营销服务的公司,主要业务为:企业网站推广,百度关键词排名,网站SEO优化外包等网络营销解决方案,为向互联网商业转型的传统企业提供了精准的互联网营销服务与方法。

皮卡布早教

宝宝早教动画片下载,早教儿歌故事,英语资料、美术资料、中英文绘本、儿歌故事、自然拼读、国学历史等资源下载,针对幼儿早教提供最有价值的资源,早教启蒙育儿知识分享。

长沙集盈堂门窗有限公司

集盈堂门室是家集设计、生产、销售、安装及技术服务于一体,以全方位的服务理念引导消费

首页

回想科技-为企业提供高端响应式网站建设,UI界面设计,LOGO设计,VI设计,画册设计,品牌设计,商城开发,微信小程序开发,咨询电话:18623346208

合肥网站建设,合肥网络公司,合肥网站制作,合肥做网站的公司【合肥梦扬科技有限公司】

梦扬科技是一家致力于合肥网站建设的合肥网络公司,为您提供合肥网站建设,合肥网站制作,合肥网站优化等服务,合肥做网站,就选梦扬科技!电话:0551-64935250

专业注册公司服务

慧工商网提供专业注册公司服务,工商变更服务,公司注销服务,异章证遗失登报补办等全程免费服务无需第三方服务。

珠宝加盟网

珠宝加盟网【www.zb118.com】是品牌珠宝招商代理、连锁加盟全媒体平台,提供钻石、黄金、银饰、玉石、彩宝、珍珠、饰品、奢侈品、珠宝展具及珠宝城招商加盟创业项目。

嘉兴保洁公司

嘉兴喜洁来保洁清洗有限公司:嘉兴保洁公司,嘉兴清洗公司,嘉兴地毯清洗,嘉兴石材翻新,嘉兴石材养护,嘉兴烟道清洗,嘉兴外墙清洗,嘉兴水箱清洗,嘉兴开荒保洁公司,嘉兴广告牌清洗,嘉兴地毯清洗公司,嘉兴外墙清洗公司,嘉兴烟道清洗公司

全局底部横幅