Luma们一锅端了!这款视频模型上 杀手级 功能 把Runway (lu ma)
把Runway、Luma们一锅端了!这款视频模型上“杀手级”功能 播报文章
量子位 关注作者 获得积分关注 来自北京衡宇 发自 凹非寺
量子位 | 公众号 QbitAI
三张图攒一个毫无违和感的视频!
视频模型领域又沸腾了!
把Runway、LumaAI等一众视频模型都一锅端了。海外用户评价,一众视频模型都实现不了的能力,它竟然给攻破了,甚至在语义理解甚至比图像模型王者Midjorney还强。
——全球最早对标Sora发布的视频模型。昨天新上的“杀手级”功能:。
这个功能上周六Vidu就在X上偷偷预热了,昨天正式上线。简单讲,这个功能支持上传1~3张参照,来实现对多主体的控制。
以官方发布的demo为例,丢入“黑人男子、机甲、城市街景”三张图,Vidu 能提取主体、服装、场景,将三者无缝融合, 输出一段“男子穿着机甲走在城市街道”的视频内容。
想不到啊!要知道,之前的视频模型理解一段promot都费劲,需要来回抽卡,现在用Vidu生成视频,已经可以跟写作文似的,明确地点、人物、行为、形象,就能实现精准控制和编辑。
,未来“只要上传一张角色图+一张环境图”就可以创作连续的视频故事。
比如有用户上传一个女战士的形象图+战场场面,就可以生成堪称史诗级的战争画面。
更有上难度的,直接上群像图,一次上传十个主体 ,让Vidu生成一段视频,但显然,这都没有难倒它。
这瞅着感觉以后生成水浒传108将群像也不是不可能嗷!
一致性魔咒,难死一众高手
前面提到,这是目前Runway、Luma AI等全球一众高手都不具备的能力,在功能层面,上述几家都仅仅支持单图输入。这背后其实就是 问题。
这是视频模型的老大难问题,在吐出生成结果的时候,模型往往难以确保主体 的外观、特征、风格保持一致。
你给它清秀小帅哥,秒变可怖伏地魔那是常有的事。
尤其是一上难度,涉及多主体时,模型更是很难对多个主体同时进行控制,更别提主体间还要保持自然连贯的交互。
不过这一“世纪难题”现在被Vidu 完美解决了!Attention please!上新期间每人3次免费机会,大家且玩且珍惜。
当然,对于“一致性”问题,Vidu领先业界布局已久。
早在7月底全球上线时,Vidu就推出了“ ”功能,解决人脸一致性问题,对比看,近期可灵1.5刚上线人脸一致性功能。
”功能,允许用户上传任意主体的一张图片,从“人脸一致”拓展到“主体一致”,例如人物的全身一致,不再局限于人脸,甚至动物、商品的一致性保持也不在话下。
短短两个月,Vidu又又又升级了,能实现对单主体的多角度一致,也能实现多主体交互控制、主体与场景融合控制。
如何正确打开(指南宝典)
废话不多说,上指南宝典。Vidu的打开如下:
单主体的一致性视频生成
特定主体的不同角度或不同景别下 的图片,能够能实现对单主体的100%精准控制。
第一点是对复杂主体的精准控制 。
那就上传几张欧洲古典美女玩玩吧 :
难点可不仅是还原少女的美貌,还有她的头饰、发型、服饰十分复杂,模型很容易犯脱离图片“自行脑补”的灾难。
但在Vidu生成的中景镜头视频中,美女姐姐转个圈圈 ,不同视角下,角色形象始终如一,保持得挺好。
不单单真实人物,这一能力对3D动画形象来说,通过上传三视图简直是手拿把掐。
人物面部特征和动态表情的自然一致 。
通过上传多张人物特写图,Vidu能够确保人物面部的特征细节和表情变化自然流畅,不会出现面部僵硬或失真的现象。
这次的模特,有请这位小朋友。
从笑容转换到垂眸失落,过度自然,也没有失真:
多主体生成
这次新功能更妙的是能上传多个主体,实现多主体的一致性控制 。
多个主体的组合,可以是人物+人物,也可以是人物+场景、人物+道具等,甚至是人物+道具+场景,并在视频生成中实现这些元素的自然交互 。
首先是多主体交互,用户可以上传多个自定义角色,让它们在指定空间内进行交互 。何不试试让AI界奥特曼和光之巨人迪伽奥特曼同框出镜?
然后奥特曼届的名场面就此诞生:
融合不同主体特征,比如人脸融合,将角色A的正面与角色B的反面无缝融合 。
试试穿10号球衣的马斯克。这简直是一键AI换脸神器!
,比如试试给人物换装,让马斯克穿礼服。很好……
终极难度就是,人物+道具+场景,用户 可以上传主体、客体和环境的图片,创建定制角色身穿特定服装、在定制空间内自由动作的场景 。
比如丢给它一张马斯克帅照、一件东北花袄、一辆电动小摩托,输入prompt:
男人穿着花袄在游乐园骑电动车。
他立马就开心得像个五十几岁的大男孩:
这视频来看,道具师、服装师可以双双下线了……
如果不走搞笑路线,来个正经的。这特效效果不止一点点震撼。
必须要提的一点是,以上这些 能力的实现并不来自业界主流的LoRA 微调方案。
简单理解,过往的视频模型如果想实现上述 等场景能力,均需要针对每一个场景设计进行微调。
LoRA效果虽不错,但通常需要20~100段视频,数据构造繁琐,且需要数小时甚至更久的训练时间成本为单次视频生成的成百上千倍;另外LoRA微调模型容易产生过拟合,导致对于动态的表情或肢体动作的变化,很难有效控制。
但Vidu选择在自身通用架构上持续迭代升级,通过提升基础模型带来更泛化的能力, 无需专门的数据采集、数据标注、微调训练环节 。
仅靠三张图就实现高可控的稳定输出,直接省去LoRA“炼丹”。好家伙,LoRA终结器嘛这不是!
视频模型拥有了“上下文记忆”
Vidu背后的研发团队生数科技也放出了技术架构的介绍,所谓 :
图注:LLM和Vidu技术架构方案对比
细品,这不就是和LLM一致的“设计哲学”:将所有问题统一为简单输入输出,从压缩中获取智能,同样单个网络统一建模变长的输入和输出。
一旦接受了这个设定,再细品看,想必我们想到了同样的一个类似事件:ChatGPT的智能涌现。
相较于GPT-2、GPT-3,初代ChatGPT背后GPT-3.5之所以能够一炮轰出个AI新时代,正是因为OpenAI在其基础模型上大花功夫,带来通用模型能力的提升。
从开始的预训练+微调的路径,伴随不断的Scaling Up,最终基于一个通用基础模型实现泛化能力。
视频模型的训练范式也从“预训练+微调”的路径升级到了通用化的统一架构,并在任务层面实现泛化。
另外还有一点,则是上下文理解能力方面,GPT-3.5能够更好地处理复杂的指令和问题,理解更长的上下文信息,通过关联前后的文本、识别语句之间的关系,生成连贯且符合情境的回答或内容。
有意思的是,在Vidu这儿,我们也看到了“上下文记忆”能力。
此次升级,从单图输入到输入多张参考图像,Vidu能够理解多个输入图像的准确含义和它们之间的关联性,以及能够根据这些信息生成一致、连贯且有逻辑的输出。
这与大语言模型的“上下文学习” 能力具有显著相似性,通过上下文学习基于少量的示例或提示快速适应新任务。
至此,Vidu不再仅仅是从文本到视频的渲染工具,不仅仅具备了理解和想象的能力,还能够在生成过程中对上下文信息进行记忆管理。
曾经大语言模型的独有优势,现在在视觉模型中也得以体现 。
视觉模型也出现了和语言模型一样的“大跨越”,AGI版图里的一块重要拼图,正在加速进化中。
— 完 —
量子位 QbitAI · 头条号签约
关注我们,第一时间获知前沿科技动态
微信扫码分享
评论
快小pa2024-11-14 16:30这Vidu,简直是个视频界的魔术师嘛!多主体一致性,这功能怕不是要让半个好莱坞失业了。肝癌“加速器”被揪出,比烟酒厉害得多!不想肝受损,及早忌口
熊猫医学 关注 来自湖北原创标注系作者主动申请,作者保证其发布作品系原创,如存在侵权,请联系平台处理。对于我们人体而言,每天都需要获得大量的营养支撑,通过食物摄取能够满足人体所需的绝大多数能量,但经过人体,难免会产生相应的毒素进而给人体健康造成损伤,在此情况下,肝脏作为最大的排毒解毒器官,就会对这些物质进行充分的分解以及过滤,因此,只有肝脏功能能够确保正常运转,才能更高效地呵护我们的身心健康。
但近些年来,很多人由于养成了长时间的不良生活习惯,同时还存在饮食规律逐渐偏离正常轨道的情况,所以就会使得身体器官组织功能越来越脆弱,进而在一定程度上提高了机体的患病率,扰乱了人体的正常功能运转。
而肝脏作为一个哑巴器官,当其患上疾病时,往往不容易被人们察觉,而等到病症显著存在时再去检查,可能已经发展到了最为严重的中晚期阶段,在治疗难度上,会明显增加。
从临床角度出发,人们之所以会与肝癌打上交道,最主要的原因有病毒性肝炎感染、肝硬化、霉变食物中黄曲霉素的感染以及酒精损伤等。现如今,在人们的日常生活中也存在很多不健康的隐患,比如长期熬夜、应酬嗜酒、过度肥胖等,在这些因素的影响下,也会加速肝脏的病变,如果不加留意,就很容易与肝癌打上交道。
其中,长期大量饮酒也是导致肝脏受损的直接“杀手”,因为酒精的毒性会对肝脏细胞造成损伤,影响其对脂肪酸的正常分解以及代谢,如此一来就会使肝内脂肪沉积,进而诱发脂肪肝。
当然,除了上述这些因素外,真正的“肝癌大户”其实是以下两类,为了更好地呵护自身健康,大家一定要及早忌口。
1.霉变食物
摄入发霉的食物是诱发肝癌最为主要的一大因素,因为在霉变食物中大多都含有较高水平的黄曲霉素,这一物质会导致肝功能受损,进而增加肝癌的发病风险。
发霉食物中所含有的黄曲霉素属于一级致癌物质,在临床诸多患有肝癌的人群中,有高达28%的患者,其发病诱因都属于黄曲霉素感染,因此,预防黄曲霉素感染,往往是降低肝癌发病风险的根本手段。
2.生鱼片
近些年来,生鱼片、生鱼粥等生鲜美食成为了年轻人餐桌上的新宠,但大家要知道的是,长期食用生鱼片等食物,很容易导致肝吸虫的寄生。
当肝胆管内存在肝吸虫寄生时,就会使得胆管管腔变窄,如果虫体比较多,还会直接堵塞胆管,导致胆汁发生淤积,进而诱发黄疸,除此之外,肝吸虫寄生还会增加肝脏肿大以及患上胆结石的几率。
对于感染肝吸虫后,程度比较轻的患者来说,往往并没有十分明显的症状,但重度感染者则会有明显的消化系统不适表现,若是情况较为严重,还会引发肝硬化甚至是肝癌。
【本图文由“熊猫医学”新媒体独家原创出品,作者子一,未经授权,请勿转载、复制】
展开阅读全文盘点哪些好用的AI视频工具!
2022年被誉为AI视频崛起的元年,OpenAI的Sora一出现就引起了广泛关注。 如今,电视台和个人工作室借助AI技术创作出的短视频已经成为商业竞争的焦点,甚至有人愿意花费数万元购买每条约2-3分钟的视频。 AI技术在这一领域的发展,使得每个人都有可能成为内容创新者。
为了提升工作效率和创作质量,让我们一起探索国内外的优秀AI视频工具:
想进一步提升AI视频技能?UIED用户体验交流社区提供了丰富的教程资源,覆盖了设计和AIGC领域,是学习和分享的绝佳平台。 作者@Tomda的原创文章,欢迎关注和交流。
谷歌发布视频配音功能,让视频生成模型Voe直接起飞!
随着科技的不断进步,视频生成模型在近年来获得了显著的发展。 从OpenAI的Sora发布到Runway的Gen-3,快手的可灵以及Luma的Dream Machine,视频生成技术不断推陈出新,但当前生成的视频普遍缺乏声音,为视频配上音轨是提升生成视频真实度的关键一步。 为此,谷歌AI团队发布了一项创新技术——从视频生成音频(video-to-audio,V2A)。 V2A技术将视频像素与自然语言文本提示结合,为视频中的动作生成丰富的音乐背景,使得视听同步成为可能。 与谷歌自家的视频生成模型Veo配对,V2A技术能够创造出具有戏剧性配乐、逼真音效或与视频角色和基调相匹配的对话场景,为一系列传统影像如档案材料、无声电影等生成配乐,为创意提供了更广泛的机遇。 V2A技术具有显著的灵活性,用户可根据需要为任何视频输入生成无限数量的配乐,通过“正向提示词”引导生成的输出朝向期望的声音,或使用“负向提示词”避免不希望的声音。 这使得V2A音频输出更具可控性,用户能快速尝试不同音频输出,并选择最佳匹配。 具体应用中,V2A技术可生成多种风格的音轨,如电影配乐、动物叫声、海洋环境声等。 通过三个不同的提示词,为同一视频配乐,V2A技术展示了其多样性和灵活性。 V2A技术背后的实现机制基于扩散模型,首先通过Video Encoder压缩视频,UL2 Encoder获取文本特征,然后将压缩的视频特征和文本特征作为条件输入扩散模型,从随机噪声中迭代生成压缩的音频。 最后,压缩的音频输出通过Decoder解码为真实的音频。 为了提高音频质量并增加引导模型生成特定声音的能力,谷歌在训练过程中添加了更多信息,包括详细的声音描述和口头对话转录生成的AI标注。 通过在视频、音频以及额外的标注上进行训练,模型学会了将特定的音频与各种视觉场景关联起来,同时响应注释或转录中提供的信息。 V2A系统之所以效果好,是因为它能理解原始像素,并通过添加文本提示词提供额外指导。 此外,该系统无需手动对齐生成的声音与视频,这通常涉及调整声音、视觉和时间等不同元素,减少了繁琐的步骤。 然而,V2A技术目前仍面临一定的局限性,特别是在泛化性上,当输入视频超出模型训练分布范围时,音频质量可能会下降。 同时,配对的视频生成模型可能不基于转录的文本条件生成,导致音频与视频不匹配,影响口型同步的自然性。 尽管存在局限性,谷歌AI团队正在努力解决这些问题,不断推动视频生成技术的进步。 从文生视频到视频配乐,视频生成技术的演进速度令人瞩目,同时也面临竞争加剧的挑战。
欢迎来到我们的官方网站! 作为军、警、政、企数字信息化专业供应商,我们致力于为军警政企提供全面的数字化和信息化解决方案。我们自豪地宣布,我们已经成功建立了覆盖7个省直辖市以及包含空军、陆军、火箭军、战支等多个军种的超级数字信息化平台。这个平台不仅仅是技术创新的成果,更是为军警政企提供高效、安全和智能化的管理工具。 我们的团队拥有丰富的背景经历,既懂管理,又懂技术,还具备出色的商务能力。我们与高校和中科院密切合作,共同研发创新项目,不断推动数字化和信息化的进步。同时,我们与知名厂商如华为、中兴等合作,定制开发产品,致力于推进数字化和信息化在军警政企领域的广泛应用。 目前,我们已经运营超过30个师旅团级监管中心,并在两个展区试点创新的数字化信息化项目。我们的目标是通过创新技术和卓越服务,为军警政企提供先进的数字化解决方案,助力他们实现更高效、更安全和更智能的运营。 请浏览我们的网站,了解更多关于我们的产品和服务。如有任何疑问或合作需求,请随时与我们联系。感谢您的访问!