Luma们一锅端了!这款视频模型上 杀手级 把Runway 功能 (lumas)
把Runway、Luma们一锅端了!这款视频模型上“杀手级”功能 播报文章
量子位 关注作者 获得积分关注 来自北京衡宇 发自 凹非寺
量子位 | 公众号 QbitAI
三张图攒一个毫无违和感的视频!
视频模型领域又沸腾了!
把Runway、LumaAI等一众视频模型都一锅端了。海外用户评价,一众视频模型都实现不了的能力,它竟然给攻破了,甚至在语义理解甚至比图像模型王者Midjorney还强。
——全球最早对标Sora发布的视频模型。昨天新上的“杀手级”功能:。
这个功能上周六Vidu就在X上偷偷预热了,昨天正式上线。简单讲,这个功能支持上传1~3张参照,来实现对多主体的控制。
以官方发布的demo为例,丢入“黑人男子、机甲、城市街景”三张图,Vidu 能提取主体、服装、场景,将三者无缝融合, 输出一段“男子穿着机甲走在城市街道”的视频内容。
想不到啊!要知道,之前的视频模型理解一段promot都费劲,需要来回抽卡,现在用Vidu生成视频,已经可以跟写作文似的,明确地点、人物、行为、形象,就能实现精准控制和编辑。
,未来“只要上传一张角色图+一张环境图”就可以创作连续的视频故事。
比如有用户上传一个女战士的形象图+战场场面,就可以生成堪称史诗级的战争画面。
更有上难度的,直接上群像图,一次上传十个主体 ,让Vidu生成一段视频,但显然,这都没有难倒它。
这瞅着感觉以后生成水浒传108将群像也不是不可能嗷!
一致性魔咒,难死一众高手
前面提到,这是目前Runway、Luma AI等全球一众高手都不具备的能力,在功能层面,上述几家都仅仅支持单图输入。这背后其实就是 问题。
这是视频模型的老大难问题,在吐出生成结果的时候,模型往往难以确保主体 的外观、特征、风格保持一致。
你给它清秀小帅哥,秒变可怖伏地魔那是常有的事。
尤其是一上难度,涉及多主体时,模型更是很难对多个主体同时进行控制,更别提主体间还要保持自然连贯的交互。
不过这一“世纪难题”现在被Vidu 完美解决了!Attention please!上新期间每人3次免费机会,大家且玩且珍惜。
当然,对于“一致性”问题,Vidu领先业界布局已久。
早在7月底全球上线时,Vidu就推出了“ ”功能,解决人脸一致性问题,对比看,近期可灵1.5刚上线人脸一致性功能。
”功能,允许用户上传任意主体的一张图片,从“人脸一致”拓展到“主体一致”,例如人物的全身一致,不再局限于人脸,甚至动物、商品的一致性保持也不在话下。
短短两个月,Vidu又又又升级了,能实现对单主体的多角度一致,也能实现多主体交互控制、主体与场景融合控制。
如何正确打开(指南宝典)
废话不多说,上指南宝典。Vidu的打开如下:
单主体的一致性视频生成
特定主体的不同角度或不同景别下 的图片,能够能实现对单主体的100%精准控制。
第一点是对复杂主体的精准控制 。
那就上传几张欧洲古典美女玩玩吧 :
难点可不仅是还原少女的美貌,还有她的头饰、发型、服饰十分复杂,模型很容易犯脱离图片“自行脑补”的灾难。
但在Vidu生成的中景镜头视频中,美女姐姐转个圈圈 ,不同视角下,角色形象始终如一,保持得挺好。
不单单真实人物,这一能力对3D动画形象来说,通过上传三视图简直是手拿把掐。
人物面部特征和动态表情的自然一致 。
通过上传多张人物特写图,Vidu能够确保人物面部的特征细节和表情变化自然流畅,不会出现面部僵硬或失真的现象。
这次的模特,有请这位小朋友。
从笑容转换到垂眸失落,过度自然,也没有失真:
多主体生成
这次新功能更妙的是能上传多个主体,实现多主体的一致性控制 。
多个主体的组合,可以是人物+人物,也可以是人物+场景、人物+道具等,甚至是人物+道具+场景,并在视频生成中实现这些元素的自然交互 。
首先是多主体交互,用户可以上传多个自定义角色,让它们在指定空间内进行交互 。何不试试让AI界奥特曼和光之巨人迪伽奥特曼同框出镜?
然后奥特曼届的名场面就此诞生:
融合不同主体特征,比如人脸融合,将角色A的正面与角色B的反面无缝融合 。
试试穿10号球衣的马斯克。这简直是一键AI换脸神器!
,比如试试给人物换装,让马斯克穿礼服。很好……
终极难度就是,人物+道具+场景,用户 可以上传主体、客体和环境的图片,创建定制角色身穿特定服装、在定制空间内自由动作的场景 。
比如丢给它一张马斯克帅照、一件东北花袄、一辆电动小摩托,输入prompt:
男人穿着花袄在游乐园骑电动车。
他立马就开心得像个五十几岁的大男孩:
这视频来看,道具师、服装师可以双双下线了……
如果不走搞笑路线,来个正经的。这特效效果不止一点点震撼。
必须要提的一点是,以上这些 能力的实现并不来自业界主流的LoRA 微调方案。
简单理解,过往的视频模型如果想实现上述 等场景能力,均需要针对每一个场景设计进行微调。
LoRA效果虽不错,但通常需要20~100段视频,数据构造繁琐,且需要数小时甚至更久的训练时间成本为单次视频生成的成百上千倍;另外LoRA微调模型容易产生过拟合,导致对于动态的表情或肢体动作的变化,很难有效控制。
但Vidu选择在自身通用架构上持续迭代升级,通过提升基础模型带来更泛化的能力, 无需专门的数据采集、数据标注、微调训练环节 。
仅靠三张图就实现高可控的稳定输出,直接省去LoRA“炼丹”。好家伙,LoRA终结器嘛这不是!
视频模型拥有了“上下文记忆”
Vidu背后的研发团队生数科技也放出了技术架构的介绍,所谓 :
图注:LLM和Vidu技术架构方案对比
细品,这不就是和LLM一致的“设计哲学”:将所有问题统一为简单输入输出,从压缩中获取智能,同样单个网络统一建模变长的输入和输出。
一旦接受了这个设定,再细品看,想必我们想到了同样的一个类似事件:ChatGPT的智能涌现。
相较于GPT-2、GPT-3,初代ChatGPT背后GPT-3.5之所以能够一炮轰出个AI新时代,正是因为OpenAI在其基础模型上大花功夫,带来通用模型能力的提升。
从开始的预训练+微调的路径,伴随不断的Scaling Up,最终基于一个通用基础模型实现泛化能力。
视频模型的训练范式也从“预训练+微调”的路径升级到了通用化的统一架构,并在任务层面实现泛化。
另外还有一点,则是上下文理解能力方面,GPT-3.5能够更好地处理复杂的指令和问题,理解更长的上下文信息,通过关联前后的文本、识别语句之间的关系,生成连贯且符合情境的回答或内容。
有意思的是,在Vidu这儿,我们也看到了“上下文记忆”能力。
此次升级,从单图输入到输入多张参考图像,Vidu能够理解多个输入图像的准确含义和它们之间的关联性,以及能够根据这些信息生成一致、连贯且有逻辑的输出。
这与大语言模型的“上下文学习” 能力具有显著相似性,通过上下文学习基于少量的示例或提示快速适应新任务。
至此,Vidu不再仅仅是从文本到视频的渲染工具,不仅仅具备了理解和想象的能力,还能够在生成过程中对上下文信息进行记忆管理。
曾经大语言模型的独有优势,现在在视觉模型中也得以体现 。
视觉模型也出现了和语言模型一样的“大跨越”,AGI版图里的一块重要拼图,正在加速进化中。
— 完 —
量子位 QbitAI · 头条号签约
关注我们,第一时间获知前沿科技动态
微信扫码分享
评论
快小pa2024-11-14 16:30这Vidu,简直是个视频界的魔术师嘛!多主体一致性,这功能怕不是要让半个好莱坞失业了。揭秘人类寿命之谜:基因的“奴隶”,为何不能永生?
众播新知 关注在这颗被蔚蓝覆盖的星球上,从壮观的森林巨兽到微观的单细胞生物,所有生命都遵循着一个古老而不变的规律——生老病死。这不仅体现了自然法则的普遍性,也是生命循环不可分割的部分。
作为地球上智慧的代表,人类与其他生物一样,拥有有限的生命期限。然而,人类对生命的渴求远超过短暂的几十年,历史上无数帝王将相追求长生不老的传说,正是对永恒生命的无尽向往的最佳诠释。
尽管如此,所有生命最终都必须面对死亡的命运,人类也不例外。从生物学角度来看,人类的寿命并不算短,但也不足以称得上长。
古代的皇帝们,如秦始皇和唐太宗,他们在权倾天下的时代也无法逃避生命的终结。他们追寻仙丹的行为,只是对永生梦想的最后挣扎。这些历史故事不仅展示了人类对永生的渴望,也反映了生命在时间面前的无奈。
随着时代的变迁,人类社会进入了科技飞速发展的新时代。科技的进步不仅改变了人类的生活方式,也拓宽了我们对未知世界的探索视野。在追求永生这一古老话题上,科技的发展并未使人类的梦想黯淡,反而激发了新的希望。科学家们开始从生命的本质出发,探索生老病死背后的科学规律,期望通过科学手段揭示永生的秘密。
与古代炼丹术不同,现代科学对永生的研究基于严谨的实验和理论基础。人类对永生的追求已从神话传说走向实验室的试管和数据分析。
科学家们相信,只要揭开生命的密码,就有可能找到抵抗衰老、甚至实现永生的方法。这种信念源于对宇宙万物均可用科学解释的坚定信念,生命的生老病死也不例外。因此,在科技的助力下,人类与自然规律的较量悄然展开。
要探讨为何人类不能永生,首先需要理解衰老的本质。科学研究指出,人类的衰老并非一夜之间发生,而是由体内微小结构的逐渐丧失引起的复杂过程。这些结构包括端粒、干细胞和线粒体等,它们在维持人体正常功能中扮演着关键角色。
端粒是位于染色体末端的DNA-蛋白质复合体,它们像保护帽一样防止DNA在细胞分裂时受损。
然而,每次细胞分裂,端粒就会缩短一些。当端粒缩短到一定程度时,细胞会停止分裂,此时人体开始出现衰老迹象。干细胞是一种具有自我复制能力的细胞,能够分化成多种细胞类型,维持组织的更新和修复。随着年龄的增长,干细胞数量逐渐减少,导致组织更新能力下降,从而加速衰老。
另一方面,线粒体是细胞的能量生产工厂,其功能障碍会导致细胞无法获得足够的能量支持,进而引发细胞死亡。这些微小结构的丧失共同构成了人类衰老的生物学基础,也为永生研究提供了重要的探索方向。通过深入理解这些生物机制,科学家们希望能够找到延缓甚至逆转衰老的方法,为人类永生的梦想提供科学依据。
在探索永生的征途中,基因的作用不容忽视。端粒酶的发现为我们揭示了关于细胞永生潜力的线索。
端粒酶是一种能够合成端粒的酶,存在于某些特定细胞中,如生殖细胞和干细胞,使得这些细胞能够避免端粒缩短的命运,持续分裂并保持活力。然而,普通细胞中缺乏端粒酶,使得细胞分裂次数受限,导致了衰老和死亡的必然性。
人体内具备强大的自我修复能力,能够应对各种伤害和疾病。理论上,这种修复能力足以让我们长生不老,但现实情况却是,这种能力受到了基因的严格控制。基因决定了生物个体的生死以及生命的形式和质量。通过这种控制,基因确保了生物种群的数量和多样性,同时也促进了生物的进化。
然而,基因的这种控制也带来了一个重大的限制:它限制了人类追求永生的可能性。尽管人体拥有无限的修复潜力,但这种潜力被基因锁定。只有解开基因层面的限制,人类才可能真正掌握永生的秘密。这也意味着,要实现永生,人类不仅要对抗衰老的生理过程,更要深入理解和操纵基因这一生命的根本。
从基因的角度来看,生命的生老病死并非无目的的过程,而是一种精心设计的生存策略。基因在创造生物个体时,已经设定了一系列复杂的规则来优化生存机会。这些规则包括控制生物个体的数量和质量,以及决定何时结束它们的生命。
资源分配是一个关键问题。自然资源是有限的,一个物种如果不断繁衍而不死,最终会导致资源枯竭,物种灭绝。因此,基因设定了生物体的死亡,以保持种群数量在合理范围内,确保资源得到有效分配。此外,随着生物体年龄的增长,维护成本也随之增加。从资源利用效率的角度考虑,让年老的个体死亡,为新生个体留下更多资源,是基因的明智选择。
进化的需要也是基因控制生物生死的一个重要因素。基因需要不断突变和进化,以适应不断变化的环境。永生会降低突变频率,减缓基因的进化速度。因此,从长远来看,基因选择了一种能够促进自身快速进化的生存模式,即使这意味着生物个体必须面对死亡。
综上所述,基因的生存策略是以种群和进化的整体利益为出发点的。人类追求永生的愿望与基因的生存策略相冲突,揭示了生命进化的复杂性和人类在面对自然规律时的挑战。
科学的发展为人类打开了新世界的大门,也为人类提供了成为命运主宰的可能。在科学的主导下,基因不再是一成不变的宿命,而是可以被理解、操纵甚至重写的对象。随着基因技术的不断进步,人类有望解开生命的密码,从而突破生命的极限,实现永生的梦想。
科学的力量正在逐步揭示自然规律的秘密,而基因正是这些规律中的关键一环。通过对基因的研究,人类不仅可以治疗疾病,还能够改变生命的轨迹。在这一过程中,人类将不再是被动接受基因安排的角色,而是成为能够塑造自己命运的创造者。科学的发展不仅关乎人类对永生的追求,更关系到人类文明的进步和未来。展开阅读全文谷歌发布视频配音功能,让视频生成模型Voe直接起飞!
随着科技的不断进步,视频生成模型在近年来获得了显著的发展。 从OpenAI的Sora发布到Runway的Gen-3,快手的可灵以及Luma的Dream Machine,视频生成技术不断推陈出新,但当前生成的视频普遍缺乏声音,为视频配上音轨是提升生成视频真实度的关键一步。 为此,谷歌AI团队发布了一项创新技术——从视频生成音频(video-to-audio,V2A)。 V2A技术将视频像素与自然语言文本提示结合,为视频中的动作生成丰富的音乐背景,使得视听同步成为可能。 与谷歌自家的视频生成模型Veo配对,V2A技术能够创造出具有戏剧性配乐、逼真音效或与视频角色和基调相匹配的对话场景,为一系列传统影像如档案材料、无声电影等生成配乐,为创意提供了更广泛的机遇。 V2A技术具有显著的灵活性,用户可根据需要为任何视频输入生成无限数量的配乐,通过“正向提示词”引导生成的输出朝向期望的声音,或使用“负向提示词”避免不希望的声音。 这使得V2A音频输出更具可控性,用户能快速尝试不同音频输出,并选择最佳匹配。 具体应用中,V2A技术可生成多种风格的音轨,如电影配乐、动物叫声、海洋环境声等。 通过三个不同的提示词,为同一视频配乐,V2A技术展示了其多样性和灵活性。 V2A技术背后的实现机制基于扩散模型,首先通过Video Encoder压缩视频,UL2 Encoder获取文本特征,然后将压缩的视频特征和文本特征作为条件输入扩散模型,从随机噪声中迭代生成压缩的音频。 最后,压缩的音频输出通过Decoder解码为真实的音频。 为了提高音频质量并增加引导模型生成特定声音的能力,谷歌在训练过程中添加了更多信息,包括详细的声音描述和口头对话转录生成的AI标注。 通过在视频、音频以及额外的标注上进行训练,模型学会了将特定的音频与各种视觉场景关联起来,同时响应注释或转录中提供的信息。 V2A系统之所以效果好,是因为它能理解原始像素,并通过添加文本提示词提供额外指导。 此外,该系统无需手动对齐生成的声音与视频,这通常涉及调整声音、视觉和时间等不同元素,减少了繁琐的步骤。 然而,V2A技术目前仍面临一定的局限性,特别是在泛化性上,当输入视频超出模型训练分布范围时,音频质量可能会下降。 同时,配对的视频生成模型可能不基于转录的文本条件生成,导致音频与视频不匹配,影响口型同步的自然性。 尽管存在局限性,谷歌AI团队正在努力解决这些问题,不断推动视频生成技术的进步。 从文生视频到视频配乐,视频生成技术的演进速度令人瞩目,同时也面临竞争加剧的挑战。
盘点哪些好用的AI视频工具!
2022年被誉为AI视频崛起的元年,OpenAI的Sora一出现就引起了广泛关注。 如今,电视台和个人工作室借助AI技术创作出的短视频已经成为商业竞争的焦点,甚至有人愿意花费数万元购买每条约2-3分钟的视频。 AI技术在这一领域的发展,使得每个人都有可能成为内容创新者。
为了提升工作效率和创作质量,让我们一起探索国内外的优秀AI视频工具:
想进一步提升AI视频技能?UIED用户体验交流社区提供了丰富的教程资源,覆盖了设计和AIGC领域,是学习和分享的绝佳平台。 作者@Tomda的原创文章,欢迎关注和交流。
10s!无限制!一款AI视频制作的王者级工具!附教程
在众多AI视频工具中,Runway Gen-3凭借其卓越性能脱颖而出,成为视频制作达人的首选。 这款王者级工具在10秒内就能轻松生成高质量视频,且操作无限制,让我们深入了解一下。
首先,注册过程简单易行,只需点击官网的Sign up,使用常用邮箱注册即可。 完成注册后,登录并开始你的探索之旅。 Runway Gen-3提供了两种视频生成模式:文字和图片,使用起来非常直观。 以下是使用示例:
为了提升视频质量,建议精心构建具有画面感的提示词,如:[提示词结构]和[示例提示词]。 同时,关键词的使用能强化特定风格,如[关键词示例]。
随着AI视频技术的进步,Runway Gen-3不断刷新着行业标准。 无论是快手还是Luma AI,都曾引领潮流,而Runway Gen-3无疑将创新推至新高度。 在我们西羊石,AI视频项目需求不断攀升。 对于AI视频感兴趣的朋友,Runway Gen-3无疑是值得尝试的工具。 感谢您阅读至此,期待您的体验和分享。