DALL·E AI设计师 2!谷歌大脑推出新的文本生成图像模型 逼真度超越 (Dall·E下载)

文章编号:37866 资讯动态 2024-11-30 OpeAIGoogleImagenBrain

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen

文本生成图像模型界又出新手笔!

这次的主角是Google Brain推出的 Imagen,再一次突破人类想象力,将文本生成图像的逼真度和语言理解提高到了前所未有的新高度!比前段时间OpeAI家的

话不多说,我们来欣赏这位AI画师的杰作~

A brain riding a rocketship heading towards the moon.(一颗大脑乘着火箭飞向月球。)

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen

A dragon fruit wearing karate belt in the snow.(在雪地里戴着空手道腰带的火龙果)

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen

A marble statue of a Koala DJ in front of a marble statue of a turntable. The Koala has wearing large marble headphones.(一只带着巨大耳机的考拉DJ的大理石雕像站在一个大理石转盘前。)

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen

An art gallery displaying Monet paintings. The art gallery is flooded. Robots are going around the art gallery using paddle boards.(陈列莫奈画作的美术馆被水淹没。机器人正在使用桨板在美术馆里划行。)

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen

A giant cobra snake on a farm.The snake is made out of corn(农场里有一条巨大的玉米构成的眼镜蛇。)

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen

Teddy bears swimming at the Olympics 400m Butterfly event.(泰迪熊在奥运会400米蝶泳项目中游泳。)

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen

给出同样的文本提示,Imagen还可以生成不同类别的图像。比如下面这些图中,各组图片在物品的颜色、空间位置、材质等范畴上都不太相同。

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen



Imagen的工作原理
逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen

Imagen基于大型transformer语言模型在理解文本方面的能力和扩散模型在高保真图像生成方面的能力。

在用户输入文本要求后,如“一只戴着蓝色格子贝雷帽和红色波点高领毛衣的金毛犬”,Imagen先是使用一个大的冻结(frozen)T5-XXL 编码器将这段输入文本编码为嵌入。然后条件扩散模型将文本嵌入映射到64×64的图像中。

Imagen进一步利用文本条件超分辨率扩散模型对64×64的图像进行升采样为256×256,再从256×256升到1024×1024。结果表明,带噪声调节增强的级联扩散模型在逐步生成高保真图像方面效果很好。

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen

图注:输入“一只戴着蓝色格子贝雷帽和红色波点高领毛衣的金毛犬”后Imagen的动作

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen

图注:64 × 64生成图像的超分辨率变化。对于生成的64 × 64图像,将两种超分辨率模型分别置于不同的提示下,产生不同的上采样变化

大型预训练语言模型×级联扩散模型

Imagen使用在纯文本语料中进行预训练的通用大型语言模型(例如T5),它能够非常有效地将文本合成图像: 在Imagen中增加语言模型的大小,而不是增加图像扩散模型的大小, 可以大大地提高样本保真度和图像-文本对齐。

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen




引入新基准DrawBench

为了更深入地评估文本到图像模型,Google Brain 引入了DrawBench,这是一个全面的、具有挑战性的文本到图像模型基准。通过DrawBench,他们比较了Imagen与VQ-GAN+CLIP、Latent diffusion Models和DALL-E 2等其他方法,发现人类评分者在比较中更喜欢Imagen而不是其他模型,无论是在样本质量上还是在图像-文本对齐方面。

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen

图注:Imagen与DALL-E 2、GLIDE、VQ-GAN+CLIP和Latent Diffusion Models在DrawBench上的比较:用户对图像-文本对齐和图像逼真度的偏好率(95%置信区间)

Imagen与DALL-E 2 生成图像的比较示例 :

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen

图注:“外星人绑架奶牛,将其吸入空中盘旋”(上);“一个被猫绊倒的希腊男性的雕塑”(下)

对于涉及颜色的文本提示,Imagen生成的图像也比DALL-E 2更优。DALL-E 2通常很难为目标图像分配正确的颜色,尤其是当文本提示中包含多个对象的颜色提示时,DALL-E 2会容易将其混淆。

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen

图注:Imagen和DALL-E 2从颜色类文本生成图像的比较。“一本黄色书籍和一个红花瓶”(上);“一个黑色苹果和一个绿色双肩包”(下)

而在带引号文本的提示方面,Imagen生成图像的能力也明显优于DALL-E 2。

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen

图注:Imagen 和 DALL-E 2 从带引号文本生成图像的比较。“纽约天际线,天上有烟花写成的“Hello World”字样”(上);“一间写着Time to Image的店面”(下)




打开了潘多拉魔盒?

像Imagen这样从文本生成图像的研究面临着一系列伦理挑战。

首先,文本-图像模型的下游应用多种多样,可能会从多方面对社会造成影响。Imagen以及一切从文本生成图像的系统都有可能被误用的潜在风险,因此社会要求开发方提供负责任的开源代码和展示。基于以上原因,Google决定暂时不发布代码或进行公开展示。而在未来的工作中,Google将探索一个负责任的外部化框架,从而将各类潜在风险最小化。

其次,文本到图像模型对数据的要求导致研究人员严重依赖于大型的、大部分未经整理的、网络抓取的数据集。虽然近年来这种方法使算法快速进步,但这种性质的数据集往往会夹带社会刻板印象、压迫性观点、对边缘群体有所贬损等“有毒”信息。

为了去除噪音和不良内容(如色情图像和“有毒”言论),Google对训练数据的子集进行了过滤,同时Google还使用了众所周知的LAION-400M数据集进行过滤对比,该数据集包含网络上常见的不当内容,包括色情图像、种族主义攻击言论和负面社会刻板印象。Imagen依赖于在未经策划的网络规模数据上训练的文本编码器,因此继承了大型语言模型的社会偏见和局限性。这说明Imagen可能存在负面刻板印象和其他局限性,因此Google决定,在没有进一步安全措施的情况下,不会将Imagen发布给公众使用。

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen

原创文章,未经授权禁止转载。详情见 转载须知 。

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen

全局中部横幅
新闻头条

天下新闻头条为您精选当天最热门的新闻资讯,最受关注的社会新闻时尚八卦等,看新闻就来天下新闻头条!

北京博朗宁科技有限公司

北京博朗宁科技有限公司是优质的wika压力变送器,德国威卡压力表,德国威卡压力变送器,hamilton进样针,hamilton电极供应商,主要经营产品有:wika压力变送器,德国威卡压力表,德国威卡压力变送器,hamilton进样针,hamilton电极!

特玩下载te5.cn

特玩下载为您提供国内外最新的绿色免费软件下载,其中包括电脑软件下载、安卓/苹果手机应用软件下载、手机游戏下载,找软件、找游戏就在特玩下载。

上海乐南傲科技有限公司

上海乐南傲科技有限公司是一家建材石灰生产公司,公司涵盖氧化钙、氢氧化钙、生石灰、熟石灰、石灰石粉等多个板块

江阴市金桥化工有限公司

充满年轻活力的江阴市金桥化工有限公司成立于1997年,一直致力于发展化工产品生产、贸易、物流一体化,企业以先进科学的物流体系为基础,主营液体化工产品国际、国内贸易。企业2022年销售量达到580万吨,销售额达到280亿元。金桥化工连续4年(2020)入围中国民营企业500强,连续7年(2017)入围中国服务业500强,并入围2023江苏民营企业100强和2023中国服务业民营企业100强。

苏州空压机厂家

苏州玉达压缩机压缩机有限公司是一家集螺杆空压机和活塞空压机专业生产销售及其空压机零部件销售,空压机维修的厂家。主要生产螺杆空压机,活塞空压机和增压机,永磁螺杆空压机行业领先水平,活塞空压机价格低,可为客户节约30-40%的运营成本,免费提供空压机安装维护技术咨询,提供整条空压机线解决方案。

佛山市高明合顺气体有限公司

佛山市高明合顺气体有限公司创立于2004年,位于佛山市高明区沧江工业园合水园区,高明更合大道合瑶路旁,公司占地面积近35424平方米,环境优美,空气清新,距离广明高速入口4公里,交通十分便利。

桥梁支座

河北古晨工程橡胶有限公司【业务咨询:18203333719】是一家专注于桥梁支座生产制作的厂家.主要从事工程用桥梁支座、钢结构网架支座、管道堵水气囊、桥梁伸缩缝、建筑减隔震产品的生产与销售。

艾加斯维门窗

艾加斯维门窗,四川艾加斯维门窗有限公司,艾加斯维

黄金芽茶叶

黄金芽茶叶专卖网介绍了黄金芽茶叶属于什么茶、黄金芽茶叶价格多少钱一斤、黄金芽多少钱一斤、黄金芽茶叶价格图片、包括明前黄金芽茶叶价格、雨前黄金芽价格等等,黄金芽茶叶礼盒有四盒装和五盒装都有

多若特阀门,博尔梅特阀门

多若特阀门(江阴)有限公司是一家国外合资企业集研发、设计、开发制造为一体的企业。拥有多若特阀门,以色列阀门,博尔梅特阀门等多规格多种类产品。拥有多处生产基地,引进先进的制造工艺和管理体系,通过国家ISO9001质量体系认证和ISO14001环境管理体系认证。

全局底部横幅