DALL·E AI设计师 2!谷歌大脑推出新的文本生成图像模型 逼真度超越 (Dall·E下载)

文章编号:37866 资讯动态 2024-11-30 OpeAIGoogleImagenBrain

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen

文本生成图像模型界又出新手笔!

这次的主角是Google Brain推出的 Imagen,再一次突破人类想象力,将文本生成图像的逼真度和语言理解提高到了前所未有的新高度!比前段时间OpeAI家的

话不多说,我们来欣赏这位AI画师的杰作~

A brain riding a rocketship heading towards the moon.(一颗大脑乘着火箭飞向月球。)

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen

A dragon fruit wearing karate belt in the snow.(在雪地里戴着空手道腰带的火龙果)

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen

A marble statue of a Koala DJ in front of a marble statue of a turntable. The Koala has wearing large marble headphones.(一只带着巨大耳机的考拉DJ的大理石雕像站在一个大理石转盘前。)

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen

An art gallery displaying Monet PAIntings. The art gallery is flooded. Robots are going around the art gallery using paddle boards.(陈列莫奈画作的美术馆被水淹没。机器人正在使用桨板在美术馆里划行。)

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen

A giant cobra snake on a farm.The snake is made out of corn(农场里有一条巨大的玉米构成的眼镜蛇。)

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen

Teddy bears swimming at the Olympics 400m Butterfly event.(泰迪熊在奥运会400米蝶泳项目中游泳。)

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen

给出同样的文本提示,Imagen还可以生成不同类别的图像。比如下面这些图中,各组图片在物品的颜色、空间位置、材质等范畴上都不太相同。

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen



Imagen的工作原理
逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen

Imagen基于大型transformer语言模型在理解文本方面的能力和扩散模型在高保真图像生成方面的能力。

在用户输入文本要求后,如“一只戴着蓝色格子贝雷帽和红色波点高领毛衣的金毛犬”,Imagen先是使用一个大的冻结(frozen)T5-XXL 编码器将这段输入文本编码为嵌入。然后条件扩散模型将文本嵌入映射到64×64的图像中。

Imagen进一步利用文本条件超分辨率扩散模型对64×64的图像进行升采样为256×256,再从256×256升到1024×1024。结果表明,带噪声调节增强的级联扩散模型在逐步生成高保真图像方面效果很好。

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen

图注:输入“一只戴着蓝色格子贝雷帽和红色波点高领毛衣的金毛犬”后Imagen的动作

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen

图注:64 × 64生成图像的超分辨率变化。对于生成的64 × 64图像,将两种超分辨率模型分别置于不同的提示下,产生不同的上采样变化

大型预训练语言模型×级联扩散模型

Imagen使用在纯文本语料中进行预训练的通用大型语言模型(例如T5),它能够非常有效地将文本合成图像: 在Imagen中增加语言模型的大小,而不是增加图像扩散模型的大小, 可以大大地提高样本保真度和图像-文本对齐。

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen




引入新基准DrawBench

为了更深入地评估文本到图像模型,Google Brain 引入了DrawBench,这是一个全面的、具有挑战性的文本到图像模型基准。通过DrawBench,他们比较了Imagen与VQ-GAN+CLIP、Latent Diffusion Models和DALL-E 2等其他方法,发现人类评分者在比较中更喜欢Imagen而不是其他模型,无论是在样本质量上还是在图像-文本对齐方面。

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen

图注:Imagen与DALL-E 2、GLIDE、VQ-GAN+CLIP和Latent Diffusion Models在DrawBench上的比较:用户对图像-文本对齐和图像逼真度的偏好率(95%置信区间)

Imagen与DALL-E 2 生成图像的比较示例 :

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen

图注:“外星人绑架奶牛,将其吸入空中盘旋”(上);“一个被猫绊倒的希腊男性的雕塑”(下)

对于涉及颜色的文本提示,Imagen生成的图像也比DALL-E 2更优。DALL-E 2通常很难为目标图像分配正确的颜色,尤其是当文本提示中包含多个对象的颜色提示时,DALL-E 2会容易将其混淆。

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen

图注:Imagen和DALL-E 2从颜色类文本生成图像的比较。“一本黄色书籍和一个红花瓶”(上);“一个黑色苹果和一个绿色双肩包”(下)

而在带引号文本的提示方面,Imagen生成图像的能力也明显优于DALL-E 2。

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen

图注:Imagen 和 DALL-E 2 从带引号文本生成图像的比较。“纽约天际线,天上有烟花写成的“Hello World”字样”(上);“一间写着Time to Image的店面”(下)




打开了潘多拉魔盒?

像Imagen这样从文本生成图像的研究面临着一系列伦理挑战。

首先,文本-图像模型的下游应用多种多样,可能会从多方面对社会造成影响。Imagen以及一切从文本生成图像的系统都有可能被误用的潜在风险,因此社会要求开发方提供负责任的开源代码和展示。基于以上原因,Google决定暂时不发布代码或进行公开展示。而在未来的工作中,Google将探索一个负责任的外部化框架,从而将各类潜在风险最小化。

其次,文本到图像模型对数据的要求导致研究人员严重依赖于大型的、大部分未经整理的、网络抓取的数据集。虽然近年来这种方法使算法快速进步,但这种性质的数据集往往会夹带社会刻板印象、压迫性观点、对边缘群体有所贬损等“有毒”信息。

为了去除噪音和不良内容(如色情图像和“有毒”言论),Google对训练数据的子集进行了过滤,同时Google还使用了众所周知的LAION-400M数据集进行过滤对比,该数据集包含网络上常见的不当内容,包括色情图像、种族主义攻击言论和负面社会刻板印象。Imagen依赖于在未经策划的网络规模数据上训练的文本编码器,因此继承了大型语言模型的社会偏见和局限性。这说明Imagen可能存在负面刻板印象和其他局限性,因此Google决定,在没有进一步安全措施的情况下,不会将Imagen发布给公众使用。

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen

原创文章,未经授权禁止转载。详情见 转载须知 。

逼真度超越「AI设计师」DALL·E 2!谷歌大脑推出新的文本生成图像模型——Imagen

全局中部横幅
在线电子书转换,

小蜜蜂在线电子书转换器,转换电子书,支持绝多数格式如mobi,azw,txt,epub,pdf,azw3,htmlz等等,在线转换,质量高,速度快,生成的电子书能在各种设备上阅读!

西藏网站导航大全

LOL网址导航网是专业的上网导航网站,精心收录各类优质热门网站信息,同时提供天气、快递、违章等各种生活便民查询工具网址,为您提供安全便捷的上网导航服务,现已被众多网友设为上网主页,网址导航大全首选LOL网址导航.

辽宁专升本信息网

辽宁专升本考试信息网是辽宁专升本最专业的培训网,公共课培训、英语培训、计算机培训、会计培训、市场营销等

美美淘

美美淘是一家专做女鞋批发的网站,女鞋批发、女鞋一件代发、女鞋分销,产品齐全,包括女鞋、单鞋、皮鞋、运动鞋、休闲鞋、拖鞋、凉鞋、短靴、马丁靴、雪地靴、棉鞋等,支持女鞋一件代发,七天无理由退换货,专为电商、淘宝商家、天猫商家、微商和网商提供一手优质厂家女鞋货源,并提供女鞋一件代发服务。

提供专业的各类CMS网站建设开发服务

寻找专业的CMS网站建设服务?【辣辣建站吧】是您的首选。我们是一家专业的CMS网站建设开发工作室,专注于为客户提供定制化的CMS网站建设开发服务。凭借我们的专业技术和丰富经验,我们致力于为客户提供高品质的网站解决方案。联系我们,让我们共同实现您的网站梦想!

昆山兆准测量仪器有限公司官网

昆山兆准测量仪器有限公司是中国测量仪器领先品牌、行业的领导者!拥有完全自主知识产权的三坐标测量机、影像测量仪、快速测量仪、投影仪等精密量测设备的制造厂家,也是目前测量行业最具实力的生产厂家之一。工厂总部位于广东省东莞市,昆山为直销及全方面售后服务点,全国各地设有多个分公司或办事处,服务网点辐射于中国的华南、华东、华北、西北以及亚洲、欧洲等多个国家。

上海云风防水工程有限公司

上海云风防水工程有限公司是一家专业从事建筑防水工程施工、建筑堵漏、防腐防潮保温工程、防水材料销售的企业。联系人:13072121863

九游APP官网

九游客户端官网为玩家提供九游游戏中心客户端下载,新版九游APP安卓手机版、iOS版下载,还有专属礼包免费领,权威手游榜单随时看!玩游戏,找礼包,就用九游APP!

无锡网站建设

无锡网站建设阿凡达网络是无锡专业的网站建设公司,我们用先进的网站设计技术,合理的企业网站制作费用,优质的网站建设方案,为企业提供一流的网站建设服务,无锡网络公司阿凡达建站主营业务企业网站建设,网站改版,企业网站维护托管等,阿凡达网络力争成为无锡网站建设行业最有技术力量的队伍之一。

汽车维修电路图

汽修手册网(qixiushouce.com)是一个在线维修手册及电路图资料查询平台,上千个车型详细汽车维修资料库,受到专业汽车维修技术人员的一致好评,找汽车维修手册资料就上汽修手册网。

全局底部横幅