OpenAI祭出120亿参数魔法模型!从文本合成图像栩栩如生 仿佛拥有人类的语言想象力 (openai股票)

文章编号:44457 资讯动态 2024-12-09 OpenAI

2021刚刚开启,OpenAI又来放大招了!

能写小说、哲学语录的GPT-3已经不足为奇?那就来一个多模态『图像版GPT-3』。

今天,OpenAI重磅推出了最新语言模型—,它是GPT-3的120亿参数版本,可以魔法一般按照自然语言文字描述直接生成对应图片!

比如,在DALL·E模型中输入“穿芭蕾舞短裙、正在遛狗的萝卜宝宝”,它就可以生成这样一张图片:

OpenAI祭出120亿参数魔法模型!从文本合成图像栩栩如生,仿佛拥有人类的语言想象力

输入“鳄梨形状的扶手椅”,就是这样:

OpenAI祭出120亿参数魔法模型!从文本合成图像栩栩如生,仿佛拥有人类的语言想象力

甚至输入“含OpenAI字样的店铺”,它也能成生成多种设计图

OpenAI祭出120亿参数魔法模型!从文本合成图像栩栩如生,仿佛拥有人类的语言想象力

DALL·E这项神技能冲上了各大社交平台的热搜。

Keras创始人François Chollet特意发文称:

AI大神吴恩达也第一时间转推点赞,还顺带挑选了一张满意的蓝色衬衫 + 黑色长裤的AI 生成图。

OpenAI祭出120亿参数魔法模型!从文本合成图像栩栩如生,仿佛拥有人类的语言想象力

OpenAI 联合创始人、首席科学家 Ilya Sutskever 在推特上发文表道:人工智能的长期目标是构建多模态神经网络,即AI能够学习不同模态之间的概念(文本和视觉领域为主),从而更好地理解世界。而 DALL·E 和 CLIP 使我们更接近“多模态 AI 系统”这一目标。

OpenAI祭出120亿参数魔法模型!从文本合成图像栩栩如生,仿佛拥有人类的语言想象力

OpenAI祭出120亿参数魔法模型!从文本合成图像栩栩如生,仿佛拥有人类的语言想象力

接下来,我们来详细介绍一下它还有哪些硬核能力。

DALL·E的能力

DALL·E能够为多语言成分结构的各种句子创造似是而非的图像。研究人员通过一些交互视觉效果举例说明了这一点。在下面的案例中,每个视觉效果的文本提示都是通过CLIP重新排序后,从512个文本提示中的前32个获得的,不采取任何手动选取(cherry-picking)。

控制属性

研究人员测试了DALL·E修改目标物体的能力,包括修改相应的属性以及出现的次数。

OpenAI祭出120亿参数魔法模型!从文本合成图像栩栩如生,仿佛拥有人类的语言想象力

绘制多个目标

同时控制多个目标物体、以及它们的属性、空间关系是一个全新的挑战。

例如,“一只戴着红帽子、黄手套、蓝衬衫和绿裤子的刺猬”。要正确地解释这句话,DALL·E不仅要正确地将每件衣服与动物组合在一起,还要将(帽子、红色)、(手套、黄色)、(衬衫、蓝色)和(裤子,绿色)形成各种联想,而且不能混淆它们。

OpenAI祭出120亿参数魔法模型!从文本合成图像栩栩如生,仿佛拥有人类的语言想象力

虽然DALL·E确实为少量目标的属性和位置提供了某种程度的可控性,但成功率取决于标题文本的语言措辞。

随着目标的增多,DALL·E容易混淆目标与颜色之间的关联,成功率会急剧降低。研究人员注意到,在这些场景中,DALL·E对于标题文本的重新表述是脆弱的、可替代的,语义上等价的标题文本通常不会产生正确的解释。

可视化透视与三维

研究人员发现DALL·E还能够控制场景的视点和渲染场景的3D样式。

OpenAI祭出120亿参数魔法模型!从文本合成图像栩栩如生,仿佛拥有人类的语言想象力

为了进一步验证DALL·E的这个能力,研究人员测试了DALL·E在同等视角下重复绘制知名人物头部的能力,并发现DALL·E可以成功恢复旋转头部的平滑动画。

OpenAI祭出120亿参数魔法模型!从文本合成图像栩栩如生,仿佛拥有人类的语言想象力

DALL·E能够将某些类型的光学畸变(Optical Distortions)应用到具体场景中,正如我们在“鱼眼透镜视图(Fisheye Lens View)”和“球形全景图(Spherical Panorama.)”等场景中看到的那样。它促使研究人员探索其产生光学反射的能力。

OpenAI祭出120亿参数魔法模型!从文本合成图像栩栩如生,仿佛拥有人类的语言想象力

可视化内部和外部结构

“特写镜头(Extreme Close-up View)”和“x射线(X-Ray)”风格的案例使研究人员进一步探索了DALL·E运用横截面视角绘制内部结构和用宏观图像绘制外部结构的能力。

OpenAI祭出120亿参数魔法模型!从文本合成图像栩栩如生,仿佛拥有人类的语言想象力

推断上下文细节

将文本翻译成图像的任务是不明确的:一个标题文本通常可以对应无限多种图像,换句话说,图像不是唯一确定的。例如,假如标题文本是“日出时,坐在田野上的水豚的绘画像。根据水豚的方位,可能需要画一个阴影,但这个细节没有被明确提及。

研究人员探讨了DALL·E在以下三种情况下解决无规范标准问题的能力:改变风格、设置和时间;在各种不同的情况下绘制同一目标图像;在生成目标图像上书写指定文本。

OpenAI祭出120亿参数魔法模型!从文本合成图像栩栩如生,仿佛拥有人类的语言想象力

利用不同程度的可靠性,DALL·E为通过自然语言实现3D渲染引擎功能提供了一种途径。它可以独立地控制少量目标的属性,并在有限的范围内控制目标的数量以及它们之间的排列方式。它还可以控制渲染场景的位置和角度,并且根据角度和照明条件生成精确且规范的已知目标。

与3D渲染引擎不同,3D渲染引擎的输入必须明确且完整,当标题文本暗示图像必须包含未明确的特定细节时,DALL·E通常能够“填补空白”。

应用案例

研究人员探讨了上述功能在时尚设计和室内设计中的应用。

OpenAI祭出120亿参数魔法模型!从文本合成图像栩栩如生,仿佛拥有人类的语言想象力

OpenAI祭出120亿参数魔法模型!从文本合成图像栩栩如生,仿佛拥有人类的语言想象力

组合不相关的概念

语言的构成本质使人们能够将概念描述集成在一起,用以描述真实和虚构的事物。 OpenAI发现,DALL·E还具有将完全不同的idea结合起来以合成物体的能力,其中有些物体不可能在现实世界中存在。

OpenA在两种情况下探索这种能力:将各种概念的特质传递给动物,以及从不相关的概念中汲取灵感来设计产品。

OpenAI祭出120亿参数魔法模型!从文本合成图像栩栩如生,仿佛拥有人类的语言想象力

在上一部分中探讨了DALL·E在生成真实物体的图像时结合无关概念的能力。 接下来,OpenAI通过在艺术的背景下的三种插图探索这种能力:动物和物体的拟人化版本、动物嵌合体、表情符号。

OpenAI祭出120亿参数魔法模型!从文本合成图像栩栩如生,仿佛拥有人类的语言想象力

零样本视觉推理

可以仅根据说明和提示来指示GPT-3执行多种任务,而无需任何额外训练。例如,当提示短语“将‘在公园里walking狗的人’被翻译成法语:”时,GPT-3会回答“un homme quipromèneson chien dans le parc。此功能称为零样本推理。

OpenAI发现DALL·E将此功能扩展到了视觉领域,并且在以正确的方式提示时,能够执行多种图像到图像的翻译任务。

OpenAI祭出120亿参数魔法模型!从文本合成图像栩栩如生,仿佛拥有人类的语言想象力

OpenAI惊讶地发现DALL·E居然有这种神奇的能力,因为他们没有对神经网络或训练程序进行任何修改。

受这些结果的启发,OpenAI通过在Raven的渐进矩阵上进行测试来衡量DALL·E对于解决类推推理问题的能力,这是一种视觉智商测试,在20世纪得到了广泛应用。

OpenAI祭出120亿参数魔法模型!从文本合成图像栩栩如生,仿佛拥有人类的语言想象力

地理知识

OpenAI 发现DALL·E了解地理事实、地标和街区。 它对这些概念的了解在某些方面出奇地精确,而在另一些方面却有缺陷。

OpenAI祭出120亿参数魔法模型!从文本合成图像栩栩如生,仿佛拥有人类的语言想象力

时间知识

除了探索DALL·E关于随空间变化的概念的知识外,OpenAI还探索了其随时间变化的概念的知识。

OpenAI祭出120亿参数魔法模型!从文本合成图像栩栩如生,仿佛拥有人类的语言想象力

总结:方法和先前工作

DALL·E是一个仅有解码器的Transformer架构,它可以接收1280个token的文本和图像作为单个流(文本为256个token,图像为1024个token),并对它们全部进行自动回归建模。

它的64个自注意力层中的每一个都具有注意力mask,使每个图像token都可以匹配所有文本token。DALL·E对文本token使用标准的因果mask,以行、列或卷积注意模式对图像token使用稀疏注意,具体取决于层数。

与VQVAE-2中使用的rejection sampling类似,OpenAI使用CLIP对每个文本生成的512个采样中的前32个进行排名。此过程也可以看作是一种语言指导的搜索,会对样本质量产生巨大影响。

GPT-3已经向我们展示,可以用语言来指示大型神经网络执行各种文本生成任务。Image GPT则表明,同样类型的神经网络也可以用来生成高保真的图像。OpenAI进一步扩展了这些发现,以表明通过语言操纵视觉概念是触手可及的。

与GPT-3一样,DALL·E是一种Transformer语言模型。OpenAI认为,涉及生成模型的工作可能会产生重大而广泛的社会影响。因此未来,OpenAI会计划分析像DALL·E这样的模型如何与社会问题联系起来,例如对某些工作流程和专业的经济影响,模型输出中可能存在的偏见以及该技术所隐含的长期道德挑战。

最后,Henry AI Labs在YouTube上分享了一个视频,简要介绍了OpenAI的DALL-E模型,并表示“希望可以清楚说明深度神经网络中文本和图像是如何作为张量统一的。”

由于是非官方解释,仅供参考

最后,大家对DALL·E 这个的神经网络模型有什么应用上的期待呢?二维设计师?

又会觉得它会引导什么AI革命吗?又或者觉得它会存在很多不可避免的限制?

参考链接:

原创文章,未经授权禁止转载。详情见 转载须知 。

全局中部横幅
2018国家公务员考试

中国教育在线公务员考试频道、公务员考试网授权发布2018年国考及2018公务员考试信息,内容主要包含公务员报名,公务员考试时间,公务员面试,公务员试题、公务员职位表等,是中国人力资源和社会保障部指定国家公务员信息发布平台。

无锡收银机

无锡软服瑞德有限公司是一家计算机软硬件及系统集成商,主要产品有无锡收银机、无锡车牌识别、停车场管理系统、无锡建筑工人实名制系统、工地扬尘系统、工地监控系统、无锡危化二道门、化工厂人员定位系统、无锡二道门系统、无锡电动门、感应门、无锡翼闸摆闸三辊闸、智慧小区系统

京东下载2024安卓最新版

【豌豆荚】为你提供京东APP安卓版下载,历史版本、旧版下载,查看2024最新京东手机版介绍、应用截图、网友评论,方便快捷的将安卓版京东应用免费下载到手机。

全屋软装设计,整体装修,家居空间设计,别墅装修设计

美居整体软装是业界知名软装设计公司,长期为广州,深圳,上海,重庆等地提供专业的整体软装配套服务,出色完成数百个全国各地项目的设计和实施,获得众多客户朋友的信赖.

天津康博轻钢制造有限公司,康博轻钢制造,高频焊接H型钢

天津康博轻钢制造有限公司是一家主营钢材及钢材加工的企业,主要经营生产高频焊接H型钢等钢材业务。公司经过多年的稳步发展,规模不断扩大,现可为全国各地用户配送相关钢材产品。我司货源充足,交货周期快,常年备有数万吨各类钢材现货库存,能稳健快捷地满足客户相关需求。

好有缘导航网

服务器行业的自动发布外链,友情链接交换收录查询平台,免费自动收录,,网站提高网址收录,网站收录交换链接,网站自动收录,免费云服务器VPS虚拟空间主机,IDC评测网永久免费的自动收录网站!

螃蟹网络游戏账号交易代售平台

螃蟹游戏账号交易代售平台是国内安全、权威、服务完善的大型网络游戏账号交易代售平台,提供游戏账号交易、手游交易、道具交易、账号买卖、鉴号估价、担保中介、账号回收、账号追回等服务,同时为用户提供专业的售后保障,找回包赔无时间限制,所有交易均签署专业电子版法律合同,让游戏账号交易有字有据,享受法律效力,保证用户权益。

新开传奇私服网站,热血传奇SF发布网――零妖零新服网

零妖零传奇新服网【www.010jt.com】建站5年以来每天坚持更新最新款传奇私服游戏信息,全站共收录了十万多各种新开热血传奇SF版本,如:单职业传奇、复古传奇、变态传奇私服、冰雪传奇等热门新开传奇私服版本.

芳砾植园

芳砾植园网站是一个汇聚了丰富养花、种植知识的平台,致力于分享花卉养护的秘诀和心得,让每一位访客都能在这里找到适合自己的养花之道。

内外墙防水补漏

欢迎来到我们的家居防潮防霉解决方案网站!我们专注于解决内外墙发霉渗水、屋顶漏水、地面跑砂、电梯井渗水、金属生锈、木材发霉、皮革发霉等居家常见问题。通过专业的检测、诊断与治理服务,我们为您提供一站式解决方案,帮助您打造一个干燥、健康、安全的居住环境。无论是新建房屋还是老旧住宅,我们都能为您提供量身定制的防潮防霉方案,让您的家远离潮湿烦恼,重拾舒适生活。

天津道路划线

天津远达交通设施有限公司是一家从事道路、停车场(库)、物流厂区、市民小区、交通安全设施产品设计、生产、施工、维护一体化综合性公司。公司主要承接工厂停车场、厂区道路划线、学校停车场、学校道路划线、停车场、道路划线、生活小区停车场、生活小区道路划线、商业区停车场、商业区道路划线等各种交通施工工程。为京津翼建设“添砖加瓦”

初心助学网

初心助学网依托“互联网+教育”模式,一站式提供各中高院校招生信息、招生简章、高考录取分数线,各大学专业录取分数线数据,出国留学常识,以及学历提升、专升本、职业资格报考等各类型教育考试信息。为用户提供分数查询,院校查询,性格测评,选科指导、报考指南、就业指导、考研服务、职业资格报考学习等服务,助力用户科学择校、科学学习,初心助学网陪你一起成长!

全局底部横幅