DALL (dall-e)

文章编号：43964 资讯动态 2024-12-09 CLIP 2 OpenAI DALL E GLIDE 工作原理

DALL-E 2的工作原理原来是这样！

OpenAI的模型DALL-E 2于本月初发布，刚一亮相，便在图像生成和图像处理领域卷起了新的风暴。

只需要给到寥寥几句文本提示，DALL-E 2就可以按文本指示生成全新图像，甚至能将毫不相关的物体以看似合理的语义方式组合在一起。

比如用户输入提示“一碗汤是另一个次元的入口”后，DALL-E 2便生成了以下的魔幻图片。

“一碗汤是另一个次元的入口”

DALL-E 2不仅能按用户指令生成明明魔幻，却又看着十分合理不明觉厉的图片。作为一款强大的模型，目前我们已知DALL-E 2还可以：

感觉有了DALL-E 2，艺术家都可以下岗了。

DALL-E 2目前曝光的功能令人瞠目结舌，不禁激起了众多AI爱好者的讨论，这样一个强大模型，它的工作原理到底是什么？！

工作原理：简单粗暴

"一只在吹喷火喇叭的柯基”——DALL-E 2图片生成流程解析图源：

针对图片生成这一功能来说，DALL-E 2的工作原理剖析出来看似并不复杂：

工作细节：处处皆奥妙

可是以上步骤说起来简单，分开看来却是每一步都有很大难度，让我们来模拟DALL-E 2的工作流程，看看究竟每一步都是怎么走通的。

我们的第一步是先看看DALL-E 2是怎么学习把文本和视觉图像联系起来的。

第一步 - 把文本和视觉图像联系起来

输入“泰迪熊在时代广场滑滑板”的文字提示后，DALL-E 2生成了下图：

DALL-E 2是怎么知道“泰迪熊”这个文本概念在视觉空间里是什么样子的？

其实DALL-E 2中的文本语义和与其相对的视觉图片之间的联系，是由另一个OpenAI模型CLIP（ontrastIveanguage-magere-training）学习的。

CLIP接受过数亿张图片及其相关文字的训练，学习到了给定文本片段与图像的关联。

也就是说，CLIP并不是试图预测给定图像的对应文字说明，而是只学习任何给定文本与图像之间的关联。 CLIP做的是对比性而非预测性的

整个DALL-E 2模型依赖于CLIP从自然语言学习语义的能力，所以让我们看看如何训练CLIP来理解其内部工作。

训练CLIP的基本原则非常简单:

，因为CLIP才是那个把自然语言片段与视觉概念在语义上进行关联的存在，这对于生成与文本对应的图像来说至关重要。

第二步 - 从视觉语义生成图像

训练结束后，CLIP模型被冻结，DALL-E 2进入下一个任务——学习怎么把CLIP刚刚学习到的图像编码映射反转。CLIP学习了一个表示空间，在这个表示空间当中很容易确定文本编码和视觉编码的相关性，我们需要学会利用表示空间来完成反转图像编码映射这个任务。

而OpenAI使用了它之前的另一个模型GLIDE的修改版本来执行图像生成。GLIDE模型学习反转图像编码过程，以便随机解码CLIP图像嵌入。

“一只吹喷火喇叭的柯基”一图经过CLIP的图片编码器，GLIDE利用这种编码生成保持原图像显著特征的新图像。

如上图所示，需要注意的是，我们的目标不是构建一个自编码器并在给定的嵌入条件下精确地重建图像，而是在给定的嵌入条件下生成一个保持原始图像显著特征的图像。为了进行图像生成，GLIDE使用了扩散模型（ DifFusion Model ）。

扩散模型是一项受热力学启发的发明，近年来越来越受到学界欢迎。扩散模型学习通过逆转一个逐渐噪声过程来生成数据。如下图所示，噪声处理过程被视为一个参数化的马尔可夫链，它逐渐向图像添加噪声使其被破坏，最终（渐近地）导致纯高斯噪声。扩散模型学习沿着这条链向后走去，在一系列步骤中逐渐去除噪声，以逆转这一过程。

DALL-E 2的工作原理原来是这样！

如果训练后将扩散模型“切成两半”，则可以通过随机采样高斯噪声来生成图像，然后对其去噪，生成逼真的图像。大家可能会意识到这种技术很容易令人联想到用自编码器生成数据，实际上扩散模型和自编码器确实是相关的。

虽然GLIDE不是第一个扩散模型，但其重要贡献在于对模型进行了修改，使其能够生成有文本条件的图像。

GLIDE扩展了扩散模型的核心概念，通过增加额外的文本信息来增强训练过程，最终生成文本条件图像。让我们来看看GLIDE的训练流程：

DALL-E 2的工作原理原来是这样！

下面是一些使用GLIDE生成的图像示例。作者指出，就照片真实感和文本相似度两方面而言，GLIDE的表现优于DALL-E(1)。

由GLIDE生成的图像示例图源

DALL-E 2使用了一种改进的GLIDE模型，这种模型以两种方式使用投影的CLIP文本嵌入。第一种方法是将它们添加到GLIDE现有的时间步嵌入中，第二种方法是创建四个额外的上下文标记，这些标记连接到GLIDE文本编码器的输出序列。

GLIDE对于DALL-E 2亦很重要，因为GLIDE能够将自己按照文本生成逼真图像的功能移植到DALL-E 2上去，而无需在表示空间中设置图像编码。因此，DALL-E 2使用的修改版本GLIDE学习的是根据CLIP图像编码生成语义一致的图像。

第三步 - 从文本语义到相应的视觉语义的映射

到了这步，我们如何将文字提示中的文本条件信息注入到图像生成过程中?

回想一下，除了图像编码器，CLIP还学习了文本编码器。DALL-E 2使用了另一种模型，作者称之为先验模型，以便从图像标题的文本编码映射到对应图像的图像编码。DALL-E 2的作者用自回归模型和扩散模型进行了实验，但最终发现它们的性能相差无几。考虑到扩散模型的计算效率更高，因此选择扩散模型作为 DALL-E 2的先验。

从文本编码到相应图像编码的先验映射

DALL-E 2中扩散先验的运行顺序是：

现在，我们已经拥有了DALL-E 2的所有“零件”，万事俱备，只需要将它们组合在一起就可以获得我们想要的结果——生成与文本指示相对应的图像:

DALL-E 2的工作原理原来是这样！

DALL-E 2图像生成流程的高级概述

以上就是DALL-E 2的工作原理啦~

版权文章，未经授权禁止转载。详情见转载须知。

DALL-E 2的工作原理原来是这样！

谷普下载提醒您

本文链接：http://www.gpxz.com/article/7526b20a9e3c40e38206.html

上一篇：CAIIC智能科学与技术将推动2016李德毅主题

下一篇：对OpenAIDALL对openAI的封闭的想法

公益网站导航大全

LOL网址导航网是专业的上网导航网站,精心收录各类优质热门网站信息,同时提供天气、快递、违章等各种生活便民查询工具网址,为您提供安全便捷的上网导航服务,现已被众多网友设为上网主页,网址导航大全首选LOL网址导航.

网站模板 2024-01-11 02:31:31

闪电下载吧

闪电下载吧:（SD124）提供最新的绿软分享,专业软件站点,互联网共享,分享精神,你需要,我们给你提供！

电影视频 2024-08-17 00:50:54

电影港网

电影港网(dyg5.com)提供高清电影电视剧BT种子下载，并且支持手机直接在线观看，电影港——你懂得可以直接在线观看视频的网站，您的BT电影天堂

电影视频 2024-08-17 00:56:29

丙纶纤维

公司生产纤度3D至300D，长度38.4、57、65、76、90、102mm各种规格和各颜色的丙纶短纤维，也可根据用户需求组织生产特殊要求的丙纶短纤维。

组织协会 2024-08-17 01:52:29

齐家网

齐家网是一家装修、建材、家居领域电子商务网站，通过齐家网电子商务平台为国内建材、家居产品销售供应商和装修设计、装修施工管理服务供应商提供一整套的电子商务解决方案，通过互联网技术为网络家装消费用户提供优质低价的装修家居消费品和相关服务，帮助用户轻松实现装修。

网络应用 2024-08-17 22:01:21

中文营销站

这是网站的描述内容

网站模板 2024-07-09 16:01:13

工业零部件

上海凯舒电子材料有限公司成立于2004年，一直致力于为客户提供全方位紧固系统的解决方案，协助客户对C-parts进行打包服务。提供各类扎线带，间隔柱，脚垫，铆钉，螺丝螺母，布线产品，各类接头，孔塞及电缆保护产品，接线端子及端子台，各种金属标准及非标件，各类开关及防静电产品等等。

商业服务 2024-08-07 17:24:00

常州网络公司

常州智博品牌策划有限公司-专业致力于抖音短视频拍摄剪辑代运营、网站建设服务，公司拥有十年的网站建设经验，几百家网站建设成功案例，主要从事网站建设、抖音拍摄、视频剪辑代运营，和Flash动画设计等工作。

电影视频 2024-07-16 21:22:22

卷瓜网

电影视频 2024-12-03 23:21:50

雷鸣科技

号卡联盟-号卡联盟(号卡极团)订单分销管理系统，专注为号卡行业各级代理商提供分销解决方案，助力每一位号卡行业的辛勤工作者有一个便捷、独立的增量工具,专注为中小代理商提供号卡分销系统解决方案!

手机软件 2024-12-05 19:34:55

西安电缆桥架

陕西曼德西电气设备有限公司，成立于20世纪90年代，是一家专业从事西安电缆桥架、陕西电缆桥架、西安母线槽等电气设备产品的生产和制造企业。公司总部位于陕西省的经济中心，拥有先进的生产设备和技术团队，致力于为客户提供高质量的电气设备解决方案。

企业品牌 2025-01-15 19:17:57

正禾云品

正禾云品探究文化本源，分享匠心美物。宜兴紫砂宜兴紫砂紫砂艺术紫砂陶瓷工艺美术手艺人

历史文化 2025-02-20 21:38:01

自拍神器迪斯尼乐园全球范围封杀 (自拍神器的用法)

对于智能手机自拍一族来说，自拍棒，或自拍杆，成为一个利器，手机自拍再也不局限于一个，大人头，然而由于安全等因素，自拍棒在全球越来越多的的地方和场所遭到封杀，6月26日，迪斯尼公司宣布，从下周开始将在全世界的迪斯尼主题乐园，禁止游客携带自拍棒，据路透社报道，迪斯尼公司宣布，从6月30日开始，美国佛罗里达州奥兰多市以及加州Anaheim...。

2025-01-31 02:49:39

敬业福支付宝新年集福活动又要来了万能福 (敬业福支付宝图片)

支付宝集福活动从最初上线时间到今年，持续了三年时间，从最初的，敬业福，一福难求，到接下来的，万能福，虽然个人瓜分金额有所下降，但似乎每到集福之日，年味似乎就更浓了一些，今年，支付宝新年活动上线时间预计为1月27日上线，据了解，除了奖池金额增加以外，支付宝还会新增AR新玩法，增加集福活动渠道，对于，集五福，活动，在16年时，敬业福一福...。

2025-01-30 18:02:39

腾讯首投国内AI芯片公司成立仅5个月专注数据中心深度学习芯片 (腾讯第一笔投资)

雷锋网消息，今天人工智能领域神经网络解决方案公司燧原科技宣布获得Pre，A轮融资3.4亿元人民币，由腾讯领投，种子轮投资方亦和资本，武岳峰资本旗下基金，、真格基金、达泰资本、云和资本继续跟投，根据雷锋网的了解，在AI领域腾讯的投资上偏好行业覆盖性的战略方针，主要是在智能医疗方向，在AI芯片方面腾讯的投资仅有一个公开的投资，那就是201...。

2024-12-04 01:23:01

有正规典当可以加盟吗 (典当行能做吗)

创业，选择对项目，就说明已经成功一半了，所以在此之前，创业者们也纷纷走上了对于创业之路的探索上，典当行业，在国内的市场上已经有上千年的发展历史，如今也是比较受欢迎的金融类项目，对于大众较大的需求下，以及行业不断拓张的发展市场，不少的创业人士，也纷纷将对其加盟开店的想法关注了过来，下文中，有关有正规典当可以加盟吗，详情的内容一起去探索了...。

2024-12-02 20:45:29

美珈豪加盟费多少钱 (美珈豪产品加盟费用多少)

光洁美丽的肌肤对于美貌的加成是成倍的，但是很多人囿于先天原因肌肤状况很不好，有斑有痘很正常，如果斑点和痘印不严重还可以简单修饰一番，若是十分严重的话，有碍观瞻的同时也很影响自身信心的建立，不过现代社会科技技术进步了不少，很有手段和产品可以解决大众烦恼问题，比如美珈豪，就是专门进行美容护肤的品牌，口碑也很不错，那么美珈豪加盟费多少钱，关...。

2024-11-22 23:26:36

因见义勇为减刑三个月这名缓刑犯 (因见义勇为伤亡谁承担责任)

品德素质的提高，是社区改正成功的表现之一赣江水面上，一名落水老人正随江漂流，头部浮在水面上若有若无，天气凛冽，状况危殆，一女子跃入水中，与他人一道将老人拉到岸边，过后我没想那么多……，，该女子预先提到，起初人们知道，该女子名为幸某，是一名缓刑人员，2023年11月，他因犯粉饰、瞒哄罪恶所得罪，获刑有期徒刑一年六个月，缓刑一年六个月，...。

2024-07-10 20:32:06

网易有道词典怎样拍照在线翻译 (网易有道词典在线翻译)

在偶然心很静，小编青睐读写英文的典故，但只是略懂些许，还不够领析到更准的意思，那么就需一个随时能译文的，小伴友，初用有道翻译的好友，快下看如何经过只对英文区域拍照，就能成功变汉吧，进入有道词典首页，轻按下方，词典，的字钮，在下层的白框中就有，拍照翻译，，点开于此，若是一整段中，有略许几个词不知英译，就驳回，拍照取词，的蓝字，对准所要...。

2024-07-08 20:56:00

谁能帮我弄到可以下载而且收费的杀毒软件谢谢我急用 (谁能帮帮我表情包)

强力杀毒，下载360安捍卫士，全收费的，下载地址，内含卡巴斯基反病毒软件v6.0正式版McAfee，都是收费的，两种我都用过，avast启动较慢，我介绍你经常使用McAfee，McAfee的实时监控环球第一，启动快，杀毒强.收费更新而且无毒，还有，丁香鱼工做室外面的软件都收费且无毒，哪里有收费杀毒软件下载呀，最好不要装置什么插件，...。

2024-07-05 12:04:13

iPhone11夜景模式怎么开iPhone11相机夜景模式在哪开启

iPhone11和11Pro都加入了夜景拍照功能，这也是iPhone11系列软件最大更新特点之一。很多小伙伴还不知道iPhone11相机的夜景模式在哪里设置开启，下面小编为大家带来了详细介绍，一起来了解下。iphone11相机夜间模式在哪开启？iPhone11和iPhone11Pro相机系统令人最深刻的印象是支持了夜间模式，极大改善了在弱光环境下的摄影效果，需要注意的是，开启夜间模式并不需要手动开启，

2023-11-17 03:11:53

安司密信电脑版下载-安司密信v2.7.93.5官方最新版

安司密信是一款安全通讯聊天软件，开启安全通信新时代，现在有ios、Android、mac、linux多端同步，终端到终端，主打安全的沟通方式，始终如一

2023-11-11 13:29:24

苏州，苏州如何，什么苏州，哪些苏州，怎么苏州

2023-11-04 12:21:46

Mac使用入门,Mac使用教程,Mac使用技巧

欢迎来到pc6苹果网,我们有PC6苹果网为您分享MacOS设备使用技巧，MacOS系统使用教程，MacOS软件破解攻略。

2023-08-11 16:19:12

文章推荐

独家丨平安银行零售风控负责人张慎离职 (平安银汉)

独家获悉，平安银行零售风险管理部总经理、兼平安信用卡风险总监张慎，已于近期离职，据公开资料，张慎1998年获美国俄亥俄州立大学统计学博士学位，后入职美国运通公司，15年间，他主导开发了公司信用和伪冒风险模型，2012年，张慎加入平安银行，主导改进了平安银行的风控系统，尤其是，SAFE，反欺诈系统，张慎的离开与今年上半年平安银行总...。

2025-02-01 15:10:00

资讯动态

IPO 造车新势力抢滩谁是科创板第一股 (汽车上市ipo)

前段时间，威马汽车宣布已完成科创板上市辅导，回顾过去一年，科创板似乎成为了造车新势力们抢滩登陆的一块宝地，截至去年10月，已有包括恒大、吉利、东风、威马、零跑、天际、哪吒、爱驰、奇点等9家企业宣布计划于2021年登陆科创板，其中不少已启动科创板上市辅导，那么问题来了，为何造车新势力们都偏爱科创板，科创板即科技创新板，于2019年6月1...。

2024-12-10 00:14:46

资讯动态

联影智能携最新大模型产品亮相北美放射学年会智能医疗数字人全球首秀 (联影智能怎么样)

今年北美放射学年会以‘智能连接，Intelligntconnection，为年度主题，这充分体现医疗场景向智能蝶变的风向和动力，联影智能始终致力于用领先的技术引领改变，将‘进化，写入产品基因，今年我们以uAI影智大模型为技术底座，衍生出数字人、沉浸式手术平台等新品，就是对此最好的证明，联影智能美国公司首席执行官TerrenceC...。

2024-12-09 13:55:37

资讯动态

飞腾和龙芯CPU单颗出货突破百万！国产CPU生态建设到哪一步了 (飞腾和龙芯处理器)

CPU作为三大核心芯片之一，长期被英特尔和AMD占据全球80%以上的市场，国内虽然也有飞腾、龙芯、海光、兆芯等企业在做自己的国产CPU，但原先就已构建起的市场格局壁垒高，短时间内难以改变，尤其是在生态方面处于劣势，虽然众多国产CPU公司不像英特尔和AMD等芯片巨头早在50年前就已经开始在半导体行业中摸索前行，但发展至今也有20多年的历...。

2024-12-03 21:31:31

资讯动态

能否卷出个未来智能客服企业卷到东南亚

大家已经把价格压得很低，相当于鼻孔贴着水面了，降得少没意义，降得多就要窒息了，在谈到智能客服行业的内卷现状时，一位资深行业人士对说道，价格战曾经是争夺市场份额无往不利的，大杀器，，但在智能客服市场的竞争烈度下，已经彻底失效，原本自诩颠覆者的AI公司们不得不低下高贵的头颅，开始贴身做起了服务，从浮在空中做技术和工具，转为更加接...。

2024-12-03 17:06:01

资讯动态

DALL (dall-e)

第二步 - 从视觉语义生成图像

第三步 - 从文本语义到相应的视觉语义的映射

相关文章

文章推荐