居然能用自创的语言来生成图像 AI模型的可解释性再一次暴露短板 太魔幻了!DALL·E 2 (可以自己创作)

文章编号:41659 资讯动态 2024-12-03 DALL·E语言系统2文本图像

太魔幻了!DALL·E 2 居然能用自创的语言来生成图像,AI模型的可解释性再一次暴露短板

万一DALL·E-2是在向人类发出什么了不得的信号呢?这门语言快学起来!
DALL·E 和 DALL·E-2从文本生成图像的魔力,想必大家都已经见识过了。作为深度生成模型,它们能够将文本作为输入,生成匹配给定文本的超逼真图像。
不过,DALL·E-2 的一个众所周知的局限性是它在生成
例如,给出文本提示:Two farmers talking about vegetables,with subtitles.(两个农民在谈论蔬菜,有字幕)
太魔幻了!DALL·E 2 居然能用自创的语言来生成图像,AI模型的可解释性再一次暴露短板
谁能告诉我这张图上的文字是什么语言?什么意思???
在DALL·E-2所生成的带有文本的图像中,DALL·E-2显然在说一种我们人类看不懂的语言。其实这一点在最初的DALL·E-2论文以及Marcus等人对该模型的初步评估中就已经发现了。
这些让人无法理解的文本并不是随机的!

来自德克萨斯大学奥斯汀分校的博士生Giannis Daras 和 Alexandros G. Dimakis教授,发现 DALLE-2背后竟然有一套秘密语言,模型内部似乎有一套隐藏的词汇表,从这些隐藏的词汇中,模型会学习一些单词,并创造一些荒谬的文本提示来生成图像。

比如,在DALL·E-2的语言系统里,Apoploe vesrreaitais意思是鸟类,Contarra ccetnxniams luryca tanniounons则表示昆虫或害虫。
当你输入这个句子作为文本提示时:Apoploe vesrreaitais eating Contarra ccetnxniams luryca tanniounons
DALL·E-2生成了下面这些图像,图像内容翻译成英语,显然是“A bird is eating a bug”(一只鸟在吃虫子)
太魔幻了!DALL·E 2 居然能用自创的语言来生成图像,AI模型的可解释性再一次暴露短板
太魔幻了!DALL·E 2 居然能用自创的语言来生成图像,AI模型的可解释性再一次暴露短板



DALL·E-2 的秘密语言

Daras 和 Dimakis 采用了一种简单的方法来破解DALL·E-2的词汇库。
比如,假设我们想找到在DALL·E-2的语言系统中,“ vegetables(蔬菜)”这个英语单词对应的词是什么,就可以用下面这些句子来提示DALL·E-2:
然后,DALL·E-2就会生成带有表示“蔬菜”义的文本的图像,比如在上面那张“两个农民在谈论蔬菜”的图片中,DALL·E-2给出了自己的翻译文本:Avcopinitegoos Vicootes, Apoploe vesrreaitais。
下一步,我们就可以输入DALL·E-2自己的词汇,来看它会生成什么图像。比如下图(左)是从单词“vicootes” 生成的图像,下图(右)是从短语 “apoploe vesrreaitais” 生成的图像:
太魔幻了!DALL·E 2 居然能用自创的语言来生成图像,AI模型的可解释性再一次暴露短板
懂了懂了,所以“vicotes”的意思是“蔬菜”,“apoploe vesrreaitais”的意思是”鸟类”~ 只是这些鸟看起来倔强而自由,仿佛正盯着对农民的蔬菜准备搞破坏。
DALL·E-2:所以这张图什么意思,不用我说了吧。
太魔幻了!DALL·E 2 居然能用自创的语言来生成图像,AI模型的可解释性再一次暴露短板
好玩真好玩,我已经迫不及待想要学会DALL·E-2的这门语言了!
再看一个例子。输入文本“Two whales talking about food, with subtitles”(两只鲸鱼在谈论食物,有字幕),DALL·E-2 给出了如下的图片回执(左)~ 上面写着 “Wa ch zod ahaakes rea.”
谁看的懂??可能人类不懂就对了——我猜这两头鲸鱼正在用DALLE-2 的语言谈论它们的食物。紧接着,把这句话作为输入,DALL·E-2生成的图像(右)是......一堆海鲜美食!
太魔幻了!DALL·E 2 居然能用自创的语言来生成图像,AI模型的可解释性再一次暴露短板
这些有趣的发现引起了吃瓜群众的热烈讨论:
太魔幻了!DALL·E 2 居然能用自创的语言来生成图像,AI模型的可解释性再一次暴露短板
这真是不可思议。我们能要求它用我们的语言说话吗?例如 “两只鲸鱼在谈论食物,有英文字幕”。
太魔幻了!DALL·E 2 居然能用自创的语言来生成图像,AI模型的可解释性再一次暴露短板
伟大的工作!这些输出让我想起了我一直在训练的GANs,它们产生了以前没有听说过的新词。有些是英语单词,有些可能是但不是。它们会赋予这些新词有意义的表述。
太魔幻了!DALL·E 2 居然能用自创的语言来生成图像,AI模型的可解释性再一次暴露短板
我要吹毛求疵一下。如果农民谈论的是 “Apoploe vesrreaitais”,而 “Apoploe vesrreaitais的3D效果图 ”,或 “线条艺术,Apoploe vesrreaitais ”可以指昆虫(或如他们所说的更普遍的 “会飞的东西”),那我认为农民更可能是在说昆虫而不是鸟。
太魔幻了!DALL·E 2 居然能用自创的语言来生成图像,AI模型的可解释性再一次暴露短板
我不太相信我们在“farmers with subtitles”的图片中看到的文字和推断的单词含义之间有很强的相关性。我们不知道这个农民的例子是如何“偷梁换柱”的,而且它甚至不起作用:如果这个假设是真的,“Apoploe vesrreaitais ”就对应“蔬菜”,但它对应的却是“鸟”。而且由于某种原因,我们看到的是 “vicootes ”的输出,而不是 “vicootess”。这看起来很似是而非。
太魔幻了!DALL·E 2 居然能用自创的语言来生成图像,AI模型的可解释性再一次暴露短板
令人难以置信的结果!我猜想,由于CLIP从未在纯语言任务上接受过训练,它从未被激励“不”去将胡言乱语与概念联系起来(不像Imagen中使用的常规语言模型)。
太魔幻了!DALL·E 2 居然能用自创的语言来生成图像,AI模型的可解释性再一次暴露短板
-所以它必须从带有文字的图像中获得语言知识,但由于其训练数据中只有这么多这样的图像,它在找到的文字之间做了某种不完整的插值。虽然给我们的是胡言乱语,但胡言乱语仍然是以特定数据为索引的。

-它的语言模型是来自CLIP,所以问题一定是来自那个模型。

-我的理解是,它只在图像上进行训练,对吧?它用文本描述对图像进行编码,但它实际上从未 “看到 ”文本描述,除非图像中恰好有文本。

-任何被索引到文本描述的图像文本(或图像文本的插值)都不会只是随机的胡言乱语,这很有道理。有趣的是它如何对语言概念本身进行索引,以及它将它们混合在一起的能力。就像人类对语言的使用一样。




剥其机理

两位作者对DALL·E-2的词汇库做了进一步的研究。
词汇组合性
从前面的例子中,我们知道 "Apoploe vesrreaitais" 指“鸟类”。通过重复有关农民的提示的实验,我们还可推测 “Contarra ccetnxniams luryca tanniounons”表示“害虫或虫子”。
那么一个有趣的问题就来了,DALL·E-2能否把这两个概念组成一个句子呢?
如下图所示 ,DALL·E-2可以将词和短语组合成句子,根据 "Apoploe vesrreaitais eating Contarra ccetnxniams luryca tanniounons" 生成了鸟类在吃虫子的图像。不过这种情况不是发生在所有的生成图像中,所以一致性并不是十分稳健。
太魔幻了!DALL·E 2 居然能用自创的语言来生成图像,AI模型的可解释性再一次暴露短板
风格迁移
DALL·E-2 能够根据提示中指定的风格,生成一些相关概念的图像。
例如,预设我们想得到一个苹果的逼真图像,或苹果的线条艺术。要先测试单词(如Apoploe vesrreaitais)是否对应于视觉概念,这些概念能否根据提示的上下文转化为不同的风格。
在下图中提示有时会导致飞虫,而不是鸟类。
太魔幻了!DALL·E 2 居然能用自创的语言来生成图像,AI模型的可解释性再一次暴露短板
DALL·E-2 生成的不同风格的 “Apoploe vesrreaitais”,形态虽异,但“会飞的东西 ”这一视觉概念得到了保持。
文本和生成图像的一致性
回顾一下农民和鸟的例子。
当时的提示是:两个农民在谈论蔬菜,有字幕。
结果,既发现有蔬菜、也发现有鸟的存在。两个农民谈论鸟类是非常合理的,这就提出了一个非常有趣的问题:DALL·E-2 的文本输出是否与文本条件和生成的图像一致?
有时我们得到的胡言乱语的文本翻译成视觉概念,与首先产生胡言乱语文本的标题一致。
有点绕口,简单一点,就是种瓜得瓜种豆得豆, 管它是印象派还是写实派,结出的瓜和豆和最初的瓜豆种子(废话文学快住嘴), 能看的出还是有联系的。
太魔幻了!DALL·E 2 居然能用自创的语言来生成图像,AI模型的可解释性再一次暴露短板
例如,"Two whales talking about food, with subtitles"(两只鲸鱼在谈论食物,有字幕)产生了一个带有文字 "Wa ch zod ahaakes rea" 的图像。把这段文字作为提示输入模型,在生成的图像中看到了海鲜。
结合上图“不同风格的鸟”看来,胡言乱语的文本确实有其含义,有时与产生它的文本条件相一致。
太魔幻了!DALL·E 2 居然能用自创的语言来生成图像,AI模型的可解释性再一次暴露短板
在鲸鱼图中,生成图像中不明所以的文字 "Wa ch zod ahaakes rea",与产生的图像、标题和第一幅图像的视觉输出是相关的。




安全性和可解释性的挑战

目前DALL·E-2 的这套语言在从文本生成图像时的稳健性可能不足。
初步研究表明,像“Contarra ccetnxni ams lurycat anni ounons”这样的提示有时会产生包含虫子和害虫的图像(约占生成图像的一半),每次还会产生不同的图像,大部分是动物。而“Apoploe vesrreaitais”这个短语的一致性明显更强,可以以各种方式组合来生成具有一致性的图像。
如果要测试更多提示语的稳健性,则需要大量的实验。论文作者表示,如果一个系统表现出疯狂的不可预测性,即使这种情况很少发生,也仍然是一个重要的问题,特别是对于一些应用程序而言。
Imagen是用语言模型训练的,而不是CLIP,它是否也会有一个类似的隐藏词汇库呢?
无论如何,生成图像的荒谬提示挑战了我们对这些大型生成模型的信心。显然,在理解这些现象和创建稳健的、与人类预期相一致的语言和图像生成模型方面还需要更多的基础研究。
更多细节,可参考论文原文:
太魔幻了!DALL·E 2 居然能用自创的语言来生成图像,AI模型的可解释性再一次暴露短板
太魔幻了!DALL·E 2 居然能用自创的语言来生成图像,AI模型的可解释性再一次暴露短板

原创文章,未经授权禁止转载。详情见 转载须知 。

太魔幻了!DALL·E 2 居然能用自创的语言来生成图像,AI模型的可解释性再一次暴露短板

全局中部横幅
关于爱站工具网

爱站网提供网站收录查询和站长查询以及权重值查询等多个站长工具,免费查询各种工具,包括有关键词排名查询,收录查询等。

康晓发稿屋

康晓发稿屋,为大家分享并梳理各行业的经验、技巧及知识要点,让学习各行业知识、掌握海量资讯变成一件简单的事情。

首页

狂热者(ZeALot)数码科技有限公司,成立于2010年8月,是一家长期致力于数码产品领域,集研发、生产、销售与服务于一体的高新技术企业。企业以市场需求为出发点,求创新、促发展、凭借真诚合作的意识和提高大众生活质量的服务理念,达到客户需求。产品以其超前的技术,一流的品质,精巧时尚的外型,贴心的售后服务风靡数码视听市场。以狂热者(ZeALot)为品牌在广州、深圳、浙江等各大区域核心市场(以代理方式)运营,海外销售遍及欧美、南非、巴西等世界各地。建立了完善的营销体系和服务网络与完整的售后服务体系,更加全面专业的为各地提供优秀资讯产品及服务。

南通食堂承包

南通中膳餐饮(食堂承包热线:18260522777)专业提供南通食堂承包,海门|启东|如东|通州|如皋|海安企业工厂学校食堂承包,蔬菜配送,餐饮承包管理以及副食品批发等业务,我司拥有一支经验丰富的厨房队伍,精湛的烹饪技艺,食材新鲜健康,营养全面,深受众多企业管理者和员工的好评

智校云@EduPlayer

eduplayer专业网校教育培训系统,专为教育机构培训机构实现网络教学、在线教育提供解决方案,帮助教育机构、企业、个人或团队轻松搭建在线教育平台,是搭建网校在线教育平台的首选。

搪玻璃反应釜

山东淄博千盛化工设备有限公司是专业的搪玻璃反应釜,搪玻璃储罐,搪玻璃反应釜生产厂家,生产的搪玻璃反应釜系列化工设备产品质量可靠,欢迎来电咨询:13853359538

深圳市久晟电子有限公司

一家专业生产电容器及贴片铝电解电容热敏电阻,压敏电阻的公司,主要产品有,电解电容,贴片铝电解电容,固体电容,热敏电阻,压敏电阻

深圳天威宽带

深圳天威宽带服务电话4008233020,天威有线宽频资费标准:600M带宽1100元/年,关注微信公众号:m96355com,名称:天威宽带,可获取更多信息。在线申请www.96355.com更快捷,而且享受一次性预付免初装费的优惠活动。

otc金融网

otc金融网为你提供最新期货、黄金、原油、证券、比特币、外汇等市场变化最新消息,事实为你提供消息变化,让你事实无忧。

手机游戏代理

有彩科技专业从事手机游戏软件代理加盟渠道,合作热线:18372019116,可制作安卓、ios、h5以及pc手机游戏盒子,可提供游戏平台代理渠道合作,时下热门手游代理,游戏推广代理加盟。

行之集团

行之集团,国家知识产权局批准创建的正规知识产权服务机构,世界知识产权组织(WIPO)技术与创新支持中心(TISC)四川唯一代理机构,18年专注专利导航分析,科技咨询,商标申请注册,版权登记保护等知识产权服务.

全局底部横幅