DALL E上映两天后重新出现?官方文件没有出来 大神们正在制作自己的代码和视频
肖骁来自奥菲寺
量子报告| QbitAI,微信官方账号
没想到,OpenAI一宣布DALL E,就已经有人在重新出现了。
虽然还是半成品,但总体框架已经搭建好,第三方作者菲利普王正在建设中。
DALL E是前两天刚发布的一个文本到图像的网络框架。目前只发表了项目成果,连官方论文都没有发表。
在纸出来之前,它开始重新出现
这篇论文的复制是基于一个名叫Yannic Kilcher的博客作者制作的输油管道视频。
在视频中,他猜到了Dall e的原理和结构。
他说这些猜想并不代表真实情况,也许DALL E的论文会颠覆他的预期。
Yannic认为DALL E应该是VQ-VAE模式和类似GPT-3的语言模式的结合。
GPT-3是一种语言模型,具有非常强大的语言建模能力,能够很好地拆分和理解输入的文本描述。
另一方面,VAE模型是一个强大的图像生成转换器。训练完成后,编码器将从模型中移除,只剩下解码器用于生成图像。
如果把两者结合起来,就可以根据理解的文字把各种输入对象组合成一个有实际意义的图片,就像下图中的小方块一样。
例如,通过输入人、太阳和树,模型可以输出“一个人坐在太阳下的树的底部”所描绘的图像。
如何实现?
首先,简要分析了VQ-VAE模型原理。
类似于VAE,它也是一个变压器结构模型。编码器对图像进行编码后,将编码数据发送到隐藏空间,然后解码器从隐藏空间重构图像。
与VAE相比,VQ-VAE隐变量的每一维都是一个离散整数,也就是说,它的隐空间实际上是一个码本,其中包含了提取的各种矢量信息。
在DALL E中,这本代码本本质上相当于一个词汇。
这个词汇是专门用来存储图像的各种描述的。
当对输入图像进行编码时,图像基本上被划分成各种像素块。
在此期间,将生成各种图像信息。
one-p">假设天蓝色的格子,包含“天空”的描述信息,那么在重建时,解码器读取到“天空”信息,就会分配顶端的一系列像素,用来生成天空。
在完成VQ-VAE的训练后,模型就得到了一个只有解码器看得懂的编码簿。
届时,将由类似于GPT-3的语言模型,对输入的文字进行解码,转换成只有编码簿才能看懂的向量信息。
然后,编码簿会将这些信息进行排序,依次列出每个像素块应该生成的数据,并告诉解码器。
解码器会合成这些像素数据,得到最终的图像。
为了实现这样的目标,既要对类似于GPT-3的语言模型进行训练,也要提前对VQ-VAE模型进行预训练。
而且,还需要对二者融合后的模型进行训练。
这位作者复现的DALL·E,也是依据这个视频解析的原理复现的。
有关项目本身
目前,DALL·E的复现项目还没有完成,作者仍然在加工中(WIP),不过已经有700多个Star。
作者希望写出一个PyTorch版本的DALL·E,现在的框架中,已经包含了VAE的训练、CLIP的训练,以及VAE和CLIP融合后的模型预训练。
此外,还包括DALL·E的训练、和将预训练VAE模型融合进DALL·E模型中的部分。
上述模块训练完成后,就能用DALL·E来做文字生成图像了。
目前,作者正在进行DALL·E模块部分的代码复现。
作者承诺,完成DALL·E的部分后,会把CLIP模型也一起补上。
作者介绍
Philip Wang,本硕毕业于康奈尔大学,博士毕业于密歇根大学医学院。
他的研究兴趣是AI(深度学习方向),以及医疗健康,目前GitHub上已有1.7k个followers。
关于DALL·E本身,视频解析博主Yannic也表示,之所以能取得这么好的效果,并不全是因为模型设计。
DALL·E,极可能也像GPT-3一样,用了样本量庞大的数据集,来对模型进行训练。
网友表示,难以想象训练这个玩意所用的GPU数量,气候又要变暖了。
所以要想完全复现这个项目,最难的其实是硬件部分?(手动狗头)
