AI绘画

绘制江湖儿女,绘制世间万物

DALL-E民间论文代码终于放出,OpenAI是如何实现图象版GPT-3的?

OpenAI 放出 DALL-E 的局部论文与实现代码。今年年初,OpenAI 图象版 GPT-3、120 亿参数的 DALL-E 刷屏社区,这个大型模型可以将以自然语言形式表达的大量概念转换为合适的

OpenAI 放出 DALL-E 的局部论文与实现代码。今年年初,OpenAI 图象版 GPT-3、120 亿参数的 DALL-E 刷屏社区,这个大型模型可以将以自然语言形式表达的大量概念转换为合适的图象,效果十分惊艳。如输入「牛油果形状的椅子」,就可以获得绿油油、形态各异的牛油果椅子图象。

如果 GPT-3 一样,大家都在期待 OpenAI 放出 DALL-E 的民间论文与实现代码。经过近两个月的等待,DALL-E 的论文和代码终于新鲜出炉!

不过此项目正在更新,截止发稿时 DALL-E 只开放了利用图象重建局部 d-VAE 训练的 CNN 编码器和解码器局部,而 Transformer 代码局部还没有暗地。除此以外数据集也不能利用。而论文也是公布了 d-VAE 的论文。

项目地址:https://github.com/openai/DALL-E

论文地址:https://arxiv.org/abs/2102.12092

只能期待后续 OpenAI 暗地更多的技术细节。DALL-E 局部代码已开源

这是为 DALL·E 所利用的 d-VAE 的民间 PyTorch 包。在运行 DALL-E/notebooks/usage.ipynb 程序之前,需要先安装软件包,代码如下:pip install git+https://github.com/openai/DALL-E.git

解码器、编码器代码d-VAE 论文年初在论文还没有暗地的情况下,就有人开始复现,他们复现的依据来自某博主制作的油管视频,在视频中,对 DALL·E 的原理结构进行了猜测。那么,现在论文已暗地,是否颠覆了他的预想。

传统上,文本到图象的生成主要集中在在固定的训练数据集上找到更好的建模假定。这些假定可能涉及复杂的体系架构、帮助损失或帮助信息,例如在训练期间提供的对象部件标签或分割掩码。该研究提出了一种基于 transformer 的简单方法,将文本和图象 token 作为单个数据流进行自回归建模。在足够的数据和扩展的情况下,当以 zero-shot 方式评估时, 该研究提出的方法与以前的领域特定模型具有相当的竞争力。

留下评论

您的电子邮箱地址不会被公开。 必填项已用*标注