西安知名网站推广,wordpress 安卓主题,wordpress微信注册登录,互联网保险对传统保险有哪些影响DALLE 3技术分析 - 训练方式/模型结构 1. 引言: 从 DALLE 3 开发者技术轨迹中#xff0c;以及模型的演示视频#xff0c;我们可以推导 DALLE 3 模型的某些架构信息。 2. DALLE 2 的评价: DALLE 2 的性能不佳#xff0c;主要归因于 CLIP 模型的限制。 CLIP 在为后续的 diffus… DALLE 3技术分析 - 训练方式/模型结构 1. 引言: 从 DALLE 3 开发者技术轨迹中以及模型的演示视频我们可以推导 DALLE 3 模型的某些架构信息。 2. DALLE 2 的评价: DALLE 2 的性能不佳主要归因于 CLIP 模型的限制。 CLIP 在为后续的 diffusion model 提供充足内容和详细特征上遇到了困难。 在生成详细图像方面该模型遇到了显著的挑战。 3. GPT 模型的作用: 之前的实验使用 GPT 2 作为音频/视觉媒体的核心处理系统任务是解释人类的文本输入并将其转化为 diffusion model 的视觉表示。 该基于 GPT 2 模型的性能超越了其众多同时代的模型使得这种策略看起来是可行的。 对于 DALLE 3作为自回归核心的 GPT 模型的确切版本是 GPT 3 还是 GPT 4尚未确定。但为了此次分析我们假设使用了 GPT 4。 4. GPT 4 的图像解读: 几个月前GPT 4 的图像解读能力已经显著提高但 OpenAI 并未公之于众。 从商业角度来看OpenAI 可能没有足够的计算资源进行图像解释。这引起了一个问题计算能力被引导到哪里 随着 DALLE 3 的发布我们猜测 GPT 4 的图像能力被用于生成适合 DALLE 3 的训练数据。 GPT 4 的图像模型的架构可能采用与 BLIP2/mini GPT 4 相似的方法。这可能包括一个额外的视觉编码器(VIT)和几个转换层例如 Qformer来将图像转换为模型可以理解的格式。 预计 OpenAI 的 visual encoder/decoder 是自行训练的可能导致更好的结果。 5. GPT 4 图像发布延迟的可能原因: GPT 4 图像版本发布之久的可能原因服务器被用于生产 image-text pair 数据集。 有了充足的数据自然就为 DALLE 3 的创造铺平了道路。 6. DALLE 3 的假设结构和训练: OpenAI 首先训练了一个高效的 visual encoder/decoder。 之后他们可能采用与 miniGPT 4 类似的方法来训练 GPT 4 进行图像处理。 拥有了图像能力的 GPT 4 之后可以生成一个全面的 image-text pair 数据集。这也可能是图像(image tokens)到文本(text tokens)的格式。 text tokens 到 image tokens 的配对可能被用于培养 DALLE 的主要部分我们暂时称之为“GPT 4 image creator”。 接下来的步骤可能涉及将 image tokens 转换回图像。目前diffusion model 在此任务上表现出色甚至超过了原生 decoder。 我们猜测使用了一个 diffusion decoder 进行图像生成。 7. 最后的话: 此分析避免深入到模型的复杂细节例如模型之间是否有潜在的 residual 结构或 text tokens 是否与 image tokens 同时输入到 diffusion model 中。确定这些细节需要实际的实验操作。另外由于已经写的太长了其中部分基于视频内容的推理暂时没有解释。 参考文献 AI绘画软件DALL-E3上线功能强大且免费使用