DALL·E 3 有哪些新功能?

2023 年 11 月 6 日
在 Github 中打开

DALL·E-3 是我们 DALL-E 文本到图像生成模型的最新版本。作为目前最先进的文本到图像生成技术,DALL·E 能够跨各种领域生成高质量的图像。如果您对 DALL·E-3 的构建技术的更多细节感兴趣,您可以阅读我们的研究论文。在本文中,我将介绍 DALL·E-3 的一些新功能和特性,以及您可以使用 API 构建哪些新产品的一些示例。

提醒一下,图像生成 API 没有更改,并且与 DALL·E-2 保持相同的端点和格式。如果您正在寻找关于如何使用图像 API 的指南,请参阅关于该主题的Cookbook 文章

目前唯一可用于 DALL·E-3 的 API 端点是 Generations(生成) (/v1/images/generations)。我们尚不支持变体或图像修复,尽管 Edits(编辑)和 Variations(变体)端点可用于 DALL·E-2。

Generations(生成)

生成 API 端点根据文本提示创建图像。我们添加了几个新参数,以增强您可以使用我们的模型创建的内容。以下是选项的快速概览

新参数

  • model(模型)(‘dall-e-2’ 或 ‘dall-e-3’):这是您要使用的生成模型。请务必将其设置为 ‘dall-e-3’,因为如果为空,则默认为 ‘dall-e-2’。
  • style(风格)(‘natural’ 或 ‘vivid’):生成的图像的风格。必须是 vivid(生动)或 natural(自然)之一。Vivid(生动)使模型倾向于生成超现实和戏剧性的图像。Natural(自然)使模型生成更自然、不那么超现实的图像。默认为 ‘vivid’(生动)。
  • quality(质量)(‘standard’ 或 ‘hd’):将生成的图像的质量。“hd”(高清)创建具有更精细细节和图像之间更高一致性的图像。默认为 ‘standard’(标准)。

其他参数

  • prompt(提示) (str):所需图像的文本描述。最大长度为 1000 个字符。必填字段。
  • n (int):要生成的图像数量。必须介于 1 和 10 之间。默认为 1。对于 dall-e-3,仅支持 n=1。
  • size(尺寸) (...):生成的图像的尺寸。对于 DALL·E-2 模型,必须是 256x256、512x512 或 1024x1024 之一。对于 DALL·E-3 模型,必须是 1024x1024、1792x1024 或 1024x1792 之一。
  • response_format(响应格式) ('url' 或 'b64_json'):返回生成的图像的格式。必须是 "url" 或 "b64_json" 之一。默认为 "url"。
  • user(用户) (str):代表您的最终用户的唯一标识符,这将帮助 OpenAI 监控和检测滥用行为。了解更多。

新功能

DALL·E-3 的发布带来了许多新功能和特性,以帮助您生成所需的图像。以下是新功能的快速概览

提示重写

最新 DALL·E-3 API 的一项新功能是提示重写,我们使用 GPT-4 在将您的所有提示传递给 DALL-E 之前对其进行优化。在我们的研究中,我们发现使用非常详细的提示可以产生明显更好的结果。您可以在DALL·E-3 研究论文中阅读更多关于我们的图像描述、提示和安全缓解措施的信息。

请记住,目前无法禁用此功能,但是您可以通过简单地在提示中向重标记器发出指令来获得高保真度,我将在下面的示例中展示。

Prompt Rewriting

标准质量 vs 高清质量

DALL·E-3 引入了一个新的 'quality'(质量)参数,允许您调整所有生成的图像的细节和组织程度。“standard”(标准)质量的生成图像是您熟悉的 DALL·E-3,“hd”(高清)生成图像则带来了新的细节关注度和对提示的遵循。请记住,将生成质量设置为 ‘hd’(高清)会增加每张图像的成本,并且通常会使生成时间增加约 10 秒左右。

例如,这里我们有两个不同质量(“hd”(高清)和 “standard”(标准))的图标。通常,两种质量之间的选择取决于个人喜好,但当任务需要更强的捕捉细节和纹理的能力或更好的场景构图时,“hd”(高清)通常更胜一筹。

Icons

这是另一个示例,提示为 “An infinite, uniform grid of tessellated cubes.”(“无限的、均匀的镶嵌立方体网格。”),DALL·E 很方便地将其重写为“An infinite, uniform grid of tessellated cubes painted carefully in an isometric perspective. The cubes are meticulously arranged in such a way that they seem to stretch endlessly into the distance. Each cube is identical to the next, with light reflecting consistently across all surfaces, underscoring their uniformity. This is a digitally rendered image.”(“以等距透视精心绘制的无限的、均匀的镶嵌立方体网格。立方体被精细地排列,使其看起来无限延伸到远处。每个立方体都与下一个立方体相同,光线在所有表面上一致地反射,突出了它们的均匀性。这是一张数字渲染图像。”)

Cubes

新尺寸

DALL·E-3 接受三种不同的图像尺寸:1024px x 1024px、1792px x 1024px 和 1024px x 1792px。除了在宽高比方面提供更大的灵活性之外,这些尺寸还会对生成的图像的风格和上下文产生重大影响。例如,当您寻找看起来像用手机相机拍摄的图像时,垂直图像可能效果更好,或者水平图像可能更适合风景画或数字设计。

为了演示这种差异,这里是同一输入提示的不同宽高比的多个变体。在本例中,我的提示是:“Professional photoshoot of a Chemex brewer in the process of brewing coffee.”(“化学滤杯冲泡咖啡过程的专业照片拍摄。”)(作为参考,这是一张真实的化学滤杯的照片)。

这是方形形式的生成图像(高清和标准质量):

square_coffee

您可以看到这些图像是如何靠近物体进行取景的,并且看起来是在更封闭的空间中拍摄的,附近有各种周围的物品。

以下是相同提示在更宽宽高比下的结果:

wide_coffee

与之前的生成图像相比,这些图像以特写形式出现。背景模糊,更加关注物体本身,更像专业组织的摄影作品,而不是快速抓拍。

最后,我们有垂直宽高比:

tall_coffee

这些感觉更像是手机图像,外观更自然。涉及更多动作:缓慢滴落的咖啡或从壶中主动倾倒的动作。

新风格

DALL·E-3 引入了两种新风格:natural(自然)和 vivid(生动)。natural(自然)风格更类似于 DALL·E-2 风格的“平淡”现实主义,而 vivid(生动)风格是一种新风格,倾向于生成超现实和电影般的图像。作为参考,ChatGPT 中的所有 DALL·E 生成图像均以 “vivid”(生动)风格生成。

在 DALL·E-3 过度夸大或混淆本应更简单、更柔和或更真实的物体的情况下,natural(自然)风格特别有用。我经常将其用于徽标生成、库存照片或其他我试图匹配真实世界物体的案例。

这是上面相同提示的 “vivid”(生动)风格示例。 “vivid”(生动)风格更具电影感(并且看起来很棒),但如果您不追求这种效果,可能会显得过于突出。

vivid_coffee

在许多情况下,我更喜欢 “natural”(自然)风格,例如托马斯·科尔的《荒凉》风格的绘画示例:

thomas_cole

示例和提示

为了帮助您开始使用 DALL·E-3 构建,我想出了一些您可以使用 API 构建的产品示例,并收集了一些目前看来 DALL·E-3 独有的风格和功能。我还列出了一些我正在努力提示 DALL·E-3 生成的主题,如果您想尝试一下。

图标生成

您是否曾经难以找到适合您的网站或应用程序的完美图标?如果有一个自定义图标生成器应用程序,让您可以选择图标的风格、尺寸和主题,然后从 DALL·E 生成的图像中生成自定义 SVG,那就太棒了。以下是我使用 DALL·E-3 生成的一些有用的网站图标示例:

icon_set

在本例中,我使用 Potrace 将图像转换为 SVG,您可以从此处下载。这就是我用来转换图像的工具:

potrace -s cat.jpg -o cat.svg

您可能需要在将图像转换为 SVG 之前提高图像的亮度和对比度。我使用了以下命令来执行此操作:

convert cat.jpg -brightness-contrast 50x50 cat.jpg

徽标生成

DALL·E-3 非常适合快速启动您的公司或产品的徽标创建过程。通过提示 DALL·E 创建 “Vector logo design of a Greek statue, minimalistic, with a white background”(“希腊雕像的矢量徽标设计,简约,白色背景”),我实现了以下效果:

logo_greece

这是我创建的另一个徽标,这次是为一家阿拉伯咖啡店创建的:

logo_arabia

在迭代现有徽标的情况下,我获取了 OpenAI 的徽标,要求 GPT-4V 描述它,然后要求 DALL·E 生成徽标的变体:

iteration

自定义纹身

DALL·E-3 非常擅长生成线条艺术,这可能对生成自定义纹身很有用。以下是我使用 DALL·E-3 生成的一些线条艺术:

tattoos

模切贴纸和 T 恤

如果您可以使用 DALL·E-3 生成自定义模切贴纸和 T 恤,并与 Printful 或 Stickermule 等按需打印服务集成,会怎么样?您可以在几分钟内拥有自定义贴纸或 T 恤,而无需任何设计经验。以下是我使用 DALL·E-3 生成的一些贴纸示例:

stickers

Minecraft 皮肤

经过一些努力,我设法提示 DALL·E-3 生成 Minecraft 皮肤。我相信通过一些巧妙的提示,您可以让 DALL·E-3 可靠地生成令人难以置信的 Minecraft 皮肤。可能很难使用 “Minecraft” 这个词,因为 DALL·E 可能会认为您试图生成游戏本身的内容,相反,您可以以不同的方式传达这个想法:“Flat player skin texture of a ninja skin, compatible with Minecraftskins.com or Planet Minecraft.”(“忍者皮肤的平面玩家皮肤纹理,与 Minecraftskins.com 或 Planet Minecraft 兼容。”)

这是我设法创造的。它们可能需要一些改进,但我认为它们是一个好的开始:

minecraft

以及更多...

以下是一些我想到但还没有时间尝试的想法:

  • 自定义表情符号或 Twitch 表情?
  • 矢量插图?
  • 个性化的 Bitmoji 风格头像?
  • 专辑封面?
  • 自定义贺卡?
  • 与 DALL·E 进行海报/传单“结对编程”?

展示

我们才刚刚开始弄清楚 DALL·E-3 的能力。以下是我目前见过的最佳风格、生成图像和提示。我一直无法找到其中一些图像的原始作者,所以如果您知道是谁创作的,请告诉我!

collage

来源

Reddit 上的 @scharan79
Reddit 上的 @TalentedJuli
Reddit 上的 @Wild-Culture-5068
Reddit 上的 @popsicle_pope
Twitter 上的 @gopatrik
Twitter 上的 @ARTiV3RSE
Twitter 上的 @willdepue
多位 OpenAI 员工

挑战

DALL·E-3 仍然非常新,仍然有很多它难以处理的事情(或者可能只是我还没有弄清楚如何正确地提示它)。以下是一些您可能想尝试的挑战:

网页设计

DALL·E 在生成真实的网站、应用程序等方面确实很吃力,并且经常生成看起来像网页设计师的作品集页面的东西。以下是我目前得到的最好的结果:

websites

无缝纹理

感觉 DALL·E-3 非常接近能够生成无缝纹理了。通常它们效果很好,只是稍微被截断或有一些瑕疵。请参阅以下示例:

seamless

字体

使用 DALL·E 生成自定义字体或迭代字母设计可能非常酷,但我还没有能够让它工作。以下是我目前得到的最好的结果:

fonts

更多资源

感谢您的阅读!如果您正在寻找关于 DALL·E-3 的更多资源,这里有一些相关链接: