DALL·E 3关键技术公开!19页论文揭秘如何对提示词“唯命是从”出场即炸场的DALL·E 3,又有新动向了!这次直接宣布对ChatGPT Plus和企业版用户开放,还连带公开...

贴文 1个月前
1.6K 0

DALL·E 3关键技术公开!19页论文揭秘如何对提示词“唯命是从”

出场即炸场的DALL·E 3,又有新动向了!

这次直接宣布对ChatGPT Plus和企业版用户开放,还连带公开了更多“官方推荐案例”。

不仅如此,OpenAI还一纸论文透露了DALL·E 3的关键技术细节。

相比其他AI,DALL·E 3表现最优秀的地方,应该就要属对提示词的完美遵循了。

无论是整体的环境描写,还是精确到物体数量、着装、颜色这种细节叙述,DALL·E 3都能很好地理解,并生成对应的画作,丝毫不漏重点。

论文一公开,可以说是解决了“如何让DALL·E 3遵循指令”这一让诸多人困惑的问题,有网友感叹:

OpenAI终于又Open了?

一起来看看这篇DALL·E 3论文的关键细节,以及它的更多用例。

用数据集让DALL·E 3“唯命是从”
先来看看DALL·E 3论文最大的亮点:提示词遵循(prompt following)。

此前,不少绘画AI会刻意忽略提示词中的某些关键词、或是混淆提示词的含义(多义词如column,列还是柱子),简单来说就是文本提示词和画面细节没对齐。

OpenAI的研究人员在经过一番分析后认为,这是数据集的锅。

现有的图像文本对数据集,文字对图像的描述可以说是“惜字如金”。

尤其是从互联网上扒下来的数据集,大多数对图像的描述只有一句话,更别提细节了。包括环境、物体在内,容易忽略的文本描述主要有4类:

场景中物体描述,如厨房里的水槽、人行道上的停车标志等;
物体位置和数量描述
物体颜色和大小描述
图像中的文本描述(如呈现在商店招牌上的字母/汉字)

除此之外,还有不少互联网上扒下来图像的文本描述,直接就是错误或不相关的,例如梗图或Alt文本 网页链接

暂无评论

暂无评论...