文生图prompt不再又臭又长!LLM增强扩散模型,简单句就能生成高质量图像参数高效的微调方法SUR-adapter,可以增强text-to-image扩散模型理解关键词的能力。扩散...
文生图prompt不再又臭又长!LLM增强扩散模型,简单句就能生成高质量图像
参数高效的微调方法SUR-adapter,可以增强text-to-image扩散模型理解关键词的能力。
扩散模型已经成为了主流的文本到图像生成模型,可以基于文本提示的引导,生成高质量且内容丰富的图像。
但如果输入的提示过于简洁,现有的模型在语义理解和常识推理方面都存在局限,导致生成的图像质量下降明显。
为了提高模型理解叙述性提示的能力,中山大学HCP实验室林倞团队提出了一种简单而有效的参数高效的微调方法SUR-adapter,即语义理解和推理适配器,可应用于预训练的扩散模型。
论文地址:arxiv.org/abs/2305.05189
开源地址:github.com/Qrange-group/SUR-adapter
为了实现该目标,研究人员首先收集并标注了一个数据集SURD,包含超过5.7万个语义校正的多模态样本,每个样本都包含一个简单的叙述性提示、一个复杂的基于关键字的提示和一个高质量的图像。
然后,研究人员将叙事提示的语义表示与复杂提示对齐,并通过知识蒸馏将大型语言模型(LLM)的知识迁移到SUR适配器,以便能够获得强大的语义理解和推理能力来构建高质量的文本语义表征用于文本到图像生成。
通过集成多个LLM和预训练扩散模型来进行实验,结果展现了该方法可以有效地使扩散模型理解和推理简洁的自然语言描述,并且不会降低图像质量。
该方法可以使文本到图像的扩散模型更容易使用,具有更好的用户体验,可以进一步推进用户友好的文本到图像生成模型的发展,弥补简单的叙事提示和复杂的基于关键字的提示之间的语义差距。网页链接
版权声明: 发表于 2023-08-29 9:13:58。
转载请注明:文生图prompt不再又臭又长!LLM增强扩散模型,简单句就能生成高质量图像参数高效的微调方法SUR-adapter,可以增强text-to-image扩散模型理解关键词的能力。扩散... | AI 時.空 | AiTime.Space
转载请注明:文生图prompt不再又臭又长!LLM增强扩散模型,简单句就能生成高质量图像参数高效的微调方法SUR-adapter,可以增强text-to-image扩散模型理解关键词的能力。扩散... | AI 時.空 | AiTime.Space
暂无评论...