谷歌视觉语言模型PaLI-3问世,参数仅5B,更小、更快、更强大模型时代,视觉语言模型(VLM)的参数已经扩展到了数百甚至数千亿,使得性能持续增加。与此同时,更...
谷歌视觉语言模型PaLI-3问世,参数仅5B,更小、更快、更强
大模型时代,视觉语言模型(VLM)的参数已经扩展到了数百甚至数千亿,使得性能持续增加。与此同时,更小规模的模型仍然很重要,它们更易于训练和服务,更加环境友好,并为模型设计提供更快的研究周期。
在该领域,谷歌研究院在去年推出了一个名为PaLI(Pathways Language and Image)的模型。作为一个多模态大模型,PaLI 的关键结构之一是复用大型单模态基干进行语言和视觉建模,在语言方面复用 13B 参数的 mT5-XXL,在视觉方面复用 2B 参数的 ViT-G 和 4B 参数的 ViT-e。当时 PaLI 实现了优于多数新旧模型的性能。
此后谷歌继续专注于更小规模的建模,并于近日提出 PaLI-3,这是 PaLI 系列的第三代模型。通过一个仅有 5B 参数的预训练基线模型,他们优化了训练方法,并在多个 VLM 基准上实现了有竞争力以及新的 SOTA 结果。
该方法主要由三部分组成,分别是在 web 规模的图像文本数据上对图像编码器的对比预训练、用于 PaLI 多模态训练的改进后的混合数据集,以及更高分辨率的训练。
作者来自谷歌研究院、谷歌DeepMind和谷歌云。
论文地址:arxiv.org/pdf/2310.09199.pdf
版权声明: 发表于 2023-10-17 21:19:45。
转载请注明:谷歌视觉语言模型PaLI-3问世,参数仅5B,更小、更快、更强大模型时代,视觉语言模型(VLM)的参数已经扩展到了数百甚至数千亿,使得性能持续增加。与此同时,更... | AI 時.空 | AiTime.Space
转载请注明:谷歌视觉语言模型PaLI-3问世,参数仅5B,更小、更快、更强大模型时代,视觉语言模型(VLM)的参数已经扩展到了数百甚至数千亿,使得性能持续增加。与此同时,更... | AI 時.空 | AiTime.Space
暂无评论...