清华团队攻破GPT-4V、谷歌Bard等模型,商用多模态大模型也脆弱?GPT-4 近日开放了视觉模态(GPT-4V)。以 GPT-4V、谷歌 Bard 为代表的多模态大语言模型 (Multimo...
清华团队攻破GPT-4V、谷歌Bard等模型,商用多模态大模型也脆弱?
GPT-4 近日开放了视觉模态(GPT-4V)。以 GPT-4V、谷歌 Bard 为代表的多模态大语言模型 (Multimodal Large Language Models, MLLMs) 将文本和视觉等模态相结合,在图像描述、视觉推理等各种多模态任务中展现出了优异的性能。然而,视觉模型长久以来存在对抗鲁棒性差的问题,而引入视觉模态的 MLLMs 在实际应用中仍然存在这一安全风险。最近一些针对开源 MLLMs 的研究已经证明了该漏洞的存在,但更具挑战性的非开源商用 MLLMs 的对抗鲁棒性还少有人探索。
为了更好地理解商用 MLLMs 的漏洞,清华朱军教授领衔的人工智能基础理论创新团队围绕商用 MLLM 的对抗鲁棒性展开了研究。尽管 GPT-4V、谷歌 Bard 等模型开放了多模态接口,但其内部模型结构和训练数据集仍然未知,且配备了复杂的防御机制。尽管如此,研究发现,通过攻击白盒图像编码器或 MLLMs,生成的对抗样本可以诱导黑盒的商用 MLLMs 输出错误的图像描述,针对 GPT-4V 的攻击成功率达到 45%,Bard 的攻击成功率达到 22%,Bing Chat 的攻击成功率达到 26%。同时,团队还发现,通过对抗攻击可以成功绕过 Bard 等模型对于人脸检测和图像毒性检测等防御机制,导致模型出现安全风险。
论文链接:arxiv.org/abs/2309.11751
代码链接:github.com/thu-ml/ares/tree/attack_bard
阅读全文 网页链接
版权声明: 发表于 2023-10-18 8:43:02。
转载请注明:清华团队攻破GPT-4V、谷歌Bard等模型,商用多模态大模型也脆弱?GPT-4 近日开放了视觉模态(GPT-4V)。以 GPT-4V、谷歌 Bard 为代表的多模态大语言模型 (Multimo... | AI 時.空 | AiTime.Space
转载请注明:清华团队攻破GPT-4V、谷歌Bard等模型,商用多模态大模型也脆弱?GPT-4 近日开放了视觉模态(GPT-4V)。以 GPT-4V、谷歌 Bard 为代表的多模态大语言模型 (Multimo... | AI 時.空 | AiTime.Space
暂无评论...