挑战GPT-4V,浙大校友推出开源版多模态大模型,获GitHub 6k+星标GPT-4的视觉能力还没全量放开测试,开源对手就隆重登场了。浙大竺院的一位校友,与微软研究院等...
挑战GPT-4V,浙大校友推出开源版多模态大模型,获GitHub 6k+星标
GPT-4的视觉能力还没全量放开测试,开源对手就隆重登场了。
浙大竺院的一位校友,与微软研究院等机构合作推出了新版多模态模型LLaVA。
LLaVA在11个测试数据集上都成为了SOTA,在GitHub上更是斩获6k+星标。
开发者提供的数据显示,LLaVA的综合能力已经达到了GPT-4V水平的85%,在复杂推理任务上更是超过了96%。
读验证码、判断狗的品种,甚至根据图像生成网页代码……都难不倒LLaVA。
资源方面,LLaVA的样本量仅为120万,在单台8*A100的机器上,1天就能完成训练。
不过体验过的网友普遍表示,LLaVA离GPT-4V还存在一些差距。
那么LLaVA究竟表现如何,我们也实测了一番。
和GPT-4V有差距,但也能用
为了更加直观地对比LLaVA和GPT-4V的表现,我们直接使用了微软发布的GPT-4V说明书中的案例。
首先来看最基本的人物识别网页链接
版权声明: 发表于 2023-10-12 8:35:28。
转载请注明:挑战GPT-4V,浙大校友推出开源版多模态大模型,获GitHub 6k+星标GPT-4的视觉能力还没全量放开测试,开源对手就隆重登场了。浙大竺院的一位校友,与微软研究院等... | AI 時.空 | AiTime.Space
转载请注明:挑战GPT-4V,浙大校友推出开源版多模态大模型,获GitHub 6k+星标GPT-4的视觉能力还没全量放开测试,开源对手就隆重登场了。浙大竺院的一位校友,与微软研究院等... | AI 時.空 | AiTime.Space
暂无评论...