新多模态大模型霸榜!支持图文混合输入,不懂知识还能现学多模态大模型家族,又有新成员了!不仅能将多张图像与文本结合分析,还能处理视频中的时空关系。这款免...

贴文 3个月前
1.7K 0

新多模态大模型霸榜!支持图文混合输入,不懂知识还能现学

多模态大模型家族,又有新成员了!

不仅能将多张图像与文本结合分析,还能处理视频中的时空关系。

这款免费开源的模型,在MMbench和MME榜单同时登顶,目前浮动排名也保持在前三位。

△MMBench榜单,MMBench是上海AI lab和南洋理工大学联合推出的基于ChatGPT的全方位多模能力评测体系△MME榜单,MME为腾讯优图实验室联合厦门大学开展的多模态大语言模型测评

这款多模态大模型名叫MMICL,由北京交通大学、北京大学、UCLA、足智多模公司等机构联合推出。

MMICL一共有两个基于不同LLM的版本,分别基于Vicuna和FlanT5XL两种核心模型。

这两个版本都已经开源,其中,FlanT5XL版可以商用,Vicuna版本只能用于科研用途。

在MME的多项任务测试中,FlanT5XL版MMICL的成绩已连续数周保持着领先地位。

其中认知方面取得了428.93的总成绩(满分800),位列第一,大幅超过了其他模型。

感知方面的总分1381.78(满分2000),在最新版榜单中仅次于阿里的千问-7B和昆仑万维的天工模型网页链接

暂无评论

暂无评论...