Gemini 之后,多模态的下一步怎么走?日期:12 月 20 日事件:谷歌近日于 arxiv 上传了 Gemini 的技术报告。Gemini 的技术报告都说了啥?1、谷歌表示 Gemini 是...

贴文 2个月前
6K 23

Gemini 之后,多模态的下一步怎么走?

日期:12 月 20 日事件:谷歌近日于 arxiv 上传了 Gemini 的技术报告。Gemini 的技术报告都说了啥?1、谷歌表示 Gemini 是一个多模态大模型体系,它在图像、音频、视频和文本理解方面表现出卓越的能力。Gemini 系列包括 Ultra、Pro 和 Nano 三个版本,适用于从复杂推理任务到移动设备的各种应用。① Ultra 版本提供复杂任务中的 SOTA 性能,特别适用于推理和多模态任务。② Pro 版本在成本和延迟方面进行了性能优化,显示出强大的推理和多模态能力。③ Nano 版本有两个尺寸,参数分别为 1.8B (Nano-1) 和 3.25B (Nano-2),分别针对低内存和高内存设备,采用 4 位量化进行部署,并提供一流的性能。2、模型性能方面,谷歌特别指出,Gemini 是第一个在经过充分研究的考试基准 MMLU 上实现人类专家表现的模型。此外,Gemini Ultra 在 32 个基准测试中的 30 个中刷新了业界最佳(SOTA)水平。3、多模态能力方面,Gemini 可以处理多种形式的输入,如文本、音频、图片和视频。它可以处理可变的输入分辨率,并从通用语音模型中直接摄取 16kHz 的音频信号。① 对于多模态推理,类似此前公开过的用例,Gemini 能够理解凌乱的笔迹,将问题和解决方案转换为数学排版,并识别学生在解决问题时的具体推理步骤。4、Gemini 模型采用 TPUv5e 和 TPUv4 训练,其中 Ultra 版本使用了跨多个数据中心的大量 TPUv4 加速器。5、Gemini 的训练数据采用了多模态和多语言数据集,预训练数据集使用来自网络文档、书籍和代码的数据,包括图像、音频和视频数据。① 谷歌使用了 SentencePiece tokenizer,并发现在整个训练语料库的大样本上训练 tokenizer 可以提高推断词汇量,从而提高模型性能。② 谷歌还使用启发式规则和基于模型的 tokenizer 对所有数据集应用质量过滤器,并执行安全过滤以删除有害内容。6、值得注意的是,Gemini 技术报告的作者共有 941 人,包括 Jeff Dean、Oriol Vinyals、Koray Kavukcuoglu、Demis Hassabis 等一众谷歌研究大佬,另外还有谢尔盖・布林这样的公司联合创始人。同是是多模态大模型,Gemini 和 LMM、MLLM 有什么不同?

网页链接

23 条评论