走在GPT 4.5前面?3D、视频直接扔进对话框,大模型掌握跨模态推理给你一首曲子的音频和一件乐器的 3D 模型,然后问你这件乐器能否演奏出这首曲子。你可以通过听...

贴文 2个月前
1K 0

走在GPT 4.5前面?3D、视频直接扔进对话框,大模型掌握跨模态推理

给你一首曲子的音频和一件乐器的 3D 模型,然后问你这件乐器能否演奏出这首曲子。你可以通过听觉来辨认这首曲子的音色,看它是钢琴曲还是小提琴曲又或是来自吉他;同时用视觉识别那是件什么乐器。然后你就能得到问题的答案。但语言模 ...

暂无评论

暂无评论...