遥遥领先 - 转发 @阑夕: 千呼万唤始出来,ChatGPT发布了王炸级别的更新:多模态功能。简单来说,出了文本交互之外,ChatGPT现在可以理解语音和图像了,语音...

贴文 2个月前
2.2K 0

遥遥领先
- 转发 @阑夕: 千呼万唤始出来,ChatGPT发布了王炸级别的更新:多模态功能。

简单来说,出了文本交互之外,ChatGPT现在可以理解语音和图像了,语音还好说,因为本质上还是TTS的技术,让文本和语音之间互相转化。

但读取图像这个能力就有点逆天了,它不是那种以图搜图的传统模式,而是用OCR技术去真的识别用户发过去的图片,哪怕这个图片是用户现拍的、没有在网上出现过,ChatGPT也能做出理解并调用大模型进行回应。

这个视频是一个实录,拍了自行车的照片问ChatGPT怎么调整座椅高度,你们可以感受一下什么叫恐怖如斯。

对了,根据OpenAI的说法,这个多模态版本在10个月前就训练好了,之前一直藏着,即便如此,现在出牌依然是几个代差的领先地位。 阑夕的微博视频

视频无法显示,请前往微博视频观看。

暂无评论

暂无评论...