谷歌10秒视频生成模型破世界记录!LLM终结扩散模型,效果碾压顶流Gen-2AI视频生成,或许就是2024年下一个最前沿(juan)的领域。回看过去几个月,RunWay的Gen-2...

贴文 2个月前
1K 0

谷歌10秒视频生成模型破世界记录!LLM终结扩散模型,效果碾压顶流Gen-2

AI视频生成,或许就是2024年下一个最前沿(juan)的领域。

回看过去几个月,RunWay的Gen-2、Pika Lab的Pika 1.0,国内大厂等大波视频生成模型纷纷涌现,不断迭代升级。

这不,RunWay一大早就宣布Gen-2支持文本转语音的功能了,可以为视频创建画外音。

当然,谷歌在视频生成上也不甘落后,先是与斯坦福李飞飞团队共同发布了W.A.L.T,用Transformer生成的逼真视频引来大波关注。

今天,谷歌团队又发布了一个全新的视频生成模型VideoPoet,而且无需特定数据便可生成视频。

论文地址:blog.research.google/2023/12/videopoet-large-language-model-for-zero.html

最令人惊叹的是,VideoPoet一次能够生成10秒超长,且连贯大动作视频,完全碾压Gen-2仅有小幅动作的视频生成。

另外,与领先模型不同的是,VideoPoet并非基于扩散模型,而是多模态大模型,便可拥有T2V、V2A等能力,或将成为未来视频生成的主流。

网友看后纷纷「震惊」刷屏。

不如,接下来可以先看一波体验。

文字转视频
在文本到视频的转换中,生成的视频长度是可变的,并且能够根据文本内容展现出多种动作和风格。 网页链接

暂无评论

暂无评论...