120秒超长AI视频模型发布

UT奥斯丁等机构提出了一种名为StreamingT2V的技术,让AI视频的长度扩展至近乎无限,而且一致性,动作幅度也非常好!

从Pika和Runway的4秒,到VideoPoet的理论无限长,各个团队都在通过各种不同的技术路径不断延长视频生成长度的上限。 

最近,来自Picsart AI Research,UT Austin和Shi Labs的研究团队提出了一个新的文生视频技术——StreamingT2,可以生成高度一致而且长度可扩展的视频。 

文生视频技术进入长视频时代。 

120秒超长AI视频模型发布

具体来说,StreamingT2V可以生成1200帧甚至理论上无限长的长视频,并且能保证视频内容过渡非常自然平滑,内容丰富多样。 

帝国士兵在烟雾中不停奔跑,虽然动作很滑稽,但是幅度很大,人物一致性很好。 

它的核心构架由3个部分组成: 

- 一个短期记忆单元——条件注意力模块(CAM),它能够确保视频的连贯性,通过关注前一个视频片段的特征来引导当前片段的生成;

- 一个长期记忆单元——外观保持模块,它帮助模型记住视频开头的场景和对象,防止随着时间推移而遗忘开头的场景;

- 一种随机混合技术,使得即使是无限长的视频也能保持一致性,避免了视频片段之间的不协调。

120秒超长AI视频模型发布

而且,StreamingT2V的特点并不限定于使用特定的文生视频模型。 

这意味着只要将基础模型的性能不断提高,生成的视频效果还能不断提升。

120秒超长AI视频模型发布

版权声明:阿里导航 发表于 2024-03-27 10:30。
转载请注明:120秒超长AI视频模型发布 | 阿里导航

相关文章