快手上周发布了对标 Sora 的可灵视频生成模型,支持生成最长两分钟 30FPS 1080P 的视频。生成质量是现在普通用户能接触到的天花板,5 秒视频这个等级完全超越了谷歌Voe 视频模型。运动幅度、不同比例、一致性、物理特性都是除了 Sora 之外现在看到最好的。
发布之后果然爆了,而且是国外的热度明显高过了国内,在 Twitter 以及 Readdit 上都有相当高的讨论热度。基本上海外 AI 圈子的所有大佬都转发了,a16z 的 Justine Moore 甚至都亲自制作了教外国人申请测试资格的教程,一些大 V 开始在任何有测试资格的人下面私信,甚至急的都打中文。
如果说 Open AI 的 Sora 让大家看到了 Dit 架构在视频生成这个路线上的希望的话,可灵通过实践真实的构思大家这个路径是可以复制的。
整体框架采用了类Sora的DiT结构,用Transformer代替了传统扩散模型中基于卷积网络的U-Net。还对模型中的隐空间编/解码、时序建模等模块进行了升维。
主流的视频生成模型通常沿用Stable Diffusion的2D VAE进行空间压缩,但这对于视频而言存在明显的信息冗余。于是自研了3D VAE网络,实现时空同步压缩。
时序信息建模上,快手大模型团队设计了一款计算高效的全注意力机制(3D Attention)作为时空建模模块。
团队专门设计了专用的语言模型,可以对用户输入的提示词进行高质量扩充及优化。
可灵大模型体验地址:https://kling.kuaishou.com/