快手发布对标Sora的视频模型可灵

行业资讯
24年6月12日
编辑

大鹏大鹏在努力学AI

快手上周发布了对标 Sora 的可灵视频生成模型，支持生成最长两分钟 30FPS 1080P 的视频。生成质量是现在普通用户能接触到的天花板，5 秒视频这个等级完全超越了谷歌Voe 视频模型。运动幅度、不同比例、一致性、物理特性都是除了 Sora 之外现在看到最好的。

快手发布对标Sora的视频模型可灵

发布之后果然爆了，而且是国外的热度明显高过了国内，在 Twitter 以及 Readdit 上都有相当高的讨论热度。基本上海外 AI 圈子的所有大佬都转发了，a16z 的 Justine Moore 甚至都亲自制作了教外国人申请测试资格的教程，一些大 V 开始在任何有测试资格的人下面私信，甚至急的都打中文。

如果说 Open AI 的 Sora 让大家看到了 Dit 架构在视频生成这个路线上的希望的话，可灵通过实践真实的构思大家这个路径是可以复制的。

快手发布对标Sora的视频模型可灵

整体框架采用了类Sora的DiT结构，用Transformer代替了传统扩散模型中基于卷积网络的U-Net。还对模型中的隐空间编/解码、时序建模等模块进行了升维。

主流的视频生成模型通常沿用Stable Diffusion的2D VAE进行空间压缩，但这对于视频而言存在明显的信息冗余。于是自研了3D VAE网络，实现时空同步压缩。

快手发布对标Sora的视频模型可灵

时序信息建模上，快手大模型团队设计了一款计算高效的全注意力机制（3D Attention）作为时空建模模块。

团队专门设计了专用的语言模型，可以对用户输入的提示词进行高质量扩充及优化。

可灵大模型体验地址：https://kling.kuaishou.com/

温馨提示网站名称：壹柒学Ai-给真正想学习AIGC爱好者们规避弯路，提供顺畅学习之路！
官方网址：https://17xueai.net
本网站的部分文章内容收集来源于网络，部分会附上原作者信息，所有资源内容仅限于大家学习与参考。
版权归原作者所有，若内容若侵犯到您的权益，请联系站长QQ：1005406289 我们将第一时间处理！
本网站的部分文章内容需要指定积分进行获取查看，积分获取方式请查看【帮助文档】中说明。
本网站的资源所售价格并非资源售卖价格，是收集、整理、制作、编辑详情以及本站运营的适当补贴。
本网站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报，举报成功会获得对应积分奖励！
如无特别声明本文即为原创文章仅代表个人观点，版权归《壹柒学Ai》所有，欢迎转载，转载请保留原文链接。