OpenAI的Sora在年初发布的文生视频短片震撼人心,但截至目前仍没有对公众开放,这给了其他文本生成视频类大模型一个追赶之机,而国内选手决定先行一步。快手AI团队自研了视频生成大模型“可灵AI”,自开放申请以来持续火爆,总申请人数已超百万人,目前已经有超过30万人获得体验资格。

OpenAI的Sora何时向大众开放还没有时间表,快手“可灵”来了个“弯道超车”,先让国内用户用上了视频大模型——7月末,可灵正式开放,登陆即可免费使用,不仅支持文本生成视频,还能实现图片生成视频。可灵这次不仅面市快,商业化落地也十分利索。与大多数AI生成工具类似,非会员用户每天有66灵感值,大约可用文本描述生成6条5秒时长的视频,想要解锁更多次数和更长的视频,则需升级为付费会员。此外,快手还将可灵与自家的视频创作者工具“快影”绑定,用户可免费使用。

首先是文本生成视频功能,用户输入提示词后描述想要生成的画面,可灵提供了几个可控参数以调整生成效果,参数模块包括“创意想象力和创意相关性”、“生成模式”、“生成时长(最长十秒,仅会员支持)”、“视频比例”、“运镜控制(特殊运镜需要会员)”等等,生成等待的时间一般在2-5分钟。

我们输入提示词“一个可爱的小男孩在用筷子吃面条”并设定为“写实风格”。视频生成效果着实令人惊艳:人物的动作自然,无论是握筷子的姿势、翘起的食指以及吃面的嘴部动作,都拿捏地恰到好处,孩子吃饭时嘴边的饭粒、手指粘到汤等特点也与人物本身的年龄表现贴合。难得的是,画面没有出现“六指怪”,只是在大拇指的处理上略显模糊。

 

这样的能力表现加上开放快速,可灵现在已经从国内火到了海外,有海外网友在社交媒体上手把手教人注册快手并申请可灵的试用权限。X上,关注AI应用的KOL @ARTiV3RSE对可灵来了一波怒赞,“Kling AI is pretty wild!(可灵AI 相当狂野!)”

在实测的所有生成视频中,可灵对空间关系的理解的确较其他视频模型表现更优,这和它采用的框架有关。与 Sora 类似,可灵将常用于生成式视频的扩散模型与Transformer架构相结合,不同点在与,可灵创新采用了VideoTetris框架,该框架更擅长生成具有渐进式构图的长视频,可将新角色无缝集成到视频场景中,同时保持一致性以及准确的位置、数量等信息。这就是为什么可灵能够精准处理小男孩的细微动作。

除了框架优势外,可灵能够快速推出还有依靠快手海量的视频数据基础。作为国内短视频赛道的头部平台,基于算法推荐的逻辑,数据标注对于短视频平台来说是个基本工作。快手的数据团队成员曾介绍,“最早,快手在全国各地都有很多标注基地,纯劳动密集型,一部分做审核、一部分做标注。最近几年算法越来越精准,从‘一个男人’的‘是或否’进化到了‘一个外国男人、穿着西装、金发’的‘是或否’,而这些视频数据是训练基础模型的第一步。”

当前大模型的浪潮中,最能证明技术能力的莫过于产品能够大规模应用落地。相较OpenAI的Sora,可灵在AI视频生成模型的赛道上具有得天独厚的条件。这也就不难理解在AI视频领域快手能一步了。

相关素材整理于元宇宙日爆《Sora还在磨叽 抢先开放的「可灵」火到了海外》一文

 

 

 

追加内容

本文作者可以追加内容哦 !