$三七互娱(SZ002555)$  三七互娱全资子公司安徽泰运投资管理公司投资了北京智谱华章,而智谱华章投资了AI黑马生数科技,生数科技联合清华大学今天也就是4月27日发布了国内可以媲美sora的VIdu视频大模型!

4月27日,在中关村论坛未来人工智能先锋论坛上,生数科技联合清华大学正式发布中国首个长时长、高一致性、高动态性视频大模型Vidu。

据悉,该模型采用Diffusion(扩散概率模型)与Transformer融合的架构U-ViT,支持一键生成长达16秒、分辨率高达1080P的高清视频内容。生数科技方面介绍,与Sora一致,Vidu能够根据提供的文本描述直接生成长达16秒的高质量视频。

生数科技方面介绍,其核心技术U-ViT架构由团队于2022年9月提出,早于Sora采用的DiT架构,是全球首个Diffusion(扩散概率模型)与Transformer融合的架构,完全由团队自主研发。

Vidu所生成的短片,采用的是“一步到位”的生成方式,与Sora一样,文本到视频的转换是直接且连续的,在底层算法实现上是基于单一模型完全端到端生成,不涉及中间的插帧和其他多步骤的处理。

所谓插帧即通过在视频的每两帧画面中增加一帧或多帧来提升视频的长度或流畅度。这种方法需要对视频进行逐帧处理,通过插入额外的帧来改善视频长度和质量,是一个分步骤的过程。但Vidu与Sora则是通过单一步骤直接生成高质量的视频,无需经过多个步骤的关键帧生成和插帧处理。

2023年3月,生数科技团队开源全球首个基于U-ViT架构的多模态扩散大模UniDiffuser,在全球范围内率先完成融合架构的大规模可扩展性(Scaling Law)验证。UniDiffuser是在大规模图文数据集LAION-5B上训练出的近10亿参数量模型,支持图文模态间的任意生成和转换。在架构上,UniDiffuser比同样是DiT架构的Stable Diffusion 3领先了一年。

追加内容

本文作者可以追加内容哦 !