作者|星奈 Valentina

编辑|方奇

媒体|AI大模型工场

 

 

一、国内大模型发展趋势|7月份解读

 

视频生成,神仙打架

2024 年初,文生视频大模型Sora在全球人工智能领域内外引发了广泛关注。就在刚刚过去的7月国内视频生成大模型产品扎堆上线:

商汤科技推出了首个可控人物视频生成大模型Vimi;

阿里达摩院发布了AI视频创作平台“寻光”;

爱诗科技发布了PixVerse V2;

快手可灵宣布基础模型再次升级,并全面开放内测;

智谱 AI宣布AI生成视频模型清影(Ying)正式上线智谱清言;

字节跳动也推出了一款由其子公司Faceu Technology开发的名为极梦AI的人工智能视频应用;

生数科技联合清华大学于2024年4月27日发布的一款视频大模型 Vidu,也在7月20日全球上线,赶上了7月视频大模型“追逐战”的尾巴。

然而,尽管新出炉的国产视频大模型不少都大力宣扬自己为“对标Sora”或是“赶超Sora”,但从不少用户的体验感受来看,国产视频 AI 生成技术仍面临一些挑战,包括语义理解能力、一致性、画面流畅度等方面。以生数科技Vidu为例,尽管其生成速率得到了大幅度的提高,但其对于文本理解,偶尔会出现对提示词回应不充分的情况,并且在多人场景下画面存在穿模、细节缺失严重等问题。虽然国产视频大模型发展迅猛,但要真正实现对国际先进水平的超越,不能仅靠宣传口号,而要切实解决用户体验中暴露出的关键问题,不断优化技术。

巨头钟爱小模型

小模型是指参数规模在100亿(10B,1B等于10亿参数)以下的模型。虽然参数较少,但通过特定设计和优化,能在某些任务上达到与大模型相似的性能,可以理解为迷你版的大模型。小模型核心卖点包括更便宜、更方便、更高效等,在一些特定应用领域具有重要意义。

近期,小模型赛道竞争颇为激烈,可谓“卷”出新高度。这里既有早期入局的先行者,也有综合权衡成本、效率等多维度指标后加入的AI 巨头。比如,国际上,法国AI创企Mistral AI曾凭借70亿参数大模型击败130亿参数的llama2而声名大噪,并于今年7月与英伟达合作推出12亿参数的Mistralnemo。随后,苹果官宣并开源7B模DCLM,其模型分数与Mistral-7B-v0.3、Gemma 8B大致相当。紧接着,Salesforce发布了xLAM 1.35B和7B大型动作模型,能够满足不同参数需求下的应用场景。同月,OpenAI推出小模型GPT-4 omini,Hugging Face推出了紧凑型语言模型 smoilm,就连Meta在本轮更新Llama3.1大模型时,也同步推出了新版本的8B和70B参数模型。在国内,明星独角兽企业面壁智能推出了更为精简的端侧模型 miniCPM,仅用24亿参数便战胜了llama2 13b。

之前企业可能更专注于大模型的研发,随着时间推移和技术发展,逐渐关注到小模型的需求和优势。首先,成本是关键。大模型训练成本极高,投入产出比差,导致资本市场恐慌。小模型性价比高,如GPT-4o mini使用成本比GPT-3.5 Turbo便宜超60%,对价格敏感型企业是利好。其次,小模型易于部署。能在各种终端设备上运行,如微软Phi-3mini能装进苹果手机。此外,小模型针对特定任务优化能达高性能,在特定领域效果好。企业对私有化部署AI需求增长,中小企业更爱小模型,像咨询数据问答服务等场景,小模型性价比更高。而且大型模型的训练可以为小模型提供高质量的数据基础,小模型是站在大模型的肩膀上进一步优化的,这种先做大再做小的训练模式正在成为新趋势。

开源模型超闭源模型态势明显

今年4月16号,百度CEO李彦宏在AI开发者大会上提出“开源模型会越来越落后”,而其反对者认为,开源模型正在逐步赶超闭源。有关大模型开源闭源的路线之争向来是热点话题,尽管从目前来看,闭源大模型整体能力更强,OpenAI的GPT-4、Anthropic的Claude-3、谷歌的Gemini Ultra都是闭源。

但开源阵营的日渐壮大,确实给闭源模型带来了一定冲击。7月份的2024年7月23日,Meta正式发布了其开源大模型Llama 3.1。根据Meta提供的基准测试数据,最受关注的405B(4050亿参数),从性能上已经可媲美GPT-4和Claude 3.5。这意味着,顶尖的开源模型首次与顶尖的闭源模型不相上下,开源模型在功能和性能方面大多落后于闭源模型的局面被打破。

在全球AI开源大模型的竞争格局中,中国AI大模型开源也取得了显著进展。7月7日,在长沙举行的2024 CCF(中国计算机学会)系统软件技术论坛上,中国开源操作系统openkylin(开放麒麟)发布了全新的 openkylin for aipc 版本;7月6日,快手高级副总裁、主站业务与社区科学负责人盖坤(于越)在世界人工智能大会(WAIC 2024)上宣布,快手旗下的文生图大模型可图(Kolors)将全面开源 ;面壁智能联合创始人、首席科学家刘知远也在WAIC 2024并首次对外介绍开源新一代高效、耗面壁小钢炮MiniCPM-S模型;7月17日,快手可灵大模型团队开源了名为LivePortrait的可控人像视频生成框架,该框架能够准确、实时地将驱动视频的表情、姿态迁移到静态或动态人像视频上,生成极具表现力的视频结果;8月5日晚,智谱AI团队宣布开源其创新的视频生成模型CogVideoX系列,这标志着视频内容创作的一个新里程碑。

然而,国产AI大模型开源仍面临一些挑战,首先,中文数据的稀缺和珍贵使得训练高质量模型变得困难;其次,模型训练的细节往往不公开,限制了开发者对模型的深度理解和优化;同时,模型开源在商用方面面临诸多限制,使得企业在实际应用中遇到许多障碍。尽管面临挑战,AI大模型开源已成为趋势之一。未来,国产AI大模型将更加注重云侧与端侧的结合,满足不同用户需求,特别是C端用户;大模型将趋向通用化和专用化,垂直行业将成为主要应用场景。

 

二、国内主要大模型最新进展

 

字节跳动

截止7月,豆包大模型日均Tokens使用量突破5000亿次,每家企业日均使用量较5月发布时增长22倍。作为国内首批通过算法备案的大模型之一,豆包大模型近期升级了文生图、语音及图生图功能,实现高质量图片生成与智能情绪识别等能力。其推理输入价格低至0.0008元/千Tokens,有助于降低企业AI应用门槛。

在本月爆火的视频生成赛道,字节跳动也推出了一款名为即梦AI的人工智能视频应用,由其子公司Faceu Technology开发。该应用在中国的苹果应用商店上可用,并于7月31日在Android上发布。

此外,字节跳动ByteDance Research团队的研究人员推出了端到端同声传译智能体:Cross Language Agent - Simultaneous Interpretation, CLASI,其效果已接近专业人工水平的同声传译,展示了巨大的潜力和先进的技术能力。CLASI 采用了端到端的架构,规避了级联模型中错误传播的问题,依托于豆包基座大模型和豆包大模型语音组的语音理解能力,同时具备了从外部获取知识的能力,最终形成了足以媲美人类水平的同声传译系统。

百度

7月4日,百度创始人、董事长兼首席执行官李彦宏在2024世界人工智能大会暨人工智能全球治理高级别会议产业发展主论坛上表示,搜索是智能体分发的最大入口。谈及AI是否会替代人类工作的经典话题,他表示,AI 目前更多是扮演 Copilot 的角色辅助人工作,而不是替代人,现在已经产生了一些全新的工作机会,如数据标注、提示词工程师等。他强调,AI 永远只是工具,不是人类的竞争对手。

此外,百度健康和文心一言推出了新的智能体。7月19日,百度健康在产业生态大会上正式发布了AI精准找医生、AI医学报告解读、AI用药助手、AI皮肤检测、AI睡眠助手等健康智能体产品。目前,AI健康问答服务日活用户已超过200万、AI用药助手累计服务超2000万人次。

7月26日,2024年巴黎奥运会前夕盛宴,文心一言联合直播吧发布“热点体育智能体-言宝”,带观众直击巴黎热点,努力创造 AI 时代下更好玩、更有趣的体育娱乐体验。

与此同时,百度在多模态大模型开发上也有所进展。7月末百度宣布推出飞桨多模态大模型开发套件PaddleMIX 2.0版本,全面兼顾高性能算法、便捷开发、高效训练和完备部署,极大降低业界多模态领域开发者的开发门槛。

智谱AI

7月26日,智谱AI发布了自家的视频生成产品——智谱清影(Ying),免费用户不限次数使用。提交prompt30秒后就能生成6秒时长,1440x960分辨率的视频。智谱AI CEO张鹏表示,这次生成式视频能力的全面上线,为的是让大家都能体验生成式视频功能,希望能够听到大家的意见和反馈。

本次清影(Ying)底座的视频生成模型是CogVideoX,它能将文本、时间、空间三个维度融合起来,参考了Sora的算法设计,它也是一个DiT架构,通过优化,CogVideoX 相比前代(CogVideo)推理速度提升了6倍。理论上,模型侧生成6秒视频仅需30秒时间。智谱自研了一个端到端视频理解模型,用于为海量的视频数据生成详细的、贴合内容的描述,这样可以增强模型的文本理解和指令遵循能力,使得生成的视频更符合用户的输入,能够理解超长复杂prompt指令。

除此之外,在7月5日举行的GLM-新一代基座大模型技术前沿与产业应用论坛上,智谱AI CodeGeeX技术负责人郑勤锴发布了第4代CodeGeeX代码大模型CodeGeeX4-ALL-9B。

腾讯

7月4日,腾讯混元文生图大模型(混元-DiT)宣布开源小显存版本,仅需6G显存即可运行,对使用个人电脑本地部署的开发者十分友好。该版本与LORA、ControlNet等插件都已适配至Diffusers库,并新增对Kohya图形化界面的支持,让开发者可以低门槛地训练个性化LORA模型。同时,混元DiT模型升级至1.2版本,在图片质感与构图方面均有所提升。

在2024世界人工智能大会上,腾讯公布大模型的最新进展和落地案例。据介绍,腾讯混元大模型的单日调用Tokens已经达到千亿级别,单日调用次数超过3亿,并在云上新开放了混元-lite 256k版本、vision多模态版本,以及代码生成、角色扮演、functioncall等子模型和接口,满足不同企业和开发者的需求。

与此同时,腾讯基于混元大模型的C端AI助手App元宝也在不断升级。7月1日,腾讯元宝AI搜索能力升级,上线深度搜索模式。更新到最新版本后,腾讯元宝将在AI搜索深度模式下对问题进行扩展,从深度和广度两方面,提供更结构化、更丰富的回答,并可同步生成内容大纲、思维导图及相关人物事件梳理,帮助用户全景式了解搜索内容。

7月16日,腾讯元宝发布3D生成应用,一张图即可生成3D角色腾讯旗下大模型应用 “腾讯元宝App”上线了“3D角色梦工厂”玩法,腾讯元宝也是首个拥有打印级3D生成能力的通用大模型App。通过“3D角色梦工 ”,只需上传一张五官清晰的正面头像,并选择不同角色模版,就能迅速生成个人3D角色。每人每天免费10次机会。

360

7月31日,在2024互联网安全大会上,360集团创始人周鸿祎宣布360 安全大模型正式免费。在免费背后,周鸿祎给360大模型确定了三个发展方向。一是安全大模型,既要解决目前大模型行业的安全缺口问题,也要解决因为大模型的发展和技术的进步出现的未知安全问题。二是通过大模型改善360的产品,包括搜索、浏览器等软件产品,以及智能手表等硬件产品。第三个方向是垂直大模型,结合360政企客户的需求,从而让大模型对各行各业产生实际价值。

同时,在大会上宣布与国内15家大模型厂商达成合作,并开放安全卫士、安全浏览器、搜索、智能硬件四大国民级场景,打造新一代AI产品“AI助手”。

与智谱AI、商汤科技、百川智能、火山引擎、百度智能云、腾讯、科大讯飞、华为云、MiniMAX、零一万物、面壁智能等15家大模型厂商合作,全面内置到360国民级入口产品,不需要安装插件就能获取场景,让AI普惠10亿+用户。

阿里

7月10日,阿里云专为科研人员、高校教师和学生、职场人士研发的大模型应用产品心流正式上线。据了解,其产品定位为用户的AI搜索助手,提供智能搜索、知识问答、智能阅读、辅助创作等能力,旨在帮助用户提升工作和学习效率。

7月中旬,阿里巴巴重磅发布了全新音频处理模型Qwen2-Audio,它不仅可以 直接用语音聊天,更是一位专业的听觉大师一样, 分析转录各种声音,功能强大到超乎想象。

伴随着2024年巴黎奥运会的盛大开幕,阿里的“黑科技”也在本届奥运贡献了许多精彩看点。

作为奥运会独家云服务商,阿里云全面支撑巴黎奥运会,云计算首次超越卫星成为主要转播方式,超过2/3直播信号基于阿里云向全球分发,AI云计算技术首次在奥运会广泛应用。

阿里云携手国际奥委会修复1924年巴黎奥运会的历史影像,比如提高历史视频分辨率从SD到高清或UHD,修复黑白照片的颜色等。

除了让全球观众在云上看到比赛,在七人制橄榄球、羽毛球、田径、篮球等多个项目中,观众能够通过基于AI的“子弹时间”应用,慢镜头、多角度、身临其境的感受运动员们的“高光时刻”。

7月31日,阿里通义宣布免费开放奥运AI大模型,具备最强奥运专业知识,并集合同声传译级别的中法互译功能。

零一万物

近日,零一万物Yi API正式新增Function Call功能。据零一万物表示,最新的模型Yi-Large-FC经过针对性训练,具备良好的深度理解能力、强大的指令遵循能力,既能根据用户的输入判断何时应调用函数,又能使用更贴近工具函数定义ON进行响应;同时完美兼容OpenAI的接口设计,能够丝滑“平替GPT”。

阶跃星辰

在2024世界人工智能大会上,阶跃星辰首发了三款Step系列通用大模型新品:Step-2万亿参数语言大模型正式版、Step-1.5V多模态大模型、Step-1X图像生成大模型。自今年三月正式公布以来,Step系列通用大模型在短短100天左右实现了从千亿参数到万亿参数,从语言模型到多模态模型,从理解到生成的全面进步。

同时,阶跃星辰还重点展示了面向C端用户的自研大模型应用产品,并披露了在大模型生态合作领域的最新进展与计划。

 

追加内容

本文作者可以追加内容哦 !