1、智谱升级AI视频模型为“新清影” 再丰富多模态模型矩阵

11月8日,智谱宣布,其AI视频生成模型“清影”已全面升级为“新清影”。此次升级带来了多项显著改进,包括支持10秒时长、4K、60帧的超高清画质,任意尺寸的视频生成,即将内置音效功能,同时进一步优化了人体动作和物理世界的模拟精度。


据悉,“新清影”基于CogVideoX模型的最新技术进展,以及智谱新推出的音效模型CogSound,实现了模型能力的全面提升。这包括图生视频质量、美学表现、运动合理性及复杂提示词语义理解的显著增强,以及更精细的人物面部表演、动作连贯性和物理特性模拟。“新清影”还支持多通道生成能力,可一次性生成4个视频,满足多样化需求。


早在3个月前,作为国内首个面向公众开放的视频生成产品,“清影”已在智谱清言App上线,用户只需输入一段指令或图片,即可在30秒内生成AI视频。这一创新为影视创作带来了更多可能性,如广告制作、短视频、表情包梗图等。


在“清影”发布后,GLM技术团队先后开源了CogVideoX 2B和5B版本两个模型,推动了视频生成技术的普及和应用。其中,CogVideoX-5B模型自开源以来受到了广泛关注,并衍生出了大量的二次开发项目。


值得一提的是,随着本月音效模型CogSound的加入,“新清影”将新增与画面匹配的音效功能,使视频更加自然逼真。音效模型将于本月上线智谱清言App,与新清影一起生成有声AI影片。智谱方面表示:“我们的理想状态是,用户只需提供一个好的创意,剩下的工作都由AI辅助完成,轻松将想法或图片转化为一段自带背景音乐的影片。”


可见,智谱在声音模态领域也实现了人声、音效、音乐的多链路布局。两周前发布的GLM-4-Voice情感语音模型,以及即将上线的音效模型CogSound,共同完善了智谱基于图像、视频和声音的多模态模型矩阵。这意味着智谱在多模态和工具两个维度上都朝着AGI的目标迈出了一小步。


智谱成立于2019年6月份,起源于清华大学计算机系知识工程实验室,专注于开发新一代认知智能大模型。一直以来,智谱以对标OpenAI全模型产品线为线索,陆续研发了包括文本、代码、图像、Agent等方面的自研模型和产品矩阵。


智谱相关负责人对《证券日报》记者表示,生成视频将为影视工作者、短视频创作者提升产量、产能,在其生产流程中发挥重要作用。不到一年时间,生成视频技术在视频时长、生成速度、分辨率、一致性等方面已经显示出长足进步。“新清影”往前又迈进了一步,未来,智谱将携手合作伙伴,基于更丰富的视觉内容,产出更好的AI生成视频工具。


从视频直接生成音效的模型,意味着“默片Sora”将进入“有声电影时代”。在业内人士看来,随着音效模型CogSound的加入,智谱多模态大模型家族在声音模态方面实现了人声、音效的多链路布局,使得智谱基于图像、视频和声音的多模态模型矩阵更为丰富。

来源:证券日报

2、人形机器人变身“大厨”煎牛排,OpenAI押注的1X公司展示新技能

T之家 11 月 11 日消息,当地时间 9 日,OpenAI 押注的 1X 公司秀出了旗下人形机器人 Neo Beta 的新技能 —— 烹饪。

Neo 和网红厨师 Nick DiGiovanni 进行了一场家庭烹饪对决,比赛做出完美的五分熟牛排。IT之家从公开资料获悉,Nick 是 MasterChef (《厨艺大师》/《厨神当道》)史上最年轻的决赛选手,其 YouTube 频道目前有 2120 万粉丝。MasterChef 是美国规格最大、参赛者类型和数量最丰富的烹饪真人秀节目。

官方表示,原本会误以为 Neo Beta 会“搞砸”至少一块牛排,毕竟对它来说,这还是新学的技能。为保险起见,工作人员还事先准备了几块备用牛排。结果 NEO Beta 一次成功,1X 团队和 Nick 最后得以享用额外的牛排。

NEO Beta 的所有动作通过 1X 的 VR Teleoperation App 在 Meta Quest 上进行控制,台词由人工触发。据介绍,虽然其拥有通过 GPT-4o 完成实时对话的能力,但为了符合“节目效果”,工作人员还是选择了“受控”的交流形式。

NEO Beta 从调味到翻转牛排都能独立完成,但需要帮助开火。尽管 NEO Beta 和 Nick 合作完成了一道餐点,但烹饪功能不会立刻开放给第一批用户。1X 表示,希望 NEO 先积累安全任务的经验,再承担涉及锋利或高温的操作。

据财联社报道,Neo 机器人身高约 1.65m,体重约 30kg,步行速度约 1.12m/s,手部有 20 个自由度,能举起超过自己体重两倍的 70kg 的重量、携带最多 20kg 重的物体。其运行时间较短,仅 2-4 个小时

来源:IT之家

3、机器人|人机共生,星辰大海:人形机器人总论篇

人工智能与电机等核心元器件技术的迅速突破为新时代人形机器人行业高速发展打下坚实基础。在特斯拉人形机器人Optimus的带头引领下,2023年以来海内外人形机器人新品迎来“井喷”,各式产品和而不同。预计工业制造将成为人形机器人率先落地场景,商业服务领域次之,家庭消费端将于最后应用但潜力最大。作为世界工厂,在国内政策不断催化之下,我国有望打开人形机器人降本空间,助力其商用量产。海外玩家将继续发挥AI科技优势,以英伟达及OpenAI为代表的技术端巨头将成为行业密不可分的一员、重塑行业生态。建议关注人形机器人整机厂商、集成厂商、资本布局者及零部件厂商。

人工智能与核心元器件的飞跃进步助力人形机器人迎来行业奇点。

过去人形机器人行业发展缓慢,而自从特斯拉人形机器人诞生后,行业进入了产品快速迭代的蓬勃发展期。首先,AI赋予了人形机器人端到端的任务级交互能力。2016年AlphaGO横空出世标志着深度学习算法进入深度应用期,当下AI算力迭代周期已突破摩尔定律,加之大模型参数规模达到千亿级别,这使得AI成为人形机器人与现实世界交互的最好桥梁。第二,得益于新能源汽车腾飞,以电机为代表的机器人核心元器件得到发展。电机领域不仅行业整体产品扭矩密度攀升,且无框电机与空心杯电机技术也持续进步;国产谐波减速器领域逐渐缩小与国际龙头差距;行星滚柱丝杠、3D视觉、力传感器等技术由特种领域向机器人领域过渡迁移。上述两点为人形机器人行业走向量产商用打下坚实基础。

供给端:特斯拉人形机器人引领下,国内外产品于2023年集中式更新推出。

2022年9月,特斯拉推出Optimus Gen1,拉开行业产品“井喷”序幕。国产整机厂傅利叶智能、智元机器人、宇树科技及达闼机器人等集中于2023年7-8月北京世界机器人大会发布最新产品。海外品牌包括Boston Dynamics、Agility Robotics、Sanctuary、1X Technologies等此前已有充分技术积累,也不断更新推出新品。Figure AI联手OpenAI率先在产品上接入GPT,推动了具身智能发展的新边界。

需求端:工业及商业服务端有望先行落地,相应全球市场规模在2030年有望达74万台;C端应用落地后至但潜力无穷。

工业端方面,得益于强学习能力,人形机器人有望革新工厂自动化流程,成为高效高性价比解决方案,我们预计到2030年,工业用人形机器人单价降低至15万元附近,需求量超过50万台。商用服务端方面,人形机器人可以有效增强场景中的互动娱乐性,我们预计到2030年,商业服务用人形机器人单价下探至10万元附近,需求量超过20万台。未来,家庭场景将是最有需求潜力的C端落地场景,人形机器人既可以解决“一老一小”的陪伴需求问题,也可以解放成年人双手,提供家政服务。

我国有望发挥制造业产业链优势,打开人形机器人降本空间。

根据工信部数据,2023年我国制造业增加值占全球比重约30%,连续14年位居全球首位。回顾我国新能源汽车发展历史,生产规模效应以及电池产业布局成就低成本优势,助力国产新能源品牌走出国门。我们认为,国产供应链降本将在人形机器人行业再次“上演”。感知硬件层面,力矩传感器、编码器及视觉传感器领域国产厂商具备较大发展空间;运控硬件层面,微特伺服电机也存在较大国产替代降本可能性。

国内人形机器人政策逐步深化,海外政策具备高度一致性。

根据工信部最新指引,人形机器人已被同时纳为未来产业创新任务及未来高端装备标志性产业。2023年10月,《人形机器人创新发展指导意见》发布,成为首个鼓励“人形机器人”发展的文件,对于人形机器人相关细节技术领域创新提出指导意见。而在全球视角下,美国在2011-2021这10年间3次发布《国家机器人计划》,日本在2015及2022年间2次发布《机器人战略》,国家级机器人行业政策具备较高的连续性,旨在持续稳固世界领先地位。

英伟达及OpenAI的布局切入正重塑人形机器人产业生态。

英伟达以“开发平台+处理器+开发软件”的方式自上而下切入行业,布局时间最早可追溯至2018年。今年3月,英伟达发布GR00T人形机器人项目,已吸纳除特斯拉以外绝大部分领先厂商,完成专属生态网络构建。OpenAI以“资本+GPT赋能”的方式参与行业,2022年同微软一同成立OpenAI Startup Fund,现已投资1X Technologies及Figure AI。针对后者,OpenAI为其设计专属机器人大模型,已颇有成果。未来,在技术巨头的加持下,整机厂商有望持续对特斯拉Optimus行业领先地位发起冲击,形成多元良性竞争态势。

来源:中信证券

4、通用人工智能大型社会模拟器发布

科技日报讯 (记者何亮)11月8日,记者从北京大学武汉人工智能研究院获悉,由该院及北京大学、清华大学等高校院所协同研发的全球首个服务社会治理的通用人工智能模拟器平台——大型社会模拟器1.0日前发布。

大型社会模拟器1.0能在3D建模的仿真环境中演练海量智能体交互,实现从个体行为到整体城市运行的多层次复杂系统模拟和群体智能涌现。该模拟器汇聚个体、群体、公共服务等多维数据,通过借助分布式计算、高并发调度技术,精准推演完整、动态、迭代的社会发展全过程,助力建构智能社会治理新范式。

“大型社会模拟器1.0具有数据资源海量、技术迭代快速等优势。”北京通用人工智能研究院院长朱松纯介绍,我国的超大城市和复杂的社会管理需求为大型社会模拟器1.0提供了独特应用场景。该模拟器尤其在智慧城市建设、社会治理、公共资源优化等方面,有广泛应用前景。

与国外同类技术相比,大型社会模拟器1.0在多智能体系统、认知模型、复杂系统理论等技术领域具有领先优势,可应用于互联网安全治理、大规模交通仿真等领域。同时,大型社会模拟器1.0的跨国数据整合能力使其适用于全球性政策的评估和多国协同决策。

来源:科技日报

风险提示:上述内容和意见仅作为客户服务信息,并非为投资者提供对市场走势、个股和基金进行投资决策的参考。本公司对这信息的完整性和准确性不作任何保证,也不保证有关观点或分析判断不发生变化或更新,不代表本公司或其他关联机构的正式观点。历史业绩不代表未来收益,市场有风险,投资需谨慎


$人工智能AIETF(SH515070)$ $机器人ETF(SH562500)$

#半导体或迎上行周期,投资机会几何?##信创自主可控确定性高,如何布局?#

追加内容

本文作者可以追加内容哦 !