事件:OpenAI发布会最终日(第12日),o3大模型重磅发布,在编程、推理等方面实现巨大进步,某些条件下表现接近AGI(通用人工智能)。
能力大幅提升,多项基准测试表现突破现有上限。1)编程能力方面,o3在软件工程测试SWE-Bench Verified中取得71.7%的成绩,o1仅为48.9%;在全球著名编程竞赛平台Codeforces中成绩2727分,相当于全球排名第175位的人类选手,超越OpenAI研究副总裁,而o1为1891分。2)数学能力方面,o3在高级数学推理测试FrontierMath中成绩为25.2%,此前所有模型成绩不超过2%;在衡量博士级科学问题的严苛基准测试GPQADiamond中,o3的准确率高达87.7%,o1为78%,而专业博士在自己强项领域的成绩通常为70%。3)推理能力方面,o3在通用人工智能抽象和推理语料库测试ARC-AGI中,o3在1万美元计算成本限制下取得75.7%的成绩,在无限制、高计算量(172倍)配置下的o3取得了87.5%的成绩,o1为32%,而人类阈值为85%。这一成绩标志着AI能力出现了关键的跃升,展现出前所未有的新任务适应能力。但目前o3成本较高,且面对一些简单任务时表现仍待提高。
o3-mini性价比优秀,编程能力突出。o3-mini为o3高性价比版本,其引入了“自适应思考时间(adaptive thinking time)”机制,用户可以在低/中/高三种推理强度之间切换,使简单任务快速响应、而复杂的问题开启更长时间的深度思考模式。中推理强度下,o3-mini编程能力就已超过满血版o1,性能相较o1-mini则更显优越。
OpenAI发布会最终日发布o3大模型,在编程、推理等方面实现巨大进步,某些条件下表现接近实现AGI,即能完成人类所能完成的任何任务的人工智能。我们认为OpenAI o3大模型进一步实现能力提升,各细分行业AI应用有望进一步加速落地,
富哥小圈逻辑以主题投资和情绪投资为节点,主题投资和情绪投资的形成是以强逻辑的推进为基本点而形成的 !
看长做短,活在当下,顺势为王 ,中线逻辑思维 短线 1012操盘
富哥小圈逻辑 不代表任何资金及媒体观点
本文作者可以追加内容哦 !