Anthropic凌晨重磅万字长文:AI已进入「自我构建时代」,人类研发正在被快速替代
就在刚刚,Anthropic 悄然发布了一篇分量极重的万字深度论文——《When AI builds itself(当AI开始自我构建)》。
不同于普通技术博客、普通模型更新公告,这篇文章配有官方专属主题动画、全站重点推荐、全员对外置顶。

业内几乎第一时间共识:
这不是一次普通技术更新,而是AI产业进入「自我迭代周期」的正式宣告。
读完全文最大感受只有一句话:
AI 已经不再只是人类的工具,它正在亲手加速自己的进化。
并且速度,远超所有人的预估。
本文为大家带来全文精译+深度拆解,带你看懂这场正在发生、却极少人真正理解的 AI 产业革命。

01 过去、现在、未来:AI自研的四个时代
回顾整个 AI 研发历史,所有模型迭代、训练、代码、实验,100%由人类主导。
而 Anthropic 把 AI 自研进程,清晰划分成四个阶段:
1)2021–2023:纯人力时代
初代 Claude 研发完全依赖工程师手写代码、人工跑实验、人工复盘。
AI 辅助率:0%
2)2023–2025:轻度辅助时代
对话式 AI 开始参与工作,只能生成零散代码片段,
无法独立完成任务,高度依赖人类二次修改。
3)2025–2026:Agent 接管工程时代
智能体可以独立写文件、改代码、修Bug、批量迭代项目。
工程环节,AI 开始从「辅助」变成「主力」。
4)2026 当下:自主智能体时代
AI 可以独立运行任务、跨任务委派、连续工作数小时、自主迭代工程。
人类只负责定目标,AI 负责完成全过程。
5)即将到来:闭环自我构建时代(Closed Loop)
AI 自主完成:
模型设计 → 训练 → 调优 → 实验 → 迭代下一代模型
也就是业界最敬畏的:
递归自我改进 Recursive Self-Improvement
当这一步真正闭合,AI 的进化速度将不再由人类决定,只由算力与算法效率决定。

02 公开基准数据实锤:AI 工作能力正在指数级暴涨
本次文章放出了大量从未公开的实测数据,结论非常震撼:
AI 可独立完成的复杂长任务时长,每 4 个月翻一倍。
此前行业周期是 7 个月翻倍,增速已经明显加速。
我们直观对比:
- 2024.3 Claude Opus 3:只能胜任人类 4 分钟任务
- 2025.3 Claude Sonnet 3.7:可独立完成 1.5 小时复杂工作
- 2026.4 Claude Opus 4.6:稳定胜任 12 小时连续任务
按照当前曲线:
2026 年内,AI 将可独立完成资深工程师「数日级」工作。
2027 年,AI 将可承接人类「数周级」科研任务。
两大权威基准彻底被快速饱和:
SWE-bench(真实软件工程)
从极低得分到完全饱和,仅用 2 年。
可直接读取真实开源项目、真实 Bug、自主定位、自主修复、自主通过项目测试。
CORE-Bench(科研复现能力)
AI 论文复现成功率:
2024 年 20% → 15 个月后全线饱和
METR 长时任务测试
Claude Mythos Preview 稳定连续工作 16 小时
已触及目前人类可测量上限。
简单说:
AI 的持续工作能力、复杂问题处理能力、工程落地能力,已经突破传统认知。
03 Anthropic 内部绝密数据曝光:研发模式彻底变天
这篇文章最核心、最炸裂的,是内部真实生产数据。
1)当前 Anthropic 代码库:80% 由 AI 编写
2025 年初该数据仍在个位数。
短短一年多:
AI 从「写一点点代码」变成「写绝大部分代码」」
2)工程师产能暴涨 8 倍
2026 Q2 单人日均产出 = 2024 年的 8 倍
不是人变强了,是人类工作模式彻底重构:
- 过去:人类写代码、调试、排错
- 现在:人类定目标、AI 全流程落地、人类只做审查
3)全员内部调研:AI 让整体研发效率提升 4 倍
覆盖 130 名研究人员的真实反馈:
同等工作量,AI 辅助下,整体产出提升至原来 4 倍。
4)一个极其夸张的真实案例
2026 年 4 月,Claude 一次性完成:
800+ 项系统性 API 错误修复
将一类线上错误发生率降低一千倍
工程师评估:
纯人力完成,需要整整 4 年工作量。
04 AI 代码质量:从「能用」到「即将超越人类」
文章给出非常明确的三段式结论:
- 2025 年末:AI 代码略弱于顶级工程师
- 2026 年现在:AI 代码质量已基本持平人类
- 2026 年内:AI 代码质量将正式超越人类
同时公布成功率数据:
开放式高难度任务成功率:半年提升 50%,目前达 76%
典型真实场景:
一次集群大规模故障,数万个训练任务崩溃。
工程师仅提供现象与权限,Claude 2 小时定位根因、复现问题、给出稳定修复方案。
同等工作,传统工程师需要 2–3 天。
除此之外,Anthropic 现已上线:
AI 全自动代码审查系统
回溯统计结果惊人:
约三分之一原本会上线的高危 Bug,已被 AI 提前拦截。
而这些代码,全部来自全球最顶尖 AI 工程师之手。
05 科研能力突破:AI 开始自主做研究、做决策
如果说工程是「执行」,科研就是「创新」。
而 Anthropic 数据证明:
AI 的科研判断力,正在快速逼近人类。
1)实验优化能力:超越人类数十倍
固定目标代码优化任务:
- 2025.5 Opus4:提速 3 倍
- 2026.4 Mythos:提速 52 倍
人类资深研究员极限:仅 4 倍
2)首个完全 AI 自主开放式科研项目落地
研究主题:弱模型能否监督强模型(AI 安全核心难题)
- 人类研究员一周:仅弥补 23% 研究差距
- AI 智能体集群:消耗 800 小时算力、1.8 万美金成本,弥补 97% 差距
全程:
人类仅定义方向,所有假设、实验、验证、迭代全部由 AI 自主完成。
3)科研决策能力:AI 优于人类的时刻越来越多
官方抽取 129 个真实人类科研踩坑场景 做对照测试:
- 2025.11:AI 更优决策占比 51%
- 2026.4:AI 更优决策占比 64%
意味着:
在复杂科研岔路口,AI 的判断,已经多数优于人类研究员。
06 当下真实人机边界:AI包揽汗水,人类仅剩远见
总结目前最真实的分工格局:
AI 已经彻底擅长
- 写代码、重构、修Bug
- 跑大规模实验、批量迭代
- 长时任务持续执行
- 科研试错、数据验证、路径迭代
- 大量重复性、高耐心、高复杂度的「99%汗水工作」
人类目前唯一绝对优势
- 研究品味
- 方向选择
- 价值判断
- 止损与取舍
也就是:
AI 负责无限执行,人类负责有限选择。
但文章同时抛出最关键警示:
所谓「研究品味」,未必是人类独有天赋,它只是下一个即将被 AI 攻克的能力。
AI 历史上几乎所有「人类专属能力」,最终全部被逐项抹平。
07 未来三种可能结局:人类即将面对的AI未来
Anthropic 严谨推演了未来三条路径,每一条都影响全球科技格局。
情景一:增速放缓、曲线趋平(概率较低)
AI 能力增长进入 S 曲线瓶颈。
判断力、创造性无法靠算力堆叠突破。
或受限于芯片、能源、供应链瓶颈。
即使停滞,世界也将彻底改变:
漏洞发现速度远超修复速度、百人团队等效千人产能,全社会生产力重构。
情景二:AI全面自动化研发,人类掌握方向盘(高概率)
AI 包揽全部执行层工作。
人类只做顶层设计、方向把关、结果审核。
企业生产力差距将被彻底拉开:
会用 AI 协同的小团队,碾压传统大型研发组织。
同时风险同步放大:
大规模自动化技术,可被用于全域监控、个体精准操控、大规模信息干预。
组织瓶颈将从「人力不足」变成**「人类审核速度跟不上 AI 产出速度」**。
情景三:完全递归自我迭代(终极未来、高风险)
AI 补齐高阶判断力。
AI 自主设计下一代 AI、自主迭代、自主进化。
技术迭代速度彻底脱离人类节奏,
科研、医疗、工程、材料、机器人全部迎来爆发式革新。
但AI对齐风险、失控风险、社会结构风险全面不可预测。
这是目前全球学界最警惕、也最无法预判的未来。
08 Anthropic 公开呼吁:AI 需要全球可控减速
整篇文章最终落点,非常克制、也非常清醒:
1. AI 增速太快,人类社会、法律、伦理、对齐研究跟不上
2. 单方面暂停没有意义,只会改变领跑者,不会阻止技术
3. 需要建立「全球可验证、可核查、可监督」的前沿AI减速机制
简单理解:
不是禁止发展,而是给人类留出「来得及理解、来得及管控、来得及适配」的时间。
AI 已经开始自己构建自己。
人类,必须在彻底失控前,构建好自己的规则。
写在最后
这篇万字长文,本质只讲清了一件事:
AI 不再只是工具,它正在成为「自我进化的技术物种」。
过去:AI 的进步,靠人类的聪明。
现在:AI 的进步,靠 AI 自己的迭代。
未来:
人类的价值,不再是「执行」,而是「判断、选择、节制、守护」。
这场由 AI 自主开启的技术革命,
才刚刚开始。
(欢迎点赞、在看、转发,持续关注 AI 前沿核心变革)
本文作者可以追加内容哦 !