AI Coding Team 管理笔记

2026年, 5月2日

不审查代码，审查系统。不信任代码，信任验证。

背景

我写代码几乎 95% 以上是让 AI 写的。Python 后端我可以仔细 review，发现问题让 AI 改。但对于不熟悉的领域——比如 APP 开发、C++、Rust——我没法逐行审查。随着 AI 越来越强，多个 Agent 并行开发，代码量远超我能看的范围。

核心问题：注意力有限，如何保证交付质量？

答案是：从”审查代码”转变为”验证行为”。

马斯克：守住底线

马斯克管理 SpaceX 的方式——他不懂每个零件的制造细节，但他知道物理极限。

他的方法是第一性原理 + Failure Mode Analysis。不管方案多漂亮，他只问一个问题：

最坏情况是什么？

他常说的话：

“给我解释最坏情况”（worst case explanation）
“这个方案的物理极限在哪？”
“如果这个东西失败，最可能因为什么？”

映射到软件——你不需要 review AI 写的 Rust 代码，但你能判断方案在系统层面是否合理：

并发瓶颈在哪？锁的粒度对不对？
分布式场景下会丢数据吗？
依赖的第三方服务挂了，降级策略是什么？

具体执行：让 AI 做 failure mode 分析，你 review 分析结果，不做取舍决策（速度 vs 质量 vs 成本）。

黄仁勋：守住质量

黄仁勋最核心的一个数字：NVIDIA 验证工程师的数量是设计工程师的好几倍。

他的哲学：写代码（设计）是便宜的，验证是贵的。不要试图理解每个细节，但要保证验证系统覆盖每个细节。

对应到 AI 团队管理——先建验证基础设施，再让 AI 干活：

单元测试框架（AI 写，CI 自动跑）
集成测试（核心流程端到端验证）
模糊测试（对 API 自动喂随机输入）
性能基准（每次改动前后对比）
安全扫描（dependency audit + SAST）
lint / 类型检查（任何语言都有成熟工具）
金丝雀部署（灰度发布，线上自动验证）

每个任务的标准流程：

需求明确（你定义）
AI 写实现
AI 写测试
另一个 AI 做 code review
自动跑验证 pipeline
全绿 → 合并，红灯 → 打回

你只看两样东西：验证覆盖率 + 最终通过/失败报告。

核心理念：一个人检查所有人的代码不可扩展，但一套检查系统可以无限扩展。

雷军：守住价值

雷军跟黄仁勋完全不同的思路。黄仁勋建验证体系，雷军会说你搞得太工程师思维了。

雷军的哲学就七个字：专注、极致、口碑、快。

他的做法是基本可用就发布，让用户告诉你哪里不对。MIUI 早期版本 bug 多到离谱，但每周发一版更新，用户疯狂反馈，团队跟着改。

“把砍掉的功能再做精简，还是太多了”
“不要闭门造车，把东西扔出去”
“口碑来自细节，细节来自亲身体验”

具体执行：

不追求完美，追求够快。”能跑、核心功能对，就发布”
每周花一小时，把自己当小白用户，走一遍核心流程
砍功能：先做一个功能做到极致，上线拿到反馈，再决定下一步

自动化测试验证不了的东西——体验、交互、需求真伪——只有真人能告诉你。

最好的 review 是用户的投诉。

三位一体

三个人分别守住不同的维度：

	马斯克	黄仁勋	雷军
守住	底线	质量	价值
防止	出大事才知道	bug 率失控	做一堆没用的
核心动作	问最坏情况	建验证体系	问用户反馈
关键问题	会炸吗	测到了吗	有人用吗

缺任何一个维度都不行：没有马斯克，系统出大事才知道；没有黄仁勋，bug 率控制不住；没有雷军，做了一堆没用的东西。

架构设计怎么做

不是自己写文档，是跟 AI 讨论、拍板、让 AI 写。

你脑子里有想法/方向
       ↓
跟 AI 讨论（可能多轮）
  "我觉得应该用事件驱动，你觉得呢？"
  "并发场景下消息顺序怎么保证？"
  AI 回复 → 你追问 → AI 补充 → 你再质疑
       ↓
你拍板："就这个方案，XX部分用A方案，YY部分用B方案"
       ↓
AI 写架构文档、接口定义、技术方案
       ↓
你 review 文档（确认 AI 有没有理解对你的决策）
       ↓
确认无误，文档就是开发契约

时间分配：

60% 跟 AI 讨论、质疑、头脑风暴
20% 拍板决策（选 A 不选 B，这个优先级高那个先不做）
20% review AI 写的文档和接口定义

你的核心竞争力不是”写文档写得漂亮”，是讨论过程中暴露出来的判断力和决策力。就像 CEO 不会自己写 PPT——CEO 提供观点和判断，秘书（AI）负责整理成文档。

AI 审 AI 的具体模式

Agent A 写代码（sonnet 级别）
Agent B 写测试（sonnet 级别）
Agent C review 代码（opus 级别，不同 prompt）
Agent D review 测试覆盖度（opus 级别）
自动 CI pipeline 跑一遍
全绿 → 合并，红灯 → 信息回到 Agent A 重做

你只需要看最终的通过/失败报告 + review AI 输出的 review 结论摘要。

日常工作分配

25%  跟 AI 讨论架构和方案        ← 核心：讨论、质疑、拍板
15%  review AI 写的文档/接口定义 ← 确认 AI 理解对了你的决策
15%  跟 AI 对话质疑执行方案      ← 第一性原理问问题
15%  Review 验证结果和报告      ← 测试覆盖率、CI 状态、运行指标
10%  端到端手动验证           ← 把自己当用户走一遍
10%  看关键代码，保持直觉      ← 极少数情况
10%  业务决策、外部协调        ← 跟真人相关的事

常见问题速查

情况	该怎么做
不熟悉 AI 用的语言	只看测试结果和 CI 报告，不看代码
多个 AI 并行开发	先建好验证体系，再让他们开工
不确定 AI 写的对不对	问 AI “失败模式是什么”
不知道功能该不该做	先做最小版本给用户，用反馈决定
代码量太大看不过来	专注看架构图和数据流，不看实现
AI 写的代码有性能问题	看 profiling 结果，不看代码本身
担心安全漏洞	配好 SAST 扫描和 dependency audit
不知道质量如何	看测试覆盖率和线上监控指标

写在最后

你的角色不是不懂技术的 PM，是懂物理定律的系统架构师。

PM 只管”要做什么”，你管”怎么做才不会炸”。你不是在管理一群程序员，你是在建设一个质量保障体系，然后让 AI 在这个体系里自由发挥。