AI Coding Team 管理笔记

不审查代码,审查系统。不信任代码,信任验证。

背景

我写代码几乎 95% 以上是让 AI 写的。Python 后端我可以仔细 review,发现问题让 AI 改。但对于不熟悉的领域——比如 APP 开发、C++、Rust——我没法逐行审查。随着 AI 越来越强,多个 Agent 并行开发,代码量远超我能看的范围。

核心问题:注意力有限,如何保证交付质量?

答案是:从”审查代码”转变为”验证行为”。

马斯克:守住底线

马斯克管理 SpaceX 的方式——他不懂每个零件的制造细节,但他知道物理极限。

他的方法是第一性原理 + Failure Mode Analysis。不管方案多漂亮,他只问一个问题:

最坏情况是什么?

他常说的话:

映射到软件——你不需要 review AI 写的 Rust 代码,但你能判断方案在系统层面是否合理:

具体执行:让 AI 做 failure mode 分析,你 review 分析结果,不做取舍决策(速度 vs 质量 vs 成本)。

黄仁勋:守住质量

黄仁勋最核心的一个数字:NVIDIA 验证工程师的数量是设计工程师的好几倍。

他的哲学:写代码(设计)是便宜的,验证是贵的。不要试图理解每个细节,但要保证验证系统覆盖每个细节。

对应到 AI 团队管理——先建验证基础设施,再让 AI 干活:

每个任务的标准流程:

  1. 需求明确(你定义)
  2. AI 写实现
  3. AI 写测试
  4. 另一个 AI 做 code review
  5. 自动跑验证 pipeline
  6. 全绿 → 合并,红灯 → 打回

你只看两样东西:验证覆盖率 + 最终通过/失败报告

核心理念:一个人检查所有人的代码不可扩展,但一套检查系统可以无限扩展。

雷军:守住价值

雷军跟黄仁勋完全不同的思路。黄仁勋建验证体系,雷军会说你搞得太工程师思维了。

雷军的哲学就七个字:专注、极致、口碑、快。

他的做法是基本可用就发布,让用户告诉你哪里不对。MIUI 早期版本 bug 多到离谱,但每周发一版更新,用户疯狂反馈,团队跟着改。

具体执行:

自动化测试验证不了的东西——体验、交互、需求真伪——只有真人能告诉你。

最好的 review 是用户的投诉。

三位一体

三个人分别守住不同的维度:

 马斯克黄仁勋雷军
守住底线质量价值
防止出大事才知道bug 率失控做一堆没用的
核心动作问最坏情况建验证体系问用户反馈
关键问题会炸吗测到了吗有人用吗

缺任何一个维度都不行:没有马斯克,系统出大事才知道;没有黄仁勋,bug 率控制不住;没有雷军,做了一堆没用的东西。

架构设计怎么做

不是自己写文档,是跟 AI 讨论、拍板、让 AI 写。

你脑子里有想法/方向
       ↓
跟 AI 讨论(可能多轮)
  "我觉得应该用事件驱动,你觉得呢?"
  "并发场景下消息顺序怎么保证?"
  AI 回复 → 你追问 → AI 补充 → 你再质疑
       ↓
你拍板:"就这个方案,XX部分用A方案,YY部分用B方案"
       ↓
AI 写架构文档、接口定义、技术方案
       ↓
你 review 文档(确认 AI 有没有理解对你的决策)
       ↓
确认无误,文档就是开发契约

时间分配:

你的核心竞争力不是”写文档写得漂亮”,是讨论过程中暴露出来的判断力和决策力。就像 CEO 不会自己写 PPT——CEO 提供观点和判断,秘书(AI)负责整理成文档。

AI 审 AI 的具体模式

Agent A 写代码(sonnet 级别)
Agent B 写测试(sonnet 级别)
Agent C review 代码(opus 级别,不同 prompt)
Agent D review 测试覆盖度(opus 级别)
自动 CI pipeline 跑一遍
全绿 → 合并,红灯 → 信息回到 Agent A 重做

你只需要看最终的通过/失败报告 + review AI 输出的 review 结论摘要。

日常工作分配

25%  跟 AI 讨论架构和方案        ← 核心:讨论、质疑、拍板
15%  review AI 写的文档/接口定义 ← 确认 AI 理解对了你的决策
15%  跟 AI 对话质疑执行方案      ← 第一性原理问问题
15%  Review 验证结果和报告      ← 测试覆盖率、CI 状态、运行指标
10%  端到端手动验证           ← 把自己当用户走一遍
10%  看关键代码,保持直觉      ← 极少数情况
10%  业务决策、外部协调        ← 跟真人相关的事

常见问题速查

情况该怎么做
不熟悉 AI 用的语言只看测试结果和 CI 报告,不看代码
多个 AI 并行开发先建好验证体系,再让他们开工
不确定 AI 写的对不对问 AI “失败模式是什么”
不知道功能该不该做先做最小版本给用户,用反馈决定
代码量太大看不过来专注看架构图和数据流,不看实现
AI 写的代码有性能问题看 profiling 结果,不看代码本身
担心安全漏洞配好 SAST 扫描和 dependency audit
不知道质量如何看测试覆盖率和线上监控指标

写在最后

你的角色不是不懂技术的 PM,是懂物理定律的系统架构师

PM 只管”要做什么”,你管”怎么做才不会炸”。你不是在管理一群程序员,你是在建设一个质量保障体系,然后让 AI 在这个体系里自由发挥。

返回

留言 - GitHub Issues | 订阅 - RSS源 |联系 - 关于我