AI Native 开发最佳实践

徐昊 · Optima AI 创始人

人团队

个月

个仓库

126万

行代码

8000+

次 Commit

在线体验 → www.optima.onl

// Part 0 — 成果展示

数据概览

3 人团队，6 个月，全程 Claude Code 开发。

126万

行代码

8,105

次 Commit

个仓库

4,600+

个测试用例

280+

CLI 命令

500+

API 端点

我们造了什么

以下产品全部由 3 人团队 + Claude Code 完成。

🛒

跨境电商平台

完整电商后台，支持多渠道、多币种、多语言

500+ API 4600+ 测试

🤖

AI Agent 框架

自研 Agent 框架，13+ Skills，4 种执行模式

3 天完成 177 commits

⚡

AI Shell

5 包 Monorepo，WebSocket 实时通信

Lambda+EFS 实时流式

🔗

多渠道集成

Amazon 全量数据、TikTok 内容+电商、Instagram、1688 图搜

4 大平台全自动化

📊

AI 原生 BI

ClickHouse OLAP + Kafka CDC，多层缓存 50-1000x 加速

197 commits Web Dashboard

📢

Google Ads 投放

广告系列管理，CLI + Backend 双包 Monorepo

67 commits CLI + API

🔍

AI 智能选品

对话式选品，Amazon 数据分析 + 1688 供应商匹配

147 commits MCP + Skills

🎨

AI 素材生成

图片视频素材 AI 生成，支持多种模型后端

ComfyUI DashScope

☁️

云基础设施

Terraform IaC，CI/Stage/Prod 三套环境

全自动部署监控告警

系统架构

5 层分层架构，34 个仓库，从用户交互到基础设施全链路覆盖。

用户交互层

Agentic ChatAI 对话界面

Optima Store买家商城 · Next.js

Admin Panel管理后台

↓ ↑

Agentic AI 层

Gateway统一 WebSocket 网关

AI Shell容器化执行 · Lambda+EFS

Optima Agent13 Skills · Claude SDK

↓

CLI 工具层 · 280+ 命令

Commerce CLI16 模块 · 电商管理

Comfy CLI图片视频生成

Scout CLI选品调研

BI CLI数据分析

Ads CLIGoogle Ads

Ops CLI运维监控

↓

业务服务层

Commerce Backend500+ API · Python

User AuthOAuth 2.0

BI BackendClickHouse · Kafka CDC

Scout BackendAmazon 数据

Ads BackendGoogle Ads API

↓

基础设施 · 数据存储

PostgreSQL多库隔离

ClickHouseOLAP 分析

Redis缓存 · 队列

S3 / EFS对象存储 · CDN

TerraformIaC · 3 套环境

极限速度

3 天

完成 AI Agent 框架从零到可用 177 次 commit · 单日峰值 70 次

3 天

亚马逊渠道集成开发完成 31 次 commit · +22,656 行代码

3 人团队

完成传统 20-30 人团队的产出 126 万行代码 · 30 个仓库 · 6 个月

Optima AI 做跨境电商 AI 平台，核心团队 3 个人，6 个月写了 126 万行代码，30 个仓库，8000 多次 commit。全程用 Claude Code 开发。

这个代码量和系统复杂度，按传统模式至少需要 20-30 人的团队。我们 3 个人做到了，靠的不是加班，而是从根本上改变了开发方式。

今天分享的不是理论，是我们踩了 6 个月坑之后总结出来的实战经验。分两部分：个人怎么用好 Claude Code，以及团队怎么围绕它协作。

AI Native 开发最大的变化，是工程师的角色从"写代码的人"变成了"做决策的人"。 学习、设计方案、审方案、理解原理、搭建工具链——这些才是人类该做的事。写代码交给 AI。

// Part 1 — 个人开发

01先学习、再做方案、再写代码

📚

学习

1-2 小时

拿 Claude Code 当老师
追问到能评判方案好坏

产出：知识储备 · 学习文档

70%+ 时间

→

📐

技术方案

2-4 小时

架构设计 · 模块拆分
边界条件 · 验收标准

产出：1000+ 行技术文档

→

⌨️

写代码

0.5-2 小时

Claude Code 执行方案
一次性通过率极高

产出：功能代码 + 测试

最短环节

为什么这是第一条

5000 行代码不过 30 分钟的事情。但写代码快，从来不是我们效率高的原因。真正的原因是：我们花了大量时间在写代码之前。

学习、做技术方案、审方案——这三步占了整个开发周期 70% 以上的时间。写代码反而是最短的环节。

学习 1-2h

→

技术方案 2-4h

→

写代码 0.5-2h

第一阶段：学习

这是最容易被跳过的一步，也是最不应该跳过的一步。正确的做法是：先花 1-2 个小时，拿 Claude Code 当老师，上一课。

不是泛泛的问题，而是有深度的、追根究底的问题。每一个回答之后还要追问。结束的标志是：你觉得自己对这个领域的理解，已经足够去评判一份技术方案的好坏了。

极致案例：花 1 天学 AWS，产出了 41 篇文档、32,000 多行内容，覆盖 35 个 AWS 核心知识点。学习过程本身也产出了可复用的知识库。

第二阶段：做技术方案

Claude Code 缺少"边写边思考"的能力。你给它一个方案，它就照着方案写。方案里没提到的东西，它大概率不会主动考虑。必须把思考前置到方案阶段。

commerce-backend 在写任何一行代码之前，先有一份 1645 行的架构文档（ARCHITECTURE.md）。optima-business 先写了 1100 行的 TECH_SPEC.md。先有方案，再有代码。

第三阶段：写代码

方案做好了，写代码反而是最快的环节。5000 行代码 30 分钟，配合详尽的技术方案，一次性通过率非常高。

学习阶段实操建议

带着目标学——列出不确定的问题，一个一个问
追问到底——每一层回答都继续追问细节
要求对比——技术选型让它列对比表
问失败案例——"什么情况下会出问题？"
让它出题考你——答不上来的说明还没学透
沉淀成文档——让 Claude Code 整理讨论成文档

技术方案实操建议

不要一次让它写完整方案，先写大纲再展开
逐模块讨论，一个一个来
要求写清楚"为什么"
让它画图（Mermaid）
关注边界条件
给方案写验收标准

AI Native 开发中，写代码是最不重要的环节。学习和方案设计，才是你应该花最多时间的地方。

02选对工程基础设施

🔷

TypeScript

类型安全

训练数据最多，AI 一次性通过率最高。静态类型是 AI 代码质量的第一道防线。

30 个仓库全部 TS

📦

Monorepo

上下文共享

Claude Code 只能看当前仓库。Monorepo 让它自然看到所有相关代码，前后端一次改完。

5 包 Monorepo × 多个仓库

📋

CLAUDE.md

项目知识

隐性知识显性化。架构、约定、陷阱、流程，一份文件让 AI 理解整个项目。

最长 1,062 行

类型安全 + 上下文共享 + 项目知识 = 质变

三个关键选择决定了效率天花板：TypeScript、Monorepo、CLAUDE.md。

TypeScript：让 AI 写的代码有静态检查

我们 30 个仓库，全部用 TypeScript。前端、后端、CLI、SDK、Lambda、基础设施脚本，无一例外。

训练数据量最大——Claude Code 对 TypeScript 的理解最深、一次性通过率最高
静态类型检查是刚需——能在编译阶段捕获大量错误，是 AI 代码质量的第一道防线
前后端同一种语言——类型定义共享，接口定义复用，前后端数据结构完全一致
生态丰富——NPM 是世界上最大的包管理器

Monorepo：让 Claude Code 看到完整上下文

Claude Code 只能看到当前仓库里的代码。Monorepo 让它自然而然就能看到所有相关代码——在写前端组件时直接去看后端的 API handler，确保请求格式完全一致。

案例：optima-ai-shell 一个仓库包含 5 个 TypeScript 包（ai-cli、session-gateway、web-ui、lambda-handler、agentcore-adapter），密切依赖，Claude Code 可以一次性改完所有相关代码。

CLAUDE.md：项目的知识库

CLAUDE.md 是你给 Claude Code 的项目说明书，决定了它对项目的理解深度。本质是把隐性知识显性化。

一份好的 CLAUDE.md 包含：项目概览、架构设计、开发约定、常见陷阱、开发部署流程、重要业务逻辑。

我们 30 个仓库几乎每个都有 CLAUDE.md。最短 148 行，最长 1062 行。commerce-cli 660 行，commerce-backend 521 行。

三个选择的效果是叠加的。TypeScript 给了类型安全，Monorepo 给了上下文共享，CLAUDE.md 给了项目知识。三者一起，质变。

03让 Claude Code 大量写自动化测试

截图: 自动化测试

你不知道 AI 写的代码对不对，但测试可以告诉你。在 AI Native 开发中，测试是"生存必需品"。没有测试的 AI 生成代码，就是一个黑箱。

两道防线：静态类型 + 自动化测试

防线	捕获问题	阶段
静态类型检查	参数类型不对、返回值不匹配、字段名拼错	编译时
自动化测试	业务逻辑错误、边界条件、异常处理	运行时

测试代码比例 1:1

功能代码行数和测试代码行数大致 1:1。传统团队做到 30% 覆盖率就不错了，但关键区别是：传统团队的测试是人写的，成本高；我们的测试是 Claude Code 写的，成本几乎为零。

案例：commerce-backend 的 1555 个测试

1555 个测试用例，100% 通过率。覆盖 47 个数据模型的 CRUD 操作、45 个 Service 的业务逻辑、API 端点验证、权限控制、异常处理。

这 1555 个测试，都是 Claude Code 写的。你只需在让它写功能代码时附上一句"顺便把测试也写了"。

CI 集成：测试是合并的门禁

每次 PR 提交，CI 自动执行：TypeScript 编译检查 → ESLint 静态分析 → 全量测试。三步全过，PR 才允许合并。

让 Claude Code 大量写测试，是 AI Native 开发中成本最低、收益最高的实践。不要省这个"免费的保险"。

04多开是效率的来源

截图: 多开并行开发

并行度	日产出
1 开	~5,000 行
4 开	~20,000 行
8 开	~30,000+ 行

日常 4 开，忙的时候 8 开。一个仓库一个 Claude Code 实例，同时推进多个仓库的任务。

多开的三个前提

技术方案必须足够细——多开本质上是对前置工作质量的兑现
每个仓库都有好的 CLAUDE.md——相当于给多个"新员工"发同一份入职手册
完善的测试——没有测试的多开，就像蒙着眼睛开多辆车

案例：optima-agent 三天 177 次 commit

2025 年 11 月 28 日到 30 日，三天时间产生了 177 次 commit，单日最高 70 次。三天完成一个完整的 AI Agent 框架。

多开与技术方案的关系

方案做到 60 分，只敢单开。方案做到 80 分，可以 2-3 开。方案做到 95 分，可以 6-8 开。你在技术方案上花的每一分钟，都在为多开创造空间。

3 个人写 126 万行代码，不是超人式的努力，是并行化带来的数学必然。

05要充分理解代码原理

Debug 协作模式

分析代码

读源码、追调用链
定位可疑区域

→

提出假设

给出可能的
原因和修复方案

→

Human

验证方向

凭架构理解
判断假设是否合理

→

执行修复

按正确方向
写代码修复

126 万行代码看过不到 1%，但 理解架构 = 能给出正确方向

126 万行代码，我看过的不到 1%。但每个模块做什么、模块之间怎么交互、数据怎么流转、关键设计决策是什么，这些我都很清楚。这就够了。

"理解原理"意味着什么

知道架构和数据流——系统有哪些组件，它们之间怎么通信
知道设计决策背后的原因——为什么选 WebSocket 而不是 SSE？
知道每个组件的失败模式——WebSocket 断连、数据库超时、消息队列积压
不需要知道每一行代码——126 万行代码看不完，也不需要看完

核心 Debug 模式

Claude Code 分析代码

→

提出假设

→

人类验证方向

→

Claude Code 修复

案例：AI Shell 消息推送乱序

Claude Code 诊断为"网络延迟导致乱序"。但我了解架构——WebSocket 单连接、TCP 保序，网络延迟假设说不通。真正原因是异步数据库写入的顺序问题。给出正确方向后，十几分钟修复。

一个正确的方向性建议，抵得上十次错误的代码修改。人类的核心价值是方向判断。

// Part 2 — 团队协作

06给你的后端写个 CLI

Claude Code + API 慢且易错

1. 获取 auth token
2. 拼 Authorization header
3. 构造 JSON body
4. 拼完整 URL + query params
5. 发送 curl/fetch 请求
6. 解析返回的 JSON
7. 处理错误码和异常

每一步都可能出错 ✗

Claude Code + CLI 快且可靠

1. optima product create --title "Test" --price 29.99

一行命令，直接出结果 ✓

让 Claude Code 测一遍 API 端点，远比让它跑一条 CLI 命令慢得多，也更容易出错。

测 API 要处理什么？认证 token、请求头、请求体格式、URL 拼接、错误码解析——每一步都可能出问题。但 CLI 就是一行命令、一段输出，Claude Code 天然擅长。

CLI 让 Claude Code 能随意组合测试

有了 CLI，你可以直接在 Claude Code 里按任意需要组合功能来测试。不需要写测试脚本，不需要配 Postman，想测什么直接说。

# 创建商品 → 设置库存 → 创建订单 → 全流程验证
optima product create --title "Test" --price 29.99
optima inventory set --sku SKU-001 --quantity 100
optima order create --items '[{"sku":"SKU-001","qty":1}]'
optima order list --status pending --pretty

同样的流程如果走 API，Claude Code 需要处理认证、拼 curl、解析返回值，每一步都可能卡住。CLI 把这些全部封装了。

案例：commerce-cli

我们给 commerce-backend 写了完整的 CLI 封装：19 个模块、280+ 条命令，覆盖商品、订单、库存、物流、退款、国际化等全部操作。

写 CLI 本身也是 Claude Code 最擅长的事——纯逻辑、纯文本、不涉及 UI，一次性通过率非常高。我们的 CLI 模块基本都是 Claude Code 一次写完的。

额外收益：CLI 可以直接给 AI Agent 用

我们最初写 CLI 是为了给 Claude Code 的 Skills 调用，替代 MCP 协议。但发现这套 CLI 同时解决了开发测试、人工运营、AI Agent 自动化三个场景。一套命令，三种用户。

写个 CLI 永远不亏。Claude Code 写得快、测得准、还能直接复用给 AI Agent。

07做团队自己的 Dev Skills

optima-dev-skills

7 Skills · 按需加载

/logs

查看服务日志（CloudWatch）

CIStageProd

/query-db

查询数据库，自动 SSH 隧道

CIStageProd

/generate-test-token

自动注册 + OAuth + 拿 Token

Dev

/show-env

查看环境变量（Infisical）

StageProd

/restart-ecs

重启 ECS 服务

StageProd

/read-code

跨仓库读代码（GitHub API）

30 repos

安装：npm i -g @optima-chat/dev-skills → 自动注入 ~/.claude/

CLAUDE.md 是随身带的笔记本。Skills 是办公桌抽屉里的操作手册，需要的时候才拿出来翻。按需加载的知识文件。

7 个自定义 Skill

Skill	行数	功能
logs	205	通过 CloudWatch 查看服务日志（CI/Stage/Prod）
query-db	211	查询数据库，自动管理 SSH 隧道
generate-test-token	331	自动注册测试账号、走 OAuth 流程、拿 Token
show-env	185	通过 Infisical 查看环境变量
use-commerce-cli	64	commerce-cli 使用说明
read-code	207	跨仓库读取代码（GitHub API）
restart-ecs	-	重启 ECS 服务（Stage/Prod）

实战案例："Stage 的商品 API 返回 500"

开发者只说了这一句话。Claude Code 自动：查日志 → 发现 Database connection timeout → 查配置 → 发现 max_connections 过小 → 给出修复方案。全程全自动。

分发机制

npm install -g @optima-chat/dev-skills@latest

一行命令搞定。NPM 包的 postinstall hook 自动复制 Skill 文件到 ~/.claude/。

Dev Skills 的本质：把"怎么操作"从人的记忆搬到 AI 的能力里。机构知识的编码化。

08充分利用 GitHub Issues 和 PR

截图: GitHub Issues & PR

团队成员之间的技术沟通，很大程度上是通过 Claude Code 写的 GitHub Issues 来完成的。Claude Code 永远不会偷懒。每个 issue 都像一份完整的技术报告。

跨仓库沟通

A 仓库的 Claude Code 发现了 B 仓库的问题，直接通过 gh 命令在 B 仓库创建 issue，把所有技术细节写进去。B 仓库的 Claude Code 打开 issue，直接开始修复。

真实案例

Issue #33（23 个命令缺失）——Claude Code 自动对比 MCP 和 CLI 功能，发现 23 个缺失。同一天 PR #34 提交：17 个 commit、45 个文件、+4202 行代码。一天之内闭环。
Issue #9（AI 输出格式优化）——Claude Code 发现表格格式浪费 50% 以上 token，推动了默认 JSON + --pretty 的设计决策
Issue #94（跨仓库 JWT 错误）——在 hub 仓库发现问题，根因在 backend。Claude Code 自动创建跨仓库 issue 传递完整上下文

Issues + PR 变成了一个自动维护的知识库。不需要额外的文档写作工作，知识沉淀是开发流程的副产品。

09让 Claude Code 做 Code Review

截图: AI Code Review

两层审查

层级	审查者	审什么
第一层	Claude Code	测试覆盖、安全问题、性能问题、代码风格、错误处理
第二层	人类	架构决策、业务逻辑、系统设计的长期影响、方案合理性

案例：commerce-backend 全面 Code Review

产出了一份 291 行的评审报告，从 8 个维度评分：

维度	评分
API 设计	9/10
数据库设计	9/10
测试覆盖	9/10
国际化	8.5/10
服务架构	8/10
安全性	7.5/10
错误处理	7.5/10
性能	6.5/10

还给出了三阶段修复计划：立即修复（安全）→ 1-2 周（性能）→ 3-8 周（架构优化）。

让贵的人做贵的事，让 AI 做重复的事。 Code Review 不再是做不做的选择题，它应该是每个团队的标配。

10充分利用 Claude Code 的文档能力

截图: 文档能力

当一个东西的成本从"一周"降到"几小时"，你对待它的态度就应该变。

Claude Code 擅长写的文档

架构文档——60KB 覆盖 30 个仓库的完整架构（OPTIMA_COMMERCE_ARCHITECTURE.md），含 Mermaid 图
月报——自动分析 325 次 commit、14 个活跃仓库，产出结构清晰的技术月报
技术 RFC——753 行的并发对话串台问题 RFC，经 5 轮评审通过
API 文档和新人引导——从零到卖货的完整 Getting Started Guide
学习文档——41 篇 AWS 学习文档，学习过程自动产出知识资产

不止文档：你现在看的这个网页

每个都是 Claude Code 从零生成，从需求到上线不超过一天。不用再做 PPT 了——直接让 Claude Code 生成网页，又快又好，还能随时更新。

PPT 做完就死了。网页是活的——可以加链接、嵌截图、点击放大、响应式适配手机、一键部署到公网。信息密度和表现力都远超 PPT。

文档和 AI 的正循环

好的文档 → 更好的 AI 理解 → 更好的代码和文档产出 → 更好的文档。你选择进入哪个循环，直接决定了团队使用 AI 的效率上限。

把文档当作基础设施来投资，而不是当作成本来控制。在 AI Native 开发的世界里，文档不是负担，是杠杆。

11用 Claude Code 做 BI 分析

截图: BI 分析

传统 BI vs Claude Code BI

	传统 BI	Claude Code BI
定量分析	DAU、转化率、Token 消耗	同上
定性分析	做不了	从对话记录提炼系统问题、用户画像
回答的问题	"发生了什么"	"为什么发生"

系统问题分析

分析 9 个对话、10 位用户，发现 7 个系统问题。每个问题都有具体错误信息、涉及用户、根因分析和改进建议。

用户画像

Claude Code 读完每个用户几百条对话后理解出用户画像——重度运营用户、单品类深度研究型、新卖家冷启动型。这些不是从数据库字段拼的，是理解出来的。

传统 BI 告诉你"DAU 下降了 23%"，Claude Code 告诉你为什么。相当于每周做一次全面的用户调研，成本几乎为零。

// 如何开始

三个场景，三种路径

听完方法论，下一步是什么？取决于你的场景。

SCENARIO 01

存量试水

已有项目，零风险切入。补测试、写文档、做 BI 分析——不碰生产代码，立刻看到 AI 产出。

零风险当天见效建立信心

→

SCENARIO 02

增量验证

新项目，3 人交付 20 人的活。证明 AI Native 的经济模型：成本降 70%，利润率 50%+。

3 人小队成本 -70% 数据说话

→

SCENARIO 03

产品化

做 Coding Agent 产品给客户。中国企业市场没有领导者，IT 服务商比模型厂商更懂企业需求。

市场空白企业刚需先发优势

场景一：已有的内部项目

存量项目有三个零风险的切入点，今天就能开始。

1. 补自动化测试——存量项目最大的障碍是"没有测试、不敢动"。让 Claude Code 先给核心模块补上测试，零风险、立刻见效。有了测试，后续改 bug、加功能都可以放心交给 AI。

2. 写文档——让 Claude Code 读完整个仓库，产出架构文档、API 文档、部署手册。以前写文档要一周，现在几小时。文档本身就有价值，同时 CLAUDE.md 让 AI 理解项目上下文，为后续协作打基础。

3. 做 BI 分析——让 Claude Code 直接读数据库、读日志，生成分析报告。不需要改任何代码，纯只读操作，零侵入。管理层立刻看到 AI 产出价值。

写 CLAUDE.md

→

补测试 + 写文档 + BI

→

改 bug / 加功能

→

逐步扩大范围

三件事都是零风险、不碰生产代码，但能让团队立刻看到 AI 的产出能力。信心建立起来了，后续推进就顺了。

场景二：新项目，用 3 人交付 20 人的活

AI Native 开发让小团队具备大团队的交付能力。这会重塑 IT 服务的经济模型。

挑一个真实的客户项目——行业 SaaS、数据中台、API 中台都行——组一个 3 人小队：

1 人架构师——写 CLAUDE.md、定技术方案、做 Code Review。不写代码，只把控方向和质量。
2 人 AI 操作员——每人同时开 2-4 个 Claude Code 实例。日常工作是：拆任务、给 AI 下指令、审结果、合代码。

节奏：第 1 周只搭基础设施（TypeScript + Monorepo + CI + CLAUDE.md），不写业务代码。第 2 周开始业务开发，每天 50-70 commit 是正常速度。2-3 个月交付，传统方式要半年 20 人。

算一笔账：成本降 70%，交付速度快一倍，利润率从 10-15% 拉到 50%+。一个项目跑通，数据本身就是最好的汇报材料。

场景三：做 Coding Agent 产品给客户用

Coding Agent 会成为写代码的水和电。中国企业市场目前没有领导者。

中美之间的技术壁垒意味着 Claude Code 这样的产品进不了国内。但需求是真实的——每一个写代码的团队都会需要 Coding Agent，就像每个团队都需要 Git 和 CI 一样。这是一个确定性极高的巨大市场，而且目前没有人占住企业这个位置。

为什么是现在：国内大模型的编码能力正在快速追赶（DeepSeek、Qwen），底层能力的差距在缩小。但光有模型不够——企业客户需要的是：私有化部署、数据合规、行业定制、与内部工具链集成。这些恰恰是模型厂商不擅长、而 IT 服务商擅长的。

怎么做：基于 OpenCode 等开源 Coding Agent 框架构建，接入多种国产模型，不绑定单一供应商。先在自己的项目里跑通全流程（场景一和场景二），积累实战经验，然后把这套能力产品化，卖给客户。

先做起来，比等模型成熟更重要。今天先把 Agent 产品的架构和场景跑通，等模型能力再上一个台阶，就是直接起飞。

不管哪个场景，最重要的是现在就开始。AI Native 开发不是未来的事——它已经在发生。先跑起来的团队，积累的经验本身就是壁垒。

// 附录

12常见问题与局限

踩过的坑

不做方案直接让 AI 写——改了五六轮推倒重来，技术方案做好后 30 分钟一次通过
多开合并冲突——两个实例改了同一个公共模块，花了大半天理清。教训：每个 Claude Code 实例使用单独的 Git Worktree，物理隔离工作目录，合并时才处理冲突
用 Python 写后端——大量时间花在检查和修正 lint 错误上。动态类型语言的 lint 规则多且碎，AI 经常顾此失彼。换 TypeScript 后这类问题几乎消失——这也是我们强烈推荐 TypeScript 的原因之一

UI 开发：精确复现设计稿仍是难点

后端逻辑、CLI、测试这些 AI 写得很好，但前端要精确还原设计稿（像素级对齐、交互细节、响应式适配）目前仍有明显差距。

这不只是我们的问题——国内外大厂都在投入多模态 Coding Agent 研究。我们自己的 iSING Lab 研究课题显示：

模式	准确率
文本 Coding Agent	~80%
视觉输入（截图→代码）	~36%
差距	43 个百分点

这是当前整个行业的研究热点。实际操作中，后端逻辑基本一次通过，前端还原设计稿需要 AI 反复调整多轮才能到位——接受这个节奏，不要期待一步到位。

关于代码质量

单论代码质量——命名规范、错误处理、风格一致性——Claude Code 写的代码在任何情况下都比人写的好。真正依赖技术方案质量的，是业务逻辑的正确性。方案粗糙，AI 会写出漂亮但逻辑错误的代码；方案清晰，AI 一次通过的概率极高。

Claude Code vs Codex vs Gemini CLI

	Claude Code	OpenAI Codex	Gemini CLI
模式	终端 Agent	云端沙箱	终端 Agent
模型	Claude Sonnet/Opus	codex-mini (o4-mini)	Gemini 2.5 Pro
本地文件访问	直接读写	需上传到沙箱	直接读写
多开并行	4-8 个实例	支持多任务	支持
工具生态	MCP + Skills + Hooks	有限	MCP + Extensions
工程能力体感	断层领先	轻量任务可用	快速追赶中

实际体感：Claude Code 在大型项目中理解上下文、做架构决策、一次性写对复杂逻辑的能力明显领先。Codex 能力不差，但云端沙箱模式导致每个任务都要等，节奏明显慢，不适合需要快速迭代的场景。Gemini CLI 响应快，但在复杂工程任务上的理解力和 Claude 有明显差距，经常需要多轮纠正。

以上为个人主观使用体感，未做系统化定量评测。所有工具都在快速演进，仅供参考。

数据安全

企业最关心的问题：代码会不会被模型厂商拿去训练？

Claude Code——Anthropic 明确承诺：API 调用的数据不用于模型训练。代码在传输和处理过程中加密，不会被存储或学习。对于大部分企业项目，这个保障已经足够。
AWS Bedrock——如果需要更强的隔离，可以通过 AWS Bedrock 调用 Claude，数据不出你的 AWS 账户。适合对数据驻留有合规要求的企业。
完全本地部署——对于政府、金融等涉密场景，可以用 OpenCode + 国产模型（DeepSeek、Kimi K2），代码完全不离开内网。能力有差距，但数据安全零风险。

知识产权

中国法院认定：AI 生成内容如果体现了使用者的独创性贡献，使用者享有完整著作权。"先学习、做方案、审方案、再让 AI 写代码"的流程，天然就是大量人类智力投入的证据。

供应商依赖

11 条实践中大部分不依赖特定工具。核心资产沉淀在 CLAUDE.md、测试、文档、Issues/PR 里——这些都是标准格式的文件，不绑定任何工具。OpenCode 是成熟的开源替代。