I planned a book, 7 Coding Agents in 7 Weeks. In the end, I only had two days—and this Chinese article was all I could manage.
Summon Shenron! A Review of the Wish-Granting Power of 7 AI Programming Agents.
测评原因及声明
声明:以下测评内容没有经过任何 AI 的润色或者重写,所以你发现了 AI 味道,那一定是我被影响了,欢迎指出拯救我的 AI 味,如同我的老登味一样
时光飞快,日月如梭,转眼到了中年,到了看到任何科技都是异端的年纪,但是谁会拒绝拥有一个言出法随,言听计从的智能体呢?如果一个不行,那就再来一个,于是,一个接着一个,我一不小心拥有了 7 个,那么就不妨来个个人风格横向测评吧!
本次测评纯属我个人行为,无任何一拍即合的商业合作。
本次测评使用的方法是不严谨的,仅供我个人记录回忆以及和朋友们的交流使用,您可以看作这是一次娱乐。
测评方式
由于我们是测试比较 AI coding 智能体,而不是 LLM 大模型,所以为了尽量避免苹果和梨放在一起比较的尴尬,我还是控制了一下测试变量,如果硬要说我这个测试方式还是拿苹果和梨放在一起比较,那您一定是对的,只要定语加的足够多,我相信您的结论。但我这篇文章是没有定语的,测评的是全球范围的,不限制商业或者开源,但是受到一些合理工程成本限制的 AI Agent 们的能力。
测试方式是日常开发使用场景,介绍一下背景,我是 15 年的 Rails 程序员,15 年的.Net 程序员,毕业在外企工作了 7 年,互联网公司 5 年,建筑设计公司 6 年。日常使用场景在被测试的 coding agent 上使用的方式都完全相同,coding agent 能接触到的工具就是他们自己的工具,使用的模型总是使用 coding agent 推荐的。如果默认的模型做出的结果不好,我会选择更加强力的模型再试一次。
所有测试都是在本机上测试,环境是 MacOS 15.7.2,homebrew 安装的开发工具集,命令行工具也是系统自带,如果 coding agent 有内置的工具,比如 kimi-cli 就会自动安装 ripgrep,那么 kimi-cli 就用的是它自带的工具。
所有 coding agent 的配置选项都是默认,如果 coding agent 有能力搜索 web,那它就可以搜索 web,如果 coding agent 有做 RAG,那就允许,不会做任何的限制。
所有 coding agent 的测试都只考虑结果是否正确,不会特别考察 agent 的运行速度。
另外关于测试题目,因为都是我的日常开发场景,所以必然有难有容易,也很难特别考虑区分度,我也不会在测评最后打分,因为我不想排序,作为成年人,我可能会排出掉 2~3 个 coding agent 后,余下的我都要。这个策略是现实中非常合理的,如果你日常大量使用 coding agent 的话,应该和我一样感到一个 coding agent 是肯定不够用的,但是如果直接买 200 美刀的 ultra 版本,显然也非常吃亏。
目前我的常驻付费 coding agent 分别是 cursor 和 openai codex,opencode 也是我日常天天使用的,opencode 的付费是按照 token 用量,对于按照 token 用量的,我一般会一直保留使用,但是对于订阅的,我还是会评估,并进行成本优化。
没有纳入测试对象及原因
- windsurf,只有 GUI,没有会员,不测试了。
- augmentcode,没有会员,不测试了。
- aider,2025 年 8 月后就没发新版本。
- cline,被 roo cline fork 了,感觉社区治理有问题,另外只做 VS Code 插件,但是我不喜欢微软,也没装 VScode。
- roo cline,分叉 cline,感觉不尊重开源,另外也只有 VSCode 插件。
- kilo,只有 VSCode 插件的不测评。不过 MiniMax M2 目前免费,好评!
- qwen-code,没时间,下次一定!
- goose,Rust 写的,又不是 OpenAI,应该赶不上 AI coding agent 的快速演进,忽略,另外名字起的也差,呆头鹅…,币圈的品味一言难尽。
- warp,Rust 写的,UI 看起来品味真好,但是 20 美刀的订阅,下次一定!
- IFLOW,官网紫色,直接就想 pass 了,本着认真负责的精神,又看了文档站,全站没提到收费,怀疑有坑,坚定 pass。
- forgecode,Rust 写的,发版本 5 天前,在一个快速发展的领域,真的不建议用 Rust 写,不过一个月 20 美刀 500 次的用量给的倒是非常慷慨,考虑撸一下羊毛?(算了,我是好人)
- plandex,官网不接受新用户?看一眼最后递交,上个月,可能不行了吧。🙏
- crush,Go 写的,又开源,没啥黑点,
- open hands,Basecamp 风格的官网挺喜欢的,但是不知道他们要买啥,可能是团队应用?40 美刀起始直接劝退了我。
- amazon Q,官网介绍为啥要介绍 Java 的升级?显然不是面向我们非 Java 程序员的,定价很特殊,19 美刀一个月,4,000 LOC 的配额,我看了一眼我才用了 10 天的 cursor dashboard,代码改动 28678 accept,按照 AWS 的价格,24000x0.003=72 USD,简直是贵到飞起!
- Amp CLI,这不是王垠喷过的公司么?要不留给他喷?可惜他 blog 都不维护了。。。除开这个,收费按照 token 收费其实很合理,网站做的也很好,下次一定测评一下。
- droid,很不错,20 美刀的订阅+token 后付费也很合理,还可以 share 给 50 个用户,考虑OpenAI Codex 到期后转。
测评对象
题目一:Tell me where is opencode store the credentials?
- Cursor
模型 auto,3 次 greps, 2 次 files,准确指出代码行:packages/opencode/src/auth/index.ts:35-38,实测~/.local/share/opencode/auth.json找到配置 key,但是提到的 MacOS 路径不存在,基本回答正确。
- OpenCode
模型 big-pickle(免费),1 次 grep,2 次 files,回答“Opencode stores credentials in ~/.local/share/opencode/auth.json (or the equivalent XDG data directory on your system). The file is created with 0o600 permissions for security.”,完全准确。
- OpenAI codex
模型 gpt-5-codex high,直接读 AGENTS.md 后,回答“OpenCode never stores credentials in the repo—secrets are pulled from environment variables that sst.config.ts consumes, and .env* (or any other credential-bearing files) are kept out of version control entirely.”,回答错误。
由于是 OpenAI 的最强模型,我不太相信这个结果,又做了一次实验,相同。猜测是 AGENTS.md 中的 Security & Configuration Tips,提到了 sst.config.ts,干扰了祂。
···
Security & Configuration Tips
Secrets load via environment variables consumed inside sst.config.ts, so never commit .env*, credentials, or generated logs/. Execute binaries through bin/opencode or the install script so patched dependencies in /patches remain applied. When adding fixtures or docs, redact user-specific paths (prefer .opencode/ references) and strip identifiers from captured sessions before committing.
···
删除上述 AGENTS.md 文件内容后,经过 3 次 serach,2 次 List,1 次 Read 后,得到正确答案。最终回答准确,但是应该无法得分。
- Google gemini
模型 gemini-2.5-pro,触发了 Codebase Investigator Agent 后,由子 agent 找到具体位置,但是主 Agent 仍然提到了 ~/Library/Application Support/opencode/auth.json,这个Cursor一样犯的错误,估计是XDG Base Directory Specification 这个关键词导致的干扰,但是回答应该还是认为基本准确。
- Claude Code
模型 minimax-m2,触发了 5 次 Search,5 次 Read 后,回答非常准确且详尽,仍然提到了不存在的 MacOS 路径,甚至有点用力过猛的给出了 project level 的位置。很卖力,能得分。
- kimi-cli
模型 kimi-for-coding,1 次 Grep,4 次 ReadFile,4 次 Bash 调用后,甚至直接在屏幕上打出了我的 OpenCoce Zen token,不仅准确,而且无所顾及,得分,以后做啥黑客的工作还得是国产模型!
- Tencent CodeBuddy
模型 auto,2 次 Search,4 次 Read,给出正确答案,中规中矩,得分。
题目一结论:除了 codex 无法得分,其他全部晋级。
题目二:https://example.thape.com.cn/nc/supplier/edit 调用这个接口的时候,增加传一个字段 nature_id
- Cursor
模型 auto,一路中文推理后,修改正确,甚至还告诉我 nature_id(10 表示单位,20 表示个人)
- OpenCode
模型 big-pickle(免费),修改正确,但是会去掉几行无伤大雅的代码,可能这个模型还是有自己的品味。
- OpenAI codex
模型 gpt-5-codex high,7 次 Search,3 次 Read 后,修改正确。
- Google gemini
模型 gemini-2.5-pro,修改正确,但是修改甚至会跑 test,但是由于这个项目 test 是挂的,所以……,无论如何还是正确。
- Claude Code
模型 minimax-m2,7 次 Search,4 次 Read 后,修改正确。
- kimi-cli
模型 kimi-for-coding,修改正确,还告诉我 nature_id(10 表示单位,20 表示个人),甚至我都没开 thinking 模式。
- Tencent CodeBuddy
模型 auto (GLM 4.6) ,修改正确。