现在大家用claude 或者小龙虾🦞干活,确实好用,但是架不住token花销大啊。

很多人一上来就把整个项目扔给 AI,结果跑个任务动辄几万、几十万的 Token,一天烧掉几十上百美金都不夸张。

小北我之前claude 被封,于是不得不转中转,采用openrout,尼玛,5个小时莫名其妙烧了110美金

你看稍微不注意,成本搜一下就上来了

所以在商业世界里,控制不住成本的效率都是耍流氓。

因为走了很多坑,所以写这篇文章,让你避免太快的烧钱,控制的好,至少可以把你的 Token 消耗硬生生砍掉 90%!

不废话了,我们开始。

 
01
计费的底层逻辑是什么

在讲方法之前,先搞懂计费的底层商业逻辑。

现在的情况是,大模型是个”没有长期记性”的复读机。

当你跟 AI 进行多轮长对话时,它的计费不是线性的,而是指数级增长的。

什么意思?

你发第30条消息时,它不仅要读你这句新话,还要把你前面的29条聊天记录、系统提示词、加载的工具全部”重新读一遍”。

据统计,在长对话中,高达 98.5% 的 Token 都被浪费在了重读历史记录上!

我举个例子啊

这就像你招了个新员工,每次给他派新活儿,都得把公司十年的章程和会议记录重新给他念一遍,你说这沟通成本能不贵吗?

所以搞懂了这个逻辑,我们的核心策略就出来了:把输入变短、变干净、把活儿分包。

02
查账是降本的第一步

大多数人烧钱,是因为对消耗纯属”盲人摸象”,每天都在为未知买单。

所以第一步,我觉得要做到可以随时查账,心中有数

在终端里(如使用 Claude Code 或小龙虾时)随时跑一下 /context 和 /cost 指令。

• /context — 查看当前上下文占用情况

• /cost — 查看当前花费金额

这就像拍 X 光一样,精准透视你现在的话题到底占了多少无用内存,当前确切花了多少钱。

让 Agent 出体检报告

你甚至可以直接让主 Agent 给你出一份”成本体检报告”:”帮我分析当前的成本消耗,揪出耗能大户”。

找找是哪个文件占据了巨大空间,或者是哪个高频轮询导致消耗翻倍,一定要及时的找出来。

大家看平常,这样问,都是可以排除掉那些消耗大户的。

03
方法二:给 AI 的记忆断舍离

方法二的核心是,搞好”上下文卫生”,给 AI 的记忆断舍离。不要让 AI 的脑子塞满垃圾信息,精简输入是降本的第一步。

物理隔离,每 20 条消息强制重转

既然记忆越来越贵,那就果断清除

如果在一个复杂任务里聊了 15-20 轮,立刻让 AI “总结刚才所有的进度和核心代码”,你把总结复制下来,/clear 清空会话,把总结粘贴进新对话里。

用干净的脑子做新任务,效率高还便宜几十倍。

换任务时更要果断清空对话记录,在一个旧的长会话里继续聊,比开一个新会话要贵几十倍。

过滤终端废话

当你让 AI 跑代码测试(比如 git status 或 cargo test)时,终端经常会吐出几万字的日志。AI 看这些就是浪费钱!

强烈建议装个叫 RTK (Rust Token Killer) 的小工具,把报错里的空行和废话过滤掉再喂给 AI,终端消耗最高能省下 90%。

具体地址:

https://github.com/rtk-ai/rtk

精简系统说明书

你的 .md 说明文件千万别写成大百科全书,尽量控制在 200 行以内,把它当成”索引目录”来用,告诉 AI 东西在哪,而不是全抄在里面。

这个我之前在这篇文章中也写过了:

万字讲透Claude Code从”能用”到”真好用”的分水岭:Workspace 深度解析

04
方法三:改掉”微信式聊天”的坏习惯

很多人用 AI 的方式,跟发微信语音一样——想到一句发一句,结果每发一条,AI 就要把所有历史重新嚼一遍。

这种方法太消耗无意义的token了

错误做法:发现 AI 写错了,你跟发微信一样连弹:”不对!”、”我指的是上面第二段”……每发一条,它就要把所有历史重新嚼一遍。

正确做法:回到它出错的那条提示词,直接点击”编辑”修改,然后重新生成!这样旧对话会被覆盖,历史消息不会无限叠加。

还有下面的方法也是错的

错误做法:

“帮我总结文章” — AI 回一句

“再给个标题” — AI 又回一句

“列出三个要点” — AI 再回一句

正确做法:

直接说:”总结文章,列出三个要点并拟定一个标题”。

你看,一句话干完三件事,立省 2 倍 Token!

05
方法四:关闭闲置工具

关闭闲置工具,砍掉”隐形账单”,工具和插件的说明书是非常昂贵的”隐形账单”。

关闭闲置 MCP 与剔除默认 Prompt 文件

你每开启一个 MCP Server,它每次对话都会把所有的工具定义加载进上下文,单个 Server 每条消息可能就会吃掉 18,000 个 Token。

强烈建议:

  • 在每次会话开始时断开不需要的 MCP
  • 能用 CLI(命令行工具)解决的,就不要用 MCP(例如用 飞书的 CLI 代替其 MCP 插件,既快又便宜)
  • OpenClaw 在初始化时默认会生成 agent.mduser.md 等多达 7 个文件,哪怕你不说话,这些默认文件和内置 Tool 也会占用约 6k Token。
  • 如果你的任务很简单,直接清空这些文件的内容,或者在配置中设置不创建它们

开启 Plan Mode 与阻断死循环

最大的 Token 浪费往往来源于 AI 走错方向或陷入改 Bug 的死循环。

  • 把”95% 置信度规则”写入你的系统说明书中:命令 AI “在对需要构建的内容达到 95% 的信心之前不要做任何修改,必须不断向我提问直到达到该信心水平”
  • 不要让 AI 盲跑。如果你发现 AI 陷入了不断重读相同文件、反复报错的死循环中,直接打断它!据统计,在错误的循环中,80% 的 Token 都在产生零价值

利用”错峰出行”压榨限额

如果你使用的是大厂官方提供的包月或限额套餐,要注意平台有”高峰期”与”非高峰期”的算力倾斜。

高峰期(如美东时间工作日早 8 点到下午 2 点)你的配额会消耗得极快。

你应该把极其消耗 Token 的大重构、多 Agent 复杂协作任务,专门安排在非高峰期(下午、晚上、周末)运行。

06
方法五:专人专岗
专人专岗,杀鸡绝不用牛刀

这就比,一个聪明的土老板,绝不会让年薪百万的 CEO 去扫地。

你的任务也是,不要什么任务都用最好的大模型(Claude Opus)来处理,这非常不划算。

给不同的 Agent 划定”独立工作空间”

不要用一个全能 Agent 干所有事。建立专门的”写文章 Agent”、”写代码 Agent”。

让他们有各自独立的记忆和工作空间,互相不污染,这样加载的上下文就会大幅减少。

模型降级策略

复杂的架构设计用最贵的旗舰模型(如 Claude Opus / GPT-4o);

简单的数据整理、写前端用轻量模型(如 Haiku / Gemini Flash / 甚至国产模型)。

用本地免费模型跑”心跳”

很多 Agent 有”心跳机制”(定时唤醒检查任务有没有做完)。

这种每几分钟就要循环一次的打杂活,千万别用云端大模型,直接在本地跑一个免费的开源小模型(如 Ollama)来做触发器,能省下巨额的轮询费用。

 
07
方法六:尽量用订阅模式

如果你是重度使用者,坚决不要用传统的 API 按 Token 扣费模式

榨干订阅价值(OAuth 接入)

如果你已经购买了 ChatGPT Plus、Claude Pro 或 Gemini Advanced 的 20 美元包月服务,可以通过 OAuth 认证等方式,

直接将这些套餐接入到你的本地智能体中,不再额外产生 API Token 费用。

当然现在 Claude 不允许使用订阅的服务来接入 OpenClaw。

人手一个 Coding Plan(包月套餐)

很多大厂现在推出了专门针对写代码工具的 Coding Plan(包月流量套餐)。比如几十块钱人民币,就能换取几千次的请求额度。

折算下来,单价只有普通 API 的五分之一甚至十分之一。

之前小北买了一个月7块钱,后面升级了最高的pro一个月也才200人民币,还有8种模型随便切换

总结下,省token的方法有:

• 查账:用 /context、/cost 随时体检,心中有数

• 上下文卫生:20 条消息强制转生、过滤终端废话、精简 System Prompt

• 改掉坏习惯:用编辑键、问题打包发

• 砍掉隐形账单:关闭闲置 MCP、阻断死循环、错峰出行

• 专人专岗:独立工作空间、模型降级、本地跑心跳

• 批发计费:OAuth 接入订阅、Coding Plan 包月

AI 工具越来越强,但如果我们不理解这背后的运行逻辑,只会被算法割了韭菜!

把上述这些方法,习惯刻进你的操作本能里,无论是用 Claude、OpenClaw 还是任意 AI 平台,你都能用最低的成本撬动极高的生产力。

发表回复

后才能评论