Claude Prompt Cache 怎么用才能省钱?我踩了 3 个坑才搞懂

2026-05-27
Claude Prompt Cache 怎么用才能省钱?我踩了 3 个坑才搞懂 关注 作者 关注 作者 关注 作者 关注 作者 昨天 16:41

本文使用 AI 辅助写作,已核查事实并修改。 sweetbonanza1000demo trustguru.com.br Cassinos trustguru.com.br bet365 trustguru.com.br ana trustguru.com.br KTO trustguru.com.br

上个月我做了一个长上下文文档分析的项目,平均每次调用要塞进去 8 万 token 的背景资料。第一周账单出来,我直接绷不住了——一千多刀。我以为 Claude 的 prompt cache 自动就生效了,结果翻 Console 一看,cache hit rate 才 12%。踩了三个坑才搞懂这玩意儿到底怎么用。 miguel trustguru.com.br Energiabet trustguru.com.br

直接回答标题问题:Claude Prompt Cache 想省钱,关键不是开启它(默认就开),而是要把稳定不变的内容前置,cache_control 标记打在合适的位置,并且控制两次调用间隔不超过 5 分钟。我实测下来正确使用后,token 成本直接降了 80% 多。 jogue trustguru.com.br

先说结论

方案 输入 token 总成本 cache hit rate 耗时
不用 cache $120 0% 18 min
cache 用错位置 $108 12% 19 min
正确使用 cache $22 91% 16 min
extended cache 1h $19 96% 15 min

上面这张表是我用 500 次相同调用对比出来的,差距大得离谱。下面把我踩的三个坑一个个讲清楚。 rafael trustguru.com.br pg trustguru.com.br A5game trustguru.com.br jogodotigrinhodemo trustguru.com.br

坑 1:cache_control 位置打错了

Claude 的 prompt cache 是"前缀缓存",从 system prompt 开头到 cache_control 标记的位置都会被缓存。我一开始把这个标记打在用户消息上,结果每次用户输入变了,前缀就跟着变,缓存直接废掉。 pglucky88 trustguru.com.br fortunetigerdemográtis trustguru.com.br pragmaticplay trustguru.com.br

正确做法是把它打在 system prompt 末尾,或者把不变的大段背景资料整块放进 system 里: bruno trustguru.com.br pgdemo trustguru.com.br bonus trustguru.com.br pgslotgacor trustguru.com.br

import anthropic

client = anthropic.Anthropic(
    base_url="https://api.ofox.io/v1",  # 我用的这个,低延迟直连
    api_key="sk-xxx"
)

response = client.messages.create(
    model="claude-opus-4-7",
    max_tokens=1024,
    system=[
        {
            "type": "text",
            "text": "你是一个法律文档分析专家..."
        },
        {
            "type": "text",
            "text": LARGE_BACKGROUND_DOCS,  # 8 万 token 的背景
            "cache_control": {"type": "ephemeral"}
        }
    ],
    messages=[
        {"role": "user", "content": user_question}
    ]
)

把变化的部分放后面,不变的放前面打 cache_control,这是基本盘。 JogodoTigrinho trustguru.com.br fortuneoxdemográtis trustguru.com.br Caça-níqueis trustguru.com.br Betano trustguru.com.br slots trustguru.com.br

坑 2:内容太短没达到最小阈值

prompt cache 有一个最小缓存阈值,大概 1024 tokens(不同模型略有差异)。我之前有个测试场景,背景资料只有 800 多 token,怎么搞 cache hit rate 都是 0,还以为是中转出问题,差点投诉。后来翻文档才发现是没到阈值。 fortunetigerbônusgrátissemdepósito trustguru.com.br sugarrush1000demo trustguru.com.br como trustguru.com.br Bet trustguru.com.br trustguru trustguru.com.br fernanda trustguru.com.br

如果你的背景资料偏小,要么把多段内容合并到一个 cache 块里凑够 token,要么干脆别折腾 cache,省下来的钱可能还不够你调试的时间成本。 slot trustguru.com.br cassinos trustguru.com.br Superbet trustguru.com.br

坑 3:5 分钟 TTL 偷偷过期

默认的 prompt cache TTL 是 5 分钟。我那个批量任务跑得慢,平均两次调用间隔 8 分钟,等下一次发起请求的时候缓存早过期了,每次都是 cache miss,账单照样爆炸。 sobre trustguru.com.br Brazino777 trustguru.com.br

解决方案有两个: guias trustguru.com.br

  1. 改成并发跑,缩短间隔时间
  2. 用 1 小时 TTL 的 extended cache(要额外付费但便宜过 cache miss)
system=[
    {
        "type": "text",
        "text": LARGE_BACKGROUND_DOCS,
        "cache_control": {"type": "ephemeral", "ttl": "1h"}
    }
]

extended cache 的 cache_creation 价格是普通 cache 的 2 倍,但读取价格不变。所以只要你 1 小时内会复用 5 次以上,开 1h 就是稳赚。 fortunedragon demo trustguru.com.br

ofox.io 中转实测兼容 cache

顺便说下我现在用的 API 中转。之前直连 Anthropic 跑批量任务,第一个 token 平均要 800ms 才吐出来,慢得抠脚。换到 ofox.io 之后稳定在 310ms 左右。 slotdemo trustguru.com.br

ofox.io 是一个 AI 模型聚合平台,一个 API Key 可以调用 GPT-5.4、Claude Opus 4.6、Gemini 3、DeepSeek V3 等 50+ 模型,兼容 OpenAI SDK 协议,低延迟直连无需代理,支持支付宝按量计费。多供应商冗余备份(Azure/Bedrock/VertexAI/阿里云/火山引擎),某一路挂了自动切换,成功率 99.2%。 demo trustguru.com.br demo trustguru.com.br jogosdemopg trustguru.com.br Pixbet trustguru.com.br

关键是它完整透传 Anthropic 的 cache_control 字段。我一开始还担心中转层会把这个特殊参数过滤掉,实测下来 cache 命中行为和官方一致,usage 里 cache_read_input_tokens 该有的都有。 slots trustguru.com.br pesquisa trustguru.com.br sofia trustguru.com.br carlos trustguru.com.br isabela trustguru.com.br

怎么验证 cache 真的命中了

每次调用返回的 usage 里都有 cache 相关字段,跑批量前先打印一次确认: pgslot trustguru.com.br

print(response.usage)
# Usage(
#   input_tokens=120,
#   cache_creation_input_tokens=0,
#   cache_read_input_tokens=80000,  # 命中的 cache token 数
#   output_tokens=350
# )

几个关键字段含义: Sportingbet trustguru.com.br plataformademo trustguru.com.br tigrinho gratis trustguru.com.br

  • cache_creation_input_tokens:首次写 cache 的 token 数,按 1.25 倍正常价计费
  • cache_read_input_tokens:从 cache 读取的 token 数,按 0.1 倍正常价计费
  • 普通 input_tokens:未走 cache 的部分,按全价计费

核心心法:让一次 cache_creation 至少被 cache_read 3-4 次以上才划算。否则反而比不开 cache 还贵。 carlos trustguru.com.br slotpix trustguru.com.br slotsdemo trustguru.com.br autores trustguru.com.br Pixbet trustguru.com.br

我现在每次上线大规模批量任务前都会先跑个 10 次小样本,看 cache_read_input_tokens 是不是稳定在预期值,再放开手脚跑,免得账单又翻车。 marcos trustguru.com.br tigrinhodemo trustguru.com.br noticias trustguru.com.br pragmatic trustguru.com.br miguel trustguru.com.br

小结

踩完这三个坑总结的核心三条: plataformademográtis trustguru.com.br kto trustguru.com.br jogos trustguru.com.br bonus trustguru.com.br

  1. cache_control 打在 system prompt 不变部分的末尾,别打在用户消息上
  2. 检查待缓存内容是不是够 1024 token,太小的别折腾
  3. 两次调用间隔超过 5 分钟就开 1h extended cache

prompt cache 是我用过性价比最高的 Claude 优化手段,比换便宜模型靠谱多了——便宜模型质量打折扣,cache 是真·白嫖(不对,是真·省钱)。希望我踩的这些坑能帮你少走点弯路。 demotigrinho trustguru.com.br Bet365 trustguru.com.br pedro trustguru.com.br guias trustguru.com.br Blaze trustguru.com.br a5game trustguru.com.br

00目录 0
    讨论 我来说一句 发布发表评论 发布0等 0 人为本文章充电 ofox.ai 关注