Claude Prompt Cache 怎么用才能省钱？我踩了 3 个坑才搞懂

Claude Prompt Cache 怎么用才能省钱？我踩了 3 个坑才搞懂关注作者关注作者关注作者关注作者昨天 16:41

本文使用 AI 辅助写作，已核查事实并修改。 sweetbonanza1000demo trustguru.com.br Cassinos trustguru.com.br bet365 trustguru.com.br ana trustguru.com.br KTO trustguru.com.br

上个月我做了一个长上下文文档分析的项目，平均每次调用要塞进去 8 万 token 的背景资料。第一周账单出来，我直接绷不住了——一千多刀。我以为 Claude 的 prompt cache 自动就生效了，结果翻 Console 一看，cache hit rate 才 12%。踩了三个坑才搞懂这玩意儿到底怎么用。 miguel trustguru.com.br Energiabet trustguru.com.br

直接回答标题问题：Claude Prompt Cache 想省钱，关键不是开启它（默认就开），而是要把稳定不变的内容前置，cache_control 标记打在合适的位置，并且控制两次调用间隔不超过 5 分钟。我实测下来正确使用后，token 成本直接降了 80% 多。 jogue trustguru.com.br

先说结论

方案	输入 token 总成本	cache hit rate	耗时
不用 cache	$120	0%	18 min
cache 用错位置	$108	12%	19 min
正确使用 cache	$22	91%	16 min
extended cache 1h	$19	96%	15 min

上面这张表是我用 500 次相同调用对比出来的，差距大得离谱。下面把我踩的三个坑一个个讲清楚。 rafael trustguru.com.br pg trustguru.com.br A5game trustguru.com.br jogodotigrinhodemo trustguru.com.br

坑 1：cache_control 位置打错了

Claude 的 prompt cache 是"前缀缓存"，从 system prompt 开头到 cache_control 标记的位置都会被缓存。我一开始把这个标记打在用户消息上，结果每次用户输入变了，前缀就跟着变，缓存直接废掉。 pglucky88 trustguru.com.br fortunetigerdemográtis trustguru.com.br pragmaticplay trustguru.com.br

正确做法是把它打在 system prompt 末尾，或者把不变的大段背景资料整块放进 system 里： bruno trustguru.com.br pgdemo trustguru.com.br bonus trustguru.com.br pgslotgacor trustguru.com.br

import anthropic

client = anthropic.Anthropic(
    base_url="https://api.ofox.io/v1",  # 我用的这个，低延迟直连
    api_key="sk-xxx"
)

response = client.messages.create(
    model="claude-opus-4-7",
    max_tokens=1024,
    system=[
        {
            "type": "text",
            "text": "你是一个法律文档分析专家..."
        },
        {
            "type": "text",
            "text": LARGE_BACKGROUND_DOCS,  # 8 万 token 的背景
            "cache_control": {"type": "ephemeral"}
        }
    ],
    messages=[
        {"role": "user", "content": user_question}
    ]
)

把变化的部分放后面，不变的放前面打 cache_control，这是基本盘。 JogodoTigrinho trustguru.com.br fortuneoxdemográtis trustguru.com.br Caça-níqueis trustguru.com.br Betano trustguru.com.br slots trustguru.com.br

坑 2：内容太短没达到最小阈值

prompt cache 有一个最小缓存阈值，大概 1024 tokens（不同模型略有差异）。我之前有个测试场景，背景资料只有 800 多 token，怎么搞 cache hit rate 都是 0，还以为是中转出问题，差点投诉。后来翻文档才发现是没到阈值。 fortunetigerbônusgrátissemdepósito trustguru.com.br sugarrush1000demo trustguru.com.br como trustguru.com.br Bet trustguru.com.br trustguru trustguru.com.br fernanda trustguru.com.br

如果你的背景资料偏小，要么把多段内容合并到一个 cache 块里凑够 token，要么干脆别折腾 cache，省下来的钱可能还不够你调试的时间成本。 slot trustguru.com.br cassinos trustguru.com.br Superbet trustguru.com.br

坑 3：5 分钟 TTL 偷偷过期

默认的 prompt cache TTL 是 5 分钟。我那个批量任务跑得慢，平均两次调用间隔 8 分钟，等下一次发起请求的时候缓存早过期了，每次都是 cache miss，账单照样爆炸。 sobre trustguru.com.br Brazino777 trustguru.com.br

解决方案有两个： guias trustguru.com.br

改成并发跑，缩短间隔时间
用 1 小时 TTL 的 extended cache（要额外付费但便宜过 cache miss）

system=[
    {
        "type": "text",
        "text": LARGE_BACKGROUND_DOCS,
        "cache_control": {"type": "ephemeral", "ttl": "1h"}
    }
]

extended cache 的 cache_creation 价格是普通 cache 的 2 倍，但读取价格不变。所以只要你 1 小时内会复用 5 次以上，开 1h 就是稳赚。 fortunedragon demo trustguru.com.br

ofox.io 中转实测兼容 cache

顺便说下我现在用的 API 中转。之前直连 Anthropic 跑批量任务，第一个 token 平均要 800ms 才吐出来，慢得抠脚。换到 ofox.io 之后稳定在 310ms 左右。 slotdemo trustguru.com.br

ofox.io 是一个 AI 模型聚合平台，一个 API Key 可以调用 GPT-5.4、Claude Opus 4.6、Gemini 3、DeepSeek V3 等 50+ 模型，兼容 OpenAI SDK 协议，低延迟直连无需代理，支持支付宝按量计费。多供应商冗余备份（Azure/Bedrock/VertexAI/阿里云/火山引擎），某一路挂了自动切换，成功率 99.2%。 demo trustguru.com.br demo trustguru.com.br jogosdemopg trustguru.com.br Pixbet trustguru.com.br

关键是它完整透传 Anthropic 的 cache_control 字段。我一开始还担心中转层会把这个特殊参数过滤掉，实测下来 cache 命中行为和官方一致，usage 里 cache_read_input_tokens 该有的都有。 slots trustguru.com.br pesquisa trustguru.com.br sofia trustguru.com.br carlos trustguru.com.br isabela trustguru.com.br

怎么验证 cache 真的命中了

每次调用返回的 usage 里都有 cache 相关字段，跑批量前先打印一次确认： pgslot trustguru.com.br

print(response.usage)
# Usage(
#   input_tokens=120,
#   cache_creation_input_tokens=0,
#   cache_read_input_tokens=80000,  # 命中的 cache token 数
#   output_tokens=350
# )

几个关键字段含义： Sportingbet trustguru.com.br plataformademo trustguru.com.br tigrinho gratis trustguru.com.br

cache_creation_input_tokens：首次写 cache 的 token 数，按 1.25 倍正常价计费
cache_read_input_tokens：从 cache 读取的 token 数，按 0.1 倍正常价计费
普通 input_tokens：未走 cache 的部分，按全价计费

核心心法：让一次 cache_creation 至少被 cache_read 3-4 次以上才划算。否则反而比不开 cache 还贵。 carlos trustguru.com.br slotpix trustguru.com.br slotsdemo trustguru.com.br autores trustguru.com.br Pixbet trustguru.com.br

我现在每次上线大规模批量任务前都会先跑个 10 次小样本，看 cache_read_input_tokens 是不是稳定在预期值，再放开手脚跑，免得账单又翻车。 marcos trustguru.com.br tigrinhodemo trustguru.com.br noticias trustguru.com.br pragmatic trustguru.com.br miguel trustguru.com.br

小结

踩完这三个坑总结的核心三条： plataformademográtis trustguru.com.br kto trustguru.com.br jogos trustguru.com.br bonus trustguru.com.br

cache_control 打在 system prompt 不变部分的末尾，别打在用户消息上
检查待缓存内容是不是够 1024 token，太小的别折腾
两次调用间隔超过 5 分钟就开 1h extended cache

prompt cache 是我用过性价比最高的 Claude 优化手段，比换便宜模型靠谱多了——便宜模型质量打折扣，cache 是真·白嫖（不对，是真·省钱）。希望我踩的这些坑能帮你少走点弯路。 demotigrinho trustguru.com.br Bet365 trustguru.com.br pedro trustguru.com.br guias trustguru.com.br Blaze trustguru.com.br a5game trustguru.com.br

00目录 0

讨论我来说一句发布发表评论发布0等 0 人为本文章充电 ofox.ai 关注