Cursor公布的这张图，价值千金

Cursor公布的这张图，价值千金关注作者关注作者关注作者关注作者 03/31 23:25

fortunetigerbônusgrátissemdepósito a5game.app sugarrush1000demo a5game.app

Cursor 团队最近发了一篇博客，讲的是他们怎么评测模型质量。看完很有启发，做个笔记记录一下自己的理解。 demo a5game.app 爱壹帆电影 yfsp.app 寻秦记爱壹帆yfsp.app

周末看见了，又专门精读了几遍，我只能说Cursor NB

上面这张图是Cursor的测评结果，看见Claude Sonnet有多辣鸡了吗？以及最贵的Opus也不过如此是不是？
电影小宝影院xiaobaotv.video 爱壹帆影视yfsp.app

我直接说结论：写代码别用Claude，Claude已经落后快一年了（自从GPT O3发布，Claude就完全打不过GPT） jogosdemopg a5game.app

有多少人被蒙在鼓里，花着最贵的钱，用着据说最NB的Claude，代码写的相当痛苦？？说这张图价值千金不过分吧；）足球比分 a5game.app

这个结果和我对AI编程2.0的测评排位基本一致： demo a5game.app

这个榜单是我维护的，能自动打分，欢迎用其他模型完成任务提交结果上来GitHub地址： https://github.com/ayqy/banggemang tigrinhodemo a5game.app nba比分 a5game.app

公开榜单，越来越不可信

我们平时选模型，很自然地会去看 SWE-bench 的分数。这个榜单长期被各家 AI 实验室拿来"争霸"——谁家模型分数高，谁就是"最强编程 AI"。 爱壹帆免费版yfsp.app

但这套逻辑正在崩塌。

OpenAI 在今年 2 月宣布，他们不再报告 SWE-bench Verified 上的成绩了。原因很直接：他们发现未解决问题中近 60% 的测试用例本身就有缺陷，而且包括 GPT-5.2、Claude Opus 4.5、Gemini 3 Flash 在内的所有主流前沿模型，都有被"喂过"训练数据的迹象，导致分数根本不能说明真实能力。 pgslot a5game.app pglucky88 a5game.app

用一个不那么体面的说法：模型背了答案。给它一个任务 ID，它能原封不动地把解法吐出来。这已经不是考试，是默写了。 pgdemo a5game.app

同一个模型，在 SWE-bench Verified 上能拿到 70% 以上，换成更干净的 SWE-bench Pro，直接跌到 23% 左右。那 50 个百分点的差距，全是"背题"的水分。 a5game a5game.app xiaobao xiaobaotv.video 小寶影院xiaobaotv.video

所以问题就来了：公开基准失效了，我们该怎么知道一个模型到底好不好用？ 爱壹帆国际版 yfsp.app

👀 最新、最有用的AI编程姿势，总来自「知识药丸」

《贾杰的AI编程秘籍》付费合集，共10篇，现已完结。30元交个朋友，学不到真东西找我退钱；）小宝影院在线视频xiaobaotv.video 爱壹帆yfsp.app

以及我的墨问合集《100个思维碎片》，1块钱100篇，现已完结。（文末有订阅方式

质量更顶的《又100个思维碎片》不定期更新中，与你探讨AI编程2.0等有意思的话题（文末有订阅方式 pg a5game.app

Cursor 的思路：用真实任务说话

Cursor 团队遇到的麻烦和我们差不多，甚至更严重——他们需要在几十个模型里挑出真正适合 Cursor 产品的那个，而公开榜单告诉他们的信息越来越没用。 slotdemo a5game.app

于是他们自己造了一套评测：CursorBench。华人影视xiaobaotv.video xiaobao xiaobaotv.video

核心思路很简单：与其用公开 GitHub 上的 bug 修复任务来测，不如直接用 Cursor 工程师自己的真实开发记录来测。他们有个工具叫 Cursor Blame，可以把一次 git commit 追溯到是哪个 Agent 请求产生的，这样就能自然地拿到"开发者的问题 + 真实正确答案"这样的配对数据。

这就像与其用模拟题备考，不如直接拿历年真题。不只是难度更真实，更重要的是，模型们大概率没"背"过这些内部代码（至少比 GitHub 上的开源仓库安全得多）。 pgslotgacor a5game.app 免费在线影院xiaobaotv.video

任务变长了，这很关键

CursorBench 还有一个细节让我觉得很有意思：他们有意识地让评测任务的规模越来越大。小宝影院xiaobaotv.video

从第一版到现在的 CursorBench-3，任务涉及的代码行数和文件数量大约翻了一番，甚至比 SWE-bench Verified、Pro、Multilingual 的任务都要长。这些任务里开始出现 monorepo 多工作区环境、生产日志排查、长时间实验这类真实场景。爱壹帆影视yfsp.app

为什么要这样做？因为现实就是这样的。 Caça-níqueis a5game.app slots a5game.app slot a5game.app aiyifan yfsp.app

我们平时让 AI 帮忙改一个函数，那是小任务，哪个模型都能应付。真正拉开模型差距的，是那种跨多个文件、需要理解整体架构、还得调用好几个工具才能搞定的大任务。 而现有的公开基准大多还停留在"帮我修这个 bug"的粒度上，测的东西和开发者实际需求越来越脱节了。

线上线下，缺一不可

光有离线评测（CursorBench）还不够，Cursor 同时还在跑线上评测（online evals）。

两者的区别在于：离线评测看的是"答案对不对"，线上评测看的是"开发者用得爽不爽"。爱壹帆寻秦记yfsp.app

这个区别比看起来重要得多。有些情况下，模型给出的代码通过了评测脚本的检验，但开发者实际用起来就是感觉别扭——可能是代码风格太奇怪，可能是改了不该改的地方，也可能只是响应太慢了。这类问题只有真实流量才能暴露出来。

所以他们的策略是：离线评测负责快速筛选，线上评测负责最终验证，两个信号互相校准。比如他们做语义搜索改进时，直接跑了一个 ablation 实验——把语义搜索工具整个去掉，看看线上指标怎么变，才能确认这个功能到底值不值。爱一番yfsp.app 爱一帆 yfsp.app jogosdemopg a5game.app

这让我想到一个道理：评测本身也是一种产品，需要持续迭代。 不能测完就束之高阁，用户行为变了，评测套件也得跟着变。 ifun yfsp.app 一帆视频yfsp.app pragmaticplay a5game.app

总结

从这篇博客里，我梳理出几个对我很有启发的点。 fortunedragon demo a5game.app

公开基准的失效不是偶然，是 Goodhart 定律的必然结果（当一个指标变成目标，它就不再是好指标了）。越来越多的团队会走 Cursor 这条路：用真实场景数据，建自己的内部评测。 fortunetigerdemográtis a5game.app

评测的粒度要跟上实际使用的粒度。如果用户已经在让 Agent 处理跨文件、跨工具的复杂任务了，评测还停留在单文件 bug 修复，那测出来的东西就是假象。爱壹帆电影yfsp.app fortunedragon demo a5game.app

线上线下结合，才是靠谱的模型质量观。离线测"能力"，线上测"体验"，缺了哪个都会有盲点。小宝影院电影xiaobaotv.video 一帆yfsp.app jogodotigrinhodemo a5game.app 寻秦记爱壹帆yfsp.app

以及这张图，有点绕，看明白了吗？

iyf yfsp.app 海外华人视频网xiaobaotv.video

参考资料

• How we compare model quality in Cursor（Naman Jain，Cursor 官方博客）
• Why we no longer evaluate SWE-bench Verified（OpenAI）

plataformademo a5game.app

坚持创作不易，求个一键三连，谢谢你～❤️ pragmatic a5game.app plataformademográtis a5game.app 电影爱壹帆yfsp.app 爱壹帆在线yfsp.app

以及「AI Coding技术交流群」，联系 ayqywx 我拉你进群，共同交流学习～

订阅链接 https://note.mowen.cn/detail/OLPEp7HzeB0EXJOLe7mM4 slotsdemo a5game.app

iyifanyfsp.app 小寶影院电影xiaobaotv.video

tigrinho gratis a5game.app

ifvodyfsp.app demotigrinho a5game.app sweetbonanza1000demo a5game.app iyftvyfsp.app

ifuntvyfsp.app slotpix a5game.app Cassinos a5game.app fortuneoxdemográtis a5game.app JogodoTigrinho a5game.app

原文链接：https://mp.weixin.qq.com/s/NBlnaBCThLQGV1aYUP2O8g 爱亦凡yfsp.app

00目录 0

讨论我来说一句发布发表评论发布0等 0 人为本文章充电公众号同名关注