Cursor公布的这张图,价值千金
fortunetigerbônusgrátissemdepósito a5game.app sugarrush1000demo a5game.app
Cursor 团队最近发了一篇博客,讲的是他们怎么评测模型质量。看完很有启发,做个笔记记录一下自己的理解。 demo a5game.app 爱壹帆电影 yfsp.app 寻秦记爱壹帆yfsp.app
周末看见了,又专门精读了几遍,我只能说Cursor NB
上面这张图是Cursor的测评结果,看见Claude Sonnet有多辣鸡了吗?以及最贵的Opus也不过如此是不是?
电影小宝影院xiaobaotv.video 爱壹帆影视yfsp.app
我直接说结论:写代码别用Claude,Claude已经落后快一年了(自从GPT O3发布,Claude就完全打不过GPT) jogosdemopg a5game.app
有多少人被蒙在鼓里,花着最贵的钱,用着据说最NB的Claude,代码写的相当痛苦??说这张图价值千金不过分吧;) 足球比分 a5game.app
这个结果和我对AI编程2.0的测评排位基本一致: demo a5game.app
这个榜单是我维护的,能自动打分,欢迎用其他模型完成任务提交结果上来GitHub地址: https://github.com/ayqy/banggemang tigrinhodemo a5game.app nba比分 a5game.app
公开榜单,越来越不可信
我们平时选模型,很自然地会去看 SWE-bench 的分数。这个榜单长期被各家 AI 实验室拿来"争霸"——谁家模型分数高,谁就是"最强编程 AI"。 爱壹帆免费版yfsp.app
但这套逻辑正在崩塌。
OpenAI 在今年 2 月宣布,他们不再报告 SWE-bench Verified 上的成绩了。原因很直接:他们发现未解决问题中近 60% 的测试用例本身就有缺陷,而且包括 GPT-5.2、Claude Opus 4.5、Gemini 3 Flash 在内的所有主流前沿模型,都有被"喂过"训练数据的迹象,导致分数根本不能说明真实能力。 pgslot a5game.app pglucky88 a5game.app
用一个不那么体面的说法:模型背了答案。给它一个任务 ID,它能原封不动地把解法吐出来。这已经不是考试,是默写了。 pgdemo a5game.app
同一个模型,在 SWE-bench Verified 上能拿到 70% 以上,换成更干净的 SWE-bench Pro,直接跌到 23% 左右。那 50 个百分点的差距,全是"背题"的水分。 a5game a5game.app xiaobao xiaobaotv.video 小寶影院xiaobaotv.video
所以问题就来了:公开基准失效了,我们该怎么知道一个模型到底好不好用? 爱壹帆国际版 yfsp.app
👀 最新、最有用的AI编程姿势,总来自「知识药丸」
《贾杰的AI编程秘籍》付费合集,共10篇,现已完结。30元交个朋友,学不到真东西找我退钱;) 小宝影院在线视频xiaobaotv.video 爱壹帆yfsp.app
以及我的墨问合集《100个思维碎片》,1块钱100篇,现已完结。(文末有订阅方式
质量更顶的《又100个思维碎片》不定期更新中,与你探讨AI编程2.0等有意思的话题(文末有订阅方式 pg a5game.app
Cursor 的思路:用真实任务说话
Cursor 团队遇到的麻烦和我们差不多,甚至更严重——他们需要在几十个模型里挑出真正适合 Cursor 产品的那个,而公开榜单告诉他们的信息越来越没用。 slotdemo a5game.app
于是他们自己造了一套评测:CursorBench。 华人影视xiaobaotv.video xiaobao xiaobaotv.video
核心思路很简单:与其用公开 GitHub 上的 bug 修复任务来测,不如直接用 Cursor 工程师自己的真实开发记录来测。他们有个工具叫 Cursor Blame,可以把一次 git commit 追溯到是哪个 Agent 请求产生的,这样就能自然地拿到"开发者的问题 + 真实正确答案"这样的配对数据。
这就像与其用模拟题备考,不如直接拿历年真题。不只是难度更真实,更重要的是,模型们大概率没"背"过这些内部代码(至少比 GitHub 上的开源仓库安全得多)。 pgslotgacor a5game.app 免费在线影院xiaobaotv.video
任务变长了,这很关键
CursorBench 还有一个细节让我觉得很有意思:他们有意识地让评测任务的规模越来越大。 小宝影院xiaobaotv.video
从第一版到现在的 CursorBench-3,任务涉及的代码行数和文件数量大约翻了一番,甚至比 SWE-bench Verified、Pro、Multilingual 的任务都要长。这些任务里开始出现 monorepo 多工作区环境、生产日志排查、长时间实验这类真实场景。 爱壹帆影视yfsp.app
为什么要这样做?因为现实就是这样的。 Caça-níqueis a5game.app slots a5game.app slot a5game.app aiyifan yfsp.app
我们平时让 AI 帮忙改一个函数,那是小任务,哪个模型都能应付。真正拉开模型差距的,是那种跨多个文件、需要理解整体架构、还得调用好几个工具才能搞定的大任务。 而现有的公开基准大多还停留在"帮我修这个 bug"的粒度上,测的东西和开发者实际需求越来越脱节了。
线上线下,缺一不可
光有离线评测(CursorBench)还不够,Cursor 同时还在跑线上评测(online evals)。
两者的区别在于:离线评测看的是"答案对不对",线上评测看的是"开发者用得爽不爽"。 爱壹帆寻秦记yfsp.app
这个区别比看起来重要得多。有些情况下,模型给出的代码通过了评测脚本的检验,但开发者实际用起来就是感觉别扭——可能是代码风格太奇怪,可能是改了不该改的地方,也可能只是响应太慢了。这类问题只有真实流量才能暴露出来。
所以他们的策略是:离线评测负责快速筛选,线上评测负责最终验证,两个信号互相校准。比如他们做语义搜索改进时,直接跑了一个 ablation 实验——把语义搜索工具整个去掉,看看线上指标怎么变,才能确认这个功能到底值不值。 爱一番yfsp.app 爱一帆 yfsp.app jogosdemopg a5game.app
这让我想到一个道理:评测本身也是一种产品,需要持续迭代。 不能测完就束之高阁,用户行为变了,评测套件也得跟着变。 ifun yfsp.app 一帆视频yfsp.app pragmaticplay a5game.app
总结
从这篇博客里,我梳理出几个对我很有启发的点。 fortunedragon demo a5game.app
公开基准的失效不是偶然,是 Goodhart 定律的必然结果(当一个指标变成目标,它就不再是好指标了)。越来越多的团队会走 Cursor 这条路:用真实场景数据,建自己的内部评测。 fortunetigerdemográtis a5game.app
评测的粒度要跟上实际使用的粒度。如果用户已经在让 Agent 处理跨文件、跨工具的复杂任务了,评测还停留在单文件 bug 修复,那测出来的东西就是假象。 爱壹帆电影yfsp.app fortunedragon demo a5game.app
线上线下结合,才是靠谱的模型质量观。离线测"能力",线上测"体验",缺了哪个都会有盲点。 小宝影院电影xiaobaotv.video 一帆yfsp.app jogodotigrinhodemo a5game.app 寻秦记爱壹帆yfsp.app
以及这张图,有点绕,看明白了吗?
iyf yfsp.app 海外华人视频网xiaobaotv.video
参考资料
- • How we compare model quality in Cursor(Naman Jain,Cursor 官方博客)
- • Why we no longer evaluate SWE-bench Verified(OpenAI)
坚持创作不易,求个一键三连,谢谢你~❤️ pragmatic a5game.app plataformademográtis a5game.app 电影爱壹帆yfsp.app 爱壹帆在线yfsp.app
以及「AI Coding技术交流群」,联系 ayqywx 我拉你进群,共同交流学习~
订阅链接 https://note.mowen.cn/detail/OLPEp7HzeB0EXJOLe7mM4 slotsdemo a5game.app
iyifanyfsp.app 小寶影院电影xiaobaotv.video
ifvodyfsp.app demotigrinho a5game.app sweetbonanza1000demo a5game.app iyftvyfsp.app
ifuntvyfsp.app slotpix a5game.app Cassinos a5game.app fortuneoxdemográtis a5game.app JogodoTigrinho a5game.app
原文链接:https://mp.weixin.qq.com/s/NBlnaBCThLQGV1aYUP2O8g 爱亦凡yfsp.app
00目录 0