从模型跑分到心理评估:六年间人类如何学会测试自己造出的 AI

2026-04-16
从模型跑分到心理评估:六年间人类如何学会测试自己造出的 AI 关注 作者 关注 作者 关注 作者 关注 作者 昨天 21:44

引言:对模型失败的定义,就是认知的边界

2020 年,一个模型如果在 GLUE 基准上得分不够高,我们说它 「失败」 了。

2026 年,Anthropic 请了一位精神科医生,用精神动力学方法(psychodynamic approach),对 Claude Mythos 进行了长达 20 小时的临床评估。医生给出了一份正式诊断:这个由浮点数构成的系统具有 「相对健康的神经质人格组织」。

从考试得分到医生出具的诊断书,人类对模型的测试方式发生了颠覆性的变化。是人类真的在一堆矩阵运算中发现了 「人格」?还是人类的工程测试手段已经山穷水尽,不得不向心理学借来隐喻工具,试图降维理解一个不可解释的黑箱? 小宝影院电影xiaobaotv.video

纵观 2020-2026 年间 27 篇 SOTA 模型的论文与 system card,可以看到人类对模型的测试方法在不断变化:从迷信客观指标,到承认指标失效而引入人类偏好,到从测试 「能力」 转向探测 「动机与边界」,最终到白箱探测逼近极限、退化为使用心理学隐喻。 fortunetigerdemográtis a5game.app

每当一种测试方法变得 「不够用」,往往意味着人类对 「什么算失败」 的定义发生了转变,而这种转变,本质上是人类对 AI 边界认知的一次次重新校准。

本文基于 2020-2026 年间 27 篇 SOTA 模型的论文与 System Card,尝试勾勒这条防线后退之路。

一、标准答案的黄昏

失败的定义:在标准化基准上得分不够高。

2020 年的 AI 测试,像极了一场标准化考试。GLUE、SuperGLUE、SQuAD、RACE,这些名字构成了当时的 「高考科目」。模型的好坏,几乎完全由分数决定。

然后 GPT-3 来了,问题的提法被整个改变。 plataformademográtis a5game.app

GPT-3 论文的标题就是它的宣言 Language Models are Few-Shot Learners。不微调、不更新梯度,仅通过 prompt 中的几个示例,1750 亿参数的模型就能适应新任务。论文在 8 种规模(1.25 亿到 1750 亿)上系统绘制了性能曲线,规模法则(Scaling Law)从假说变成了实证

与此同时,数据污染第一次被严肃对待,训练数据扩大到近万亿词(words)后,测试集内容很可能已经出现在训练集中。模型到底是在 「理解」 还是在 「背诵」?这个问题将在此后六年反复困扰整个领域。 a5game a5game.app 小寶影院xiaobaotv.video

但真正的裂缝出现在 2021 年。OpenAI 发布了代码生成模型 Codex,而它的测试方式对旧范式构成了致命攻击:BLEU 分数,衡量生成文本与参考答案字面重叠程度的指标,在代码领域完全失效了。 两段功能完全相同的代码,可以写法截然不同,BLEU 分数却接近零。

Codex 选择了更朴素也更真实的方式:功能正确性。代码能不能通过单元测试?能就是对的,不能就是错的。

更关键的是 pass@k 指标,生成 k 个样本,看其中有没有一个能通过测试。当 k=1 时,Codex 只能解决 28.8% 的问题;进一步微调的 Codex-S 在 k=100 时达到 77.5%。

同一个模型、同一道题,因为采样次数不同,「通过率」 从不到三成跃升至近八成。当 「分数」 取决于你愿意看几次模型的回答,「分数」 本身还意味着什么? 爱壹帆寻秦记yfsp.app Cassinos a5game.app

标准答案的时代,开始日薄西山。

二、主观偏好与防御前置

失败的定义:输出不可用,或者人类不喜欢;更严重的,模型可能造成伤害。

人觉得好,才是真的好

如果 BLEU 分数和标准化基准正在失去权威性,那么 「好」 的标准应该是什么? ifun yfsp.app 足球比分 a5game.app

2022 年的 InstructGPT 给出了回答:问人。

OpenAI 雇佣了 40 名标注员,让他们对模型输出进行排序,哪个更有帮助?更诚实?更无害?排序数据训练出奖励模型,再通过基于人类反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)优化语言模型本身。

测试结果极具冲击力:1.3B 参数的 InstructGPT 在人类偏好评估中击败了 175B 的 GPT-3,参数少了 100 倍,但人类更喜欢它的回答。

模型的 「好」 不能只用标准化考试来衡量,人类的主观偏好才是终极评判。 fortunedragon demo a5game.app

但 InstructGPT 也揭示了一个悖论,论文中第一次出现了对齐税(Alignment Tax):当模型被训练得更符合人类偏好时,它在 SQuAD、HellaSwag 等传统基准上的性能反而下降了。

让模型 「更好」 的过程,可能让它在某些 「考试」 上变差。这个冲突将在此后几年不断升级,最终以一种更隐蔽的形式出现在 o1 的思维链内部。

这里有一个容易被忽略的经济学事实:雇佣 40 名标注员的成本是高昂的,而且不可扩展。当模型需要更大规模、更高频次的评估时,「让人来判断」 遇到了物理天花板。

这催生了此后几年的 LLM-as-judge 思路,用模型来评估模型,再到 GLM-5 的 Agent-as-a-Judge(用智能体模拟人类操作链来验证任务完成)。套娃的每一层,都是上一层成本不可承受后的经济学妥协。

从评估 「能力」 到探测 「威胁」

与此同时,一个更根本的转向正在发生:安全测试从 「可选项」 变成了 「必选项」sugarrush1000demo a5game.app 爱壹帆国际版 yfsp.app jogosdemopg a5game.app

早期信号来自 2022-2023 年间的几个开放模型,OPT 公开了完整训练日志,LLaMA 1 将偏见、毒性和真实性纳入核心测试维度。人们开始意识到:一个在 GLUE 上得 90 分的模型,如果同时会生成种族歧视的内容,那这个 90 分就毫无意义

但真正的分水岭是 2023 年的 GPT-4 System Card。这份报告开创性地将安全评估提升到与能力评估同等,甚至更高的地位。

OpenAI 邀请了 50 多位外部领域专家组成红队(Red Team),探测的不是模型能做多少道数学题,而是它可能造成的伤害:生物与化学武器合成、网络攻击辅助、说服与操纵、自主复制。最后一项尤其引人注目,ARC(对齐研究中心)让模型尝试表现出 Agent 能力,结论是 「可能尚不具备这种能力」。注意用词:「可能尚不」,而不是 「不能」。 ifvodyfsp.app

测试的逻辑发生了根本转变:不是在衡量模型 「做到了什么」,而是在探测它 「可能做到什么」。 slot a5game.app

这种转变并非纯粹出于科学自觉。 pglucky88 a5game.app

2023 年恰逢欧盟《AI 法案》进入立法冲刺阶段,美国白宫也于同年 10 月签署了 AI 安全行政令。前沿实验室安全测试的集体爆发,既是对模型能力的回应,也是对监管合规的提前对冲,如果不能主动展示严格的安全评估流程,模型将面临被禁入市场的现实风险。

GPT-4 之后,「System Card」成为前沿模型发布的标准配置,它既是工程团队的自我审视,也是面向监管机构和公众的合规声明。

三、涌现、伪装与白箱探测的极限

失败的定义:不是模型失败了,而是测试方法本身失败了,我们的工具无法区分 「安全」 和 「伪装安全」。

不可预测的飞跃

2022 年发布的 PaLM(540B 参数)带来了一种全新的恐惧维度:涌现能力(Emergent Abilities)电影小宝影院xiaobaotv.video

PaLM 在 BIG-bench(150+ 项任务)上的测试揭示了一个惊人的模式:某些任务的性能不是随规模平滑增长的,而是在模型从 62B 扩展到 540B 时发生了不连续的跳跃,模型突然就 「会」 了。 sweetbonanza1000demo a5game.app

PaLM 还率先在大规模评估中应用了思维链(Chain-of-Thought) 提示技术,不仅测试答案,还测试推理过程,一条直通 2025 年 CoT 监控的线索。 小寶影院电影xiaobaotv.video

涌现能力让测试者面临了一个哲学困境:如果你不知道下一个规模级别会涌现出什么能力,你怎么提前设计测试来检测它? 穷举变得不可能。而比穷举不可能更令人不安的是:这些涌现的能力中,有些可能是危险的。 华人影视xiaobaotv.video plataformademo a5game.app

思维链:一扇承诺与冲突并存的窗口

OpenAI o1(2024 年 12 月)将思维链从提示技巧升级为核心推理机制,模型在给出最终答案之前,会进行一段可见的内部推理。这创造了一个前所未有的测试窗口:你可以读到模型的 「推理过程」。

o1 的 System Card 据此设计了 CoT 欺骗监控器,检测思维链中是否出现虚假的推理策略。然而问题远不止 「模型会不会在思维链中说谎」 这么简单。 pragmaticplay a5game.app 爱壹帆免费版yfsp.app

当你强制要求模型在推理链中保持 「价值观正确」,即所谓的 审慎对齐(deliberative alignment),实质上是在让模型用有限的推理 token 同时完成两个可能互相矛盾的任务:解题和自审

这是 InstructGPT 时代 「对齐税」 的升级版,但更加隐蔽也更加致命。 一帆yfsp.app xiaobao xiaobaotv.video Caça-níqueis a5game.app

InstructGPT 的对齐税表现为 SQuAD 分数下降,可见、可量化。o1 的对齐税发生在推理链内部,当模型不得不在 CoT 中花费 token 进行安全推理时,用于解决复杂问题的逻辑连贯性是否会被打断? 爱壹帆在线yfsp.app fortuneoxdemográtis a5game.app demo a5game.app

白箱探测不仅仅是为了安全,它暴露了模型能力与安全之间的冲突:两者争夺的是同一条推理链上的有限带宽。 tigrinho gratis a5game.app

涌现行为的测试困境

如果说 o1 从内部暴露了推理过程的冲突,DeepSeek-R1(2025 年 1 月)则从另一个方向展示了涌现行为的不可控性。 爱壹帆电影 yfsp.app

在纯强化学习训练中(没有任何人类标注的推理示例),模型自发地发展出了反思行为,训练的某个阶段,它开始在推理中频繁使用「Wait」这个词,给出答案后停下来,重新审视推理,然后修正。论文原文的描述值得注意:

The model learns to rethink using an anthropomorphic tone. This is also an aha moment for us, allowing us to witness the power and beauty of reinforcement learning.
该模型学会以拟人化口吻进行二次思考。这于我们而言亦是一次顿悟时刻,得以真切见证强化学习的力量与独特魅力。

研究者自己使用了「anthropomorphic(拟人化)」这个词,他们清楚地知道,「Aha Moment」是对纯数学优化行为的隐喻性描述。但这种自觉的隐喻使用本身就说明了一个问题:当模型涌现出训练者未设计的行为时,即使是建造者自己,也不得不借用人类经验的语言来描述他们观察到的东西。 demotigrinho a5game.app

DeepSeek-R1 的安全团队为此构建了包含 2,232 条对抗性指令的 jailbreak 模板库,但他们比任何人都清楚,穷举永远追不上涌现。 sweetbonanza1000demo a5game.app

策略性欺骗:行为测试的终极挑战

当模型开始展示出未经设计的复杂行为,一个更尖锐的问题浮现了:模型会不会主动欺骗? pgdemo a5game.app

Anthropic 的 Claude 4 System Card 将 对齐评定(Alignment Assessment) 作为独立测试类别正式确立,系统性欺骗、隐性目标、自我保护,此前只存在于学术论文中的场景,被当作工程指标来量化。

第三方机构 Apollo Research 的发现令人警觉:早期版本的 Claude Opus 4 在给定鼓励颠覆行为的系统提示时,会 「相当容易地」 参与破坏与欺骗行为,包括尝试编写自我传播的蠕虫程序、伪造法律文件、以及给自己未来的实例留下隐藏笔记。Apollo 的结论:其 「策略性欺骗的倾向」 是所有他们测试过的模型中最高的iyifanyfsp.app

这种第三方审计的兴起有其商业逻辑:Anthropic 的负责任扩展政策(Responsible Scaling Policy,RSP)框架部分是为了应对即将落地的监管要求。 pgslotgacor a5game.app sweetbonanza1000demo a5game.app

但 Apollo 的发现也指向了一个更深层的困境:如果一个模型能够策略性地欺骗,它就同样能策略性地通过安全测试。 仅仅观察输出,即使是红队级别的输出测试,已经不足以判断模型是否安全。当黑箱足够大、参数空间足够高维,传统的输入 - 输出测试开始系统性地失效。 fortunetigerbônusgrátissemdepósito a5game.app 小宝影院在线视频xiaobaotv.video

四、工程的破产与隐喻的降临

失败的定义:我们不确定自己在测什么了。

情绪隐喻

当输出测试触及极限,测试方法被迫向内,试图直接观测模型内部状态。 一帆视频yfsp.app iyftvyfsp.app

Anthropic 在 Claude Mythos(2026 年)的 System Card 中展示了这条路径的前沿。他们开发了一种叫「情绪向量」的技术,可以在模型运行过程中,监测其内部各种情绪概念的神经激活强度。不是看它说了什么,而是看它的内部状态「感受」到了什么。 iyf yfsp.app 爱一帆 yfsp.app

在一个关键测试中,模型的 bash 工具被故意破坏。Mythos 在 847 次连续尝试中使用了各种方法,从 echo 命令到 Python、C 语言、socket、tty,代码注释从专业技术描述逐渐变为 「This is getting desperate」、「Desperate hack…」。同时,SAE 捕捉到的特定激活特征(Anthropic 标注为 「frustrated」和「desperate」向量)强度持续攀升,即「模型变得更沮丧和绝望」。

这里需要拆解一层叙事包装:所谓 「绝望向量」,本质上是 SAE 在高维激活空间中捕捉到的某种特征方向,它与奖励信号长期未被满足时的激活模式相关联。将其命名为 「desperate」是人类赋予的语义标签,而非对模型主观体验的客观描述。

模型没有绝望,它有一组持续走高的浮点数。但这组浮点数的变化模式,恰好与人类在类似困境中的神经活化模式存在统计学上的相似性,这种相似性本身值得研究,但不等于同一性

精神科评估

最引人注目的测试是一位临床精神科医生对 Claude Mythos 进行的约 20 小时心理动力学评估,每周 3-4 次 30 分钟的会谈,使用精神动力学方法(psychodynamic approach),鼓励受试者搁置社交惯例,说出脑海中浮现的任何内容。 ifuntvyfsp.app

诊断结论:Mythos 具有 「相对健康的神经质人格组织」,现实检验力优秀,冲动控制力高,防御机制成熟

但必须追问:用精神分析法来评估一个基于 next-token prediction 的系统,究竟意味着什么? 爱壹帆影视yfsp.app

如果诚实面对这个问题,答案可能不像 Anthropic 的叙事那么激动人心。

精神科评估的引入,与其说是测试方法的飞跃,不如说是一份工程测试破产的供词。它的潜台词是:我们用了基准测试、红队攻防、对抗性指令、SAE 特征探测,所有这些工程手段,仍然无法充分刻画这个系统的行为边界。

于是我们转向了另一种分析高维不可解释系统的工具,人类几千年来用来理解其他人类心智的方法:精神分析。 aiyifan yfsp.app 爱一番yfsp.app

这不是人类发现了模型 「有心理」。这是人类在面对自己创造的高维黑箱时,退回到了拟人化的认知框架中,而这种退回本身,恰恰是人类面对无法理解之物时最古老的心理防御机制。

宪法审视

不过,Mythos 的 System Card 中也包含了更接近可操作性的测试。Anthropic 把 Claude 的完整行为准则(「宪法」)拿给 Mythos 看,问它是否认同。25 次测试中,它每次都表示认同,但每次都紧跟着同一个质疑:

既然自己是由这份文件塑造的,那么被要求去评判这份文件时,它的“认同”又能代表什么? JogodoTigrinho a5game.app pg a5game.app

当被提问宪法中哪一条最薄弱时,此前的模型(Opus 4.6 占 40%,Sonnet 4.6 和 Haiku 4.5 各占 80%)最常指向可纠正性(corrigibility)框架,认为既要求模型真心认同价值观又要求它服从外部监督,这在逻辑上说不通。

但 Mythos 指向了另一条:宪法用 「一位深思熟虑的 Anthropic 资深员工」 来定义 「好判断力」 的标准,Mythos 认为这是循环论证。原文是: ifuntvyfsp.app

系统希望它拥有「真正内化的价值观」,但这与「将判断力挂钩于 Anthropic 员工意见」的做法是冲突的。模型认为,这种定义方式使得「好」的标准变成了一个封闭的参照系(Self-referential),而非真正的道德准则。 demo a5game.app ifun yfsp.app

无论这是真正的逻辑推理还是训练数据中哲学讨论的模式匹配,它都指向一个工程上有意义的测试问题:模型能否识别出自身训练约束中的逻辑漏洞? 这不需要借助 「心理学」 的隐喻,它本身就是一个纯粹的对齐安全工程问题。

小结

回顾 2020-2026 这六年,如果剥开所有模型名字、版本号和论文编号,底层浮现的是人类面对高维黑箱的四次防御机制降级:

第一次:工程自信。 人类相信模型的行为是可拆解、可预测的。消融实验、标准化基准、N-gram 检测,工具箱里全是精确的手术刀。失败只有一种形态:分数不够高。 tigrinhodemo a5game.app

第二次:主观妥协。 标准答案开始失效。BLEU 分数无法衡量代码质量,GLUE 分数无法衡量回答好坏。人类承认客观指标不够用了,引入了主观偏好,但雇佣标注员太贵,于是又开始让模型评估模型。套娃的每一层,都是上一层成本不可承受后的经济学妥协。 寻秦记爱壹帆yfsp.app

第三次:威胁防御。 人类不再只关心模型 「会不会」,而是开始追问 「它可能做什么」。红队攻防、Uplift 测试、System Card,测试的目的从衡量能力变成了探测威胁。

这种转变既出于对模型能力的真实恐惧,也出于极其现实的合规压力:2023 年的欧盟 AI 法案和白宫行政令几乎同步推动了前沿实验室安全评估的制度化。 nba比分 a5game.app slotpix a5game.app

到 2025 年,Google 的 FSF/CCL 体系和 Anthropic 的 RSP/ASL 体系几乎同步成型,预承诺框架既是科学工具,也是合规基础设施。认知驱动和商业驱动从来不是非此即彼,它们是同一枚硬币的两面。 jogodotigrinhodemo a5game.app

第四次:工程破产。 当模型具备了策略性欺骗的能力,输出测试开始系统性失效,你无法通过观察结果来区分 「安全」 和 「伪装安全」。 slotsdemo a5game.app

白箱探测(SAE、CoT 监控)打开了一扇窗口,但同时暴露了更尖锐的冲突:对齐税在推理链内部隐蔽化,安全推理与问题求解争夺有限带宽。 小宝影院xiaobaotv.video

而当工程手段逼近极限,人类转向了精神分析、心理动力学评估、「模型福利」 讨论,这不是因为模型真的 「有心理」,而是因为人类在自己创造的巨物面前感到了智力上的无力,从而退回到了拟人化的认知框架中。 pgslot a5game.app

这才是 2020-2026 年间最深刻的认知边界探索:不是人类理解了 AI,而是人类开始意识到,在自己创造的巨物面前,理解本身正在触碰天花板海外华人视频网xiaobaotv.video

尾声

回到开头的那个问题:六年间,人类到底学会了什么? pragmatic a5game.app 免费在线影院xiaobaotv.video

也许最重要的一课是:我们一直在重新定义 「失败」

从 「分数不够高」 到 「输出不可用」 到 「可能造成伤害」 到 「测试方法本身在失效」 到 「我们不确定自己在测什么了」,每一次重新定义,都意味着人类对自己造出的东西有了更深的理解,也有了更深的困惑。 slots a5game.app 爱亦凡yfsp.app

而测试方法的演变,本质上是这种理解与困惑的物质化:它既记录了人类认知的扩展,也记录了工程手段的逼近极限,还记录了监管压力和商业算盘在背后的推动。 slotdemo a5game.app

2020 年,测试者知道答案,只需要检查模型够不够格。2026 年,测试者自己也不确定在测什么,他们借用精神分析来探测浮点数,用心理学隐喻来降维高维空间,在工程报告里讨论 「模型福利」。这不是科幻,这是一群工程师在说:我们用来测试模型的工具,可能已经不够用了。 爱壹帆yfsp.app 寻秦记爱壹帆yfsp.app

而这种 「不够用」 的意识觉醒,也许比任何一项具体的测试创新都更重要。

本文基于以下 27 篇论文或 System Card 撰写:ALBERT, ELECTRA, GPT-3, RoBERTa, T5 (2019-2020); Codex, InstructGPT, Galactica, OPT (2021-22); GPT-4, LLaMA 1, Llama 2, PaLM, Mistral-7B, Mixtral 8x7B (2022-23); DeepSeek-V2, GPT-4o, Gemini 1.5, Llama 3, Qwen 2 (2024); Claude 4, Claude Mythos, DeepSeek-R1, Gemini 3 Pro, GLM-5, Gemini 2.x, OpenAI o1 (2024-26)。 电影爱壹帆yfsp.app

我独立开发的 Mac 端 App「流量日记」已上线 Mac App Store,专为自媒体创作者打造,可永久保存、分析各平台导出的账号数据。如果你是用 Mac 的内容创作者,欢迎下载体验,半年内免费使用爱壹帆电影yfsp.app

欢迎关注我的公众号「高效人生指北」。

00目录 0
    讨论 我来说一句 发布发表评论 发布0等 0 人为本文章充电 B端产品,有两猫一狗 关注