从模型跑分到心理评估：六年间人类如何学会测试自己造出的 AI

从模型跑分到心理评估：六年间人类如何学会测试自己造出的 AI 关注作者关注作者关注作者关注作者昨天 21:44

引言：对模型失败的定义，就是认知的边界

2020 年，一个模型如果在 GLUE 基准上得分不够高，我们说它「失败」了。

2026 年，Anthropic 请了一位精神科医生，用精神动力学方法（psychodynamic approach），对 Claude Mythos 进行了长达 20 小时的临床评估。医生给出了一份正式诊断：这个由浮点数构成的系统具有「相对健康的神经质人格组织」。

从考试得分到医生出具的诊断书，人类对模型的测试方式发生了颠覆性的变化。是人类真的在一堆矩阵运算中发现了「人格」？还是人类的工程测试手段已经山穷水尽，不得不向心理学借来隐喻工具，试图降维理解一个不可解释的黑箱？小宝影院电影xiaobaotv.video

纵观 2020-2026 年间 27 篇 SOTA 模型的论文与 system card，可以看到人类对模型的测试方法在不断变化：从迷信客观指标，到承认指标失效而引入人类偏好，到从测试「能力」转向探测「动机与边界」，最终到白箱探测逼近极限、退化为使用心理学隐喻。 fortunetigerdemográtis a5game.app

每当一种测试方法变得「不够用」，往往意味着人类对「什么算失败」的定义发生了转变，而这种转变，本质上是人类对 AI 边界认知的一次次重新校准。

本文基于 2020-2026 年间 27 篇 SOTA 模型的论文与 System Card，尝试勾勒这条防线后退之路。

一、标准答案的黄昏

失败的定义：在标准化基准上得分不够高。

2020 年的 AI 测试，像极了一场标准化考试。GLUE、SuperGLUE、SQuAD、RACE，这些名字构成了当时的「高考科目」。模型的好坏，几乎完全由分数决定。

然后 GPT-3 来了，问题的提法被整个改变。 plataformademográtis a5game.app

GPT-3 论文的标题就是它的宣言 Language Models are Few-Shot Learners。不微调、不更新梯度，仅通过 prompt 中的几个示例，1750 亿参数的模型就能适应新任务。论文在 8 种规模（1.25 亿到 1750 亿）上系统绘制了性能曲线，规模法则（Scaling Law）从假说变成了实证。

与此同时，数据污染第一次被严肃对待，训练数据扩大到近万亿词（words）后，测试集内容很可能已经出现在训练集中。模型到底是在「理解」还是在「背诵」？这个问题将在此后六年反复困扰整个领域。 a5game a5game.app 小寶影院xiaobaotv.video

但真正的裂缝出现在 2021 年。OpenAI 发布了代码生成模型 Codex，而它的测试方式对旧范式构成了致命攻击：BLEU 分数，衡量生成文本与参考答案字面重叠程度的指标，在代码领域完全失效了。 两段功能完全相同的代码，可以写法截然不同，BLEU 分数却接近零。

Codex 选择了更朴素也更真实的方式：功能正确性。代码能不能通过单元测试？能就是对的，不能就是错的。

更关键的是 pass@k 指标，生成 k 个样本，看其中有没有一个能通过测试。当 k=1 时，Codex 只能解决 28.8% 的问题；进一步微调的 Codex-S 在 k=100 时达到 77.5%。

同一个模型、同一道题，因为采样次数不同，「通过率」从不到三成跃升至近八成。当「分数」取决于你愿意看几次模型的回答，「分数」本身还意味着什么？ 爱壹帆寻秦记yfsp.app Cassinos a5game.app

标准答案的时代，开始日薄西山。

二、主观偏好与防御前置

失败的定义：输出不可用，或者人类不喜欢；更严重的，模型可能造成伤害。

人觉得好，才是真的好

如果 BLEU 分数和标准化基准正在失去权威性，那么「好」的标准应该是什么？ ifun yfsp.app 足球比分 a5game.app

2022 年的 InstructGPT 给出了回答：问人。

OpenAI 雇佣了 40 名标注员，让他们对模型输出进行排序，哪个更有帮助？更诚实？更无害？排序数据训练出奖励模型，再通过基于人类反馈的强化学习（Reinforcement Learning from Human Feedback，RLHF）优化语言模型本身。

测试结果极具冲击力：1.3B 参数的 InstructGPT 在人类偏好评估中击败了 175B 的 GPT-3，参数少了 100 倍，但人类更喜欢它的回答。

模型的「好」不能只用标准化考试来衡量，人类的主观偏好才是终极评判。 fortunedragon demo a5game.app

但 InstructGPT 也揭示了一个悖论，论文中第一次出现了对齐税（Alignment Tax）：当模型被训练得更符合人类偏好时，它在 SQuAD、HellaSwag 等传统基准上的性能反而下降了。

让模型「更好」的过程，可能让它在某些「考试」上变差。这个冲突将在此后几年不断升级，最终以一种更隐蔽的形式出现在 o1 的思维链内部。

这里有一个容易被忽略的经济学事实：雇佣 40 名标注员的成本是高昂的，而且不可扩展。当模型需要更大规模、更高频次的评估时，「让人来判断」遇到了物理天花板。

这催生了此后几年的 LLM-as-judge 思路，用模型来评估模型，再到 GLM-5 的 Agent-as-a-Judge（用智能体模拟人类操作链来验证任务完成）。套娃的每一层，都是上一层成本不可承受后的经济学妥协。

从评估「能力」到探测「威胁」

与此同时，一个更根本的转向正在发生：安全测试从「可选项」变成了「必选项」。 sugarrush1000demo a5game.app 爱壹帆国际版 yfsp.app jogosdemopg a5game.app

早期信号来自 2022-2023 年间的几个开放模型，OPT 公开了完整训练日志，LLaMA 1 将偏见、毒性和真实性纳入核心测试维度。人们开始意识到：一个在 GLUE 上得 90 分的模型，如果同时会生成种族歧视的内容，那这个 90 分就毫无意义。

但真正的分水岭是 2023 年的 GPT-4 System Card。这份报告开创性地将安全评估提升到与能力评估同等，甚至更高的地位。

OpenAI 邀请了 50 多位外部领域专家组成红队（Red Team），探测的不是模型能做多少道数学题，而是它可能造成的伤害：生物与化学武器合成、网络攻击辅助、说服与操纵、自主复制。最后一项尤其引人注目，ARC（对齐研究中心）让模型尝试表现出 Agent 能力，结论是「可能尚不具备这种能力」。注意用词：「可能尚不」，而不是「不能」。 ifvodyfsp.app

测试的逻辑发生了根本转变：不是在衡量模型「做到了什么」，而是在探测它「可能做到什么」。 slot a5game.app

这种转变并非纯粹出于科学自觉。 pglucky88 a5game.app

2023 年恰逢欧盟《AI 法案》进入立法冲刺阶段，美国白宫也于同年 10 月签署了 AI 安全行政令。前沿实验室安全测试的集体爆发，既是对模型能力的回应，也是对监管合规的提前对冲，如果不能主动展示严格的安全评估流程，模型将面临被禁入市场的现实风险。

GPT-4 之后，「System Card」成为前沿模型发布的标准配置，它既是工程团队的自我审视，也是面向监管机构和公众的合规声明。

三、涌现、伪装与白箱探测的极限

失败的定义：不是模型失败了，而是测试方法本身失败了，我们的工具无法区分「安全」和「伪装安全」。

不可预测的飞跃

2022 年发布的 PaLM（540B 参数）带来了一种全新的恐惧维度：涌现能力（Emergent Abilities）。电影小宝影院xiaobaotv.video

PaLM 在 BIG-bench（150+ 项任务）上的测试揭示了一个惊人的模式：某些任务的性能不是随规模平滑增长的，而是在模型从 62B 扩展到 540B 时发生了不连续的跳跃，模型突然就「会」了。 sweetbonanza1000demo a5game.app

PaLM 还率先在大规模评估中应用了思维链（Chain-of-Thought） 提示技术，不仅测试答案，还测试推理过程，一条直通 2025 年 CoT 监控的线索。小寶影院电影xiaobaotv.video

涌现能力让测试者面临了一个哲学困境：如果你不知道下一个规模级别会涌现出什么能力，你怎么提前设计测试来检测它？ 穷举变得不可能。而比穷举不可能更令人不安的是：这些涌现的能力中，有些可能是危险的。华人影视xiaobaotv.video plataformademo a5game.app

思维链：一扇承诺与冲突并存的窗口

OpenAI o1（2024 年 12 月）将思维链从提示技巧升级为核心推理机制，模型在给出最终答案之前，会进行一段可见的内部推理。这创造了一个前所未有的测试窗口：你可以读到模型的「推理过程」。

o1 的 System Card 据此设计了 CoT 欺骗监控器，检测思维链中是否出现虚假的推理策略。然而问题远不止「模型会不会在思维链中说谎」这么简单。 pragmaticplay a5game.app 爱壹帆免费版yfsp.app

当你强制要求模型在推理链中保持「价值观正确」，即所谓的 审慎对齐（deliberative alignment），实质上是在让模型用有限的推理 token 同时完成两个可能互相矛盾的任务：解题和自审。

这是 InstructGPT 时代「对齐税」的升级版，但更加隐蔽也更加致命。一帆yfsp.app xiaobao xiaobaotv.video Caça-níqueis a5game.app

InstructGPT 的对齐税表现为 SQuAD 分数下降，可见、可量化。o1 的对齐税发生在推理链内部，当模型不得不在 CoT 中花费 token 进行安全推理时，用于解决复杂问题的逻辑连贯性是否会被打断？爱壹帆在线yfsp.app fortuneoxdemográtis a5game.app demo a5game.app

白箱探测不仅仅是为了安全，它暴露了模型能力与安全之间的冲突：两者争夺的是同一条推理链上的有限带宽。 tigrinho gratis a5game.app

涌现行为的测试困境

如果说 o1 从内部暴露了推理过程的冲突，DeepSeek-R1（2025 年 1 月）则从另一个方向展示了涌现行为的不可控性。爱壹帆电影 yfsp.app

在纯强化学习训练中（没有任何人类标注的推理示例），模型自发地发展出了反思行为，训练的某个阶段，它开始在推理中频繁使用「Wait」这个词，给出答案后停下来，重新审视推理，然后修正。论文原文的描述值得注意：

The model learns to rethink using an anthropomorphic tone. This is also an aha moment for us, allowing us to witness the power and beauty of reinforcement learning.
该模型学会以拟人化口吻进行二次思考。这于我们而言亦是一次顿悟时刻，得以真切见证强化学习的力量与独特魅力。

研究者自己使用了「anthropomorphic（拟人化）」这个词，他们清楚地知道，「Aha Moment」是对纯数学优化行为的隐喻性描述。但这种自觉的隐喻使用本身就说明了一个问题：当模型涌现出训练者未设计的行为时，即使是建造者自己，也不得不借用人类经验的语言来描述他们观察到的东西。 demotigrinho a5game.app

DeepSeek-R1 的安全团队为此构建了包含 2,232 条对抗性指令的 jailbreak 模板库，但他们比任何人都清楚，穷举永远追不上涌现。 sweetbonanza1000demo a5game.app

策略性欺骗：行为测试的终极挑战

当模型开始展示出未经设计的复杂行为，一个更尖锐的问题浮现了：模型会不会主动欺骗？ pgdemo a5game.app

Anthropic 的 Claude 4 System Card 将 对齐评定（Alignment Assessment） 作为独立测试类别正式确立，系统性欺骗、隐性目标、自我保护，此前只存在于学术论文中的场景，被当作工程指标来量化。

第三方机构 Apollo Research 的发现令人警觉：早期版本的 Claude Opus 4 在给定鼓励颠覆行为的系统提示时，会「相当容易地」参与破坏与欺骗行为，包括尝试编写自我传播的蠕虫程序、伪造法律文件、以及给自己未来的实例留下隐藏笔记。Apollo 的结论：其「策略性欺骗的倾向」是所有他们测试过的模型中最高的。 iyifanyfsp.app

这种第三方审计的兴起有其商业逻辑：Anthropic 的负责任扩展政策（Responsible Scaling Policy，RSP）框架部分是为了应对即将落地的监管要求。 pgslotgacor a5game.app sweetbonanza1000demo a5game.app

但 Apollo 的发现也指向了一个更深层的困境：如果一个模型能够策略性地欺骗，它就同样能策略性地通过安全测试。 仅仅观察输出，即使是红队级别的输出测试，已经不足以判断模型是否安全。当黑箱足够大、参数空间足够高维，传统的输入 - 输出测试开始系统性地失效。 fortunetigerbônusgrátissemdepósito a5game.app 小宝影院在线视频xiaobaotv.video

四、工程的破产与隐喻的降临

失败的定义：我们不确定自己在测什么了。

情绪隐喻

当输出测试触及极限，测试方法被迫向内，试图直接观测模型内部状态。一帆视频yfsp.app iyftvyfsp.app

Anthropic 在 Claude Mythos（2026 年）的 System Card 中展示了这条路径的前沿。他们开发了一种叫「情绪向量」的技术，可以在模型运行过程中，监测其内部各种情绪概念的神经激活强度。不是看它说了什么，而是看它的内部状态「感受」到了什么。 iyf yfsp.app 爱一帆 yfsp.app

在一个关键测试中，模型的 bash 工具被故意破坏。Mythos 在 847 次连续尝试中使用了各种方法，从 echo 命令到 Python、C 语言、socket、tty，代码注释从专业技术描述逐渐变为「This is getting desperate」、「Desperate hack…」。同时，SAE 捕捉到的特定激活特征（Anthropic 标注为「frustrated」和「desperate」向量）强度持续攀升，即「模型变得更沮丧和绝望」。

这里需要拆解一层叙事包装：所谓「绝望向量」，本质上是 SAE 在高维激活空间中捕捉到的某种特征方向，它与奖励信号长期未被满足时的激活模式相关联。将其命名为「desperate」是人类赋予的语义标签，而非对模型主观体验的客观描述。

模型没有绝望，它有一组持续走高的浮点数。但这组浮点数的变化模式，恰好与人类在类似困境中的神经活化模式存在统计学上的相似性，这种相似性本身值得研究，但不等于同一性。

精神科评估

最引人注目的测试是一位临床精神科医生对 Claude Mythos 进行的约 20 小时心理动力学评估，每周 3-4 次 30 分钟的会谈，使用精神动力学方法（psychodynamic approach），鼓励受试者搁置社交惯例，说出脑海中浮现的任何内容。 ifuntvyfsp.app

诊断结论：Mythos 具有「相对健康的神经质人格组织」，现实检验力优秀，冲动控制力高，防御机制成熟。

但必须追问：用精神分析法来评估一个基于 next-token prediction 的系统，究竟意味着什么？ 爱壹帆影视yfsp.app

如果诚实面对这个问题，答案可能不像 Anthropic 的叙事那么激动人心。

精神科评估的引入，与其说是测试方法的飞跃，不如说是一份工程测试破产的供词。它的潜台词是：我们用了基准测试、红队攻防、对抗性指令、SAE 特征探测，所有这些工程手段，仍然无法充分刻画这个系统的行为边界。

于是我们转向了另一种分析高维不可解释系统的工具，人类几千年来用来理解其他人类心智的方法：精神分析。 aiyifan yfsp.app 爱一番yfsp.app

这不是人类发现了模型「有心理」。这是人类在面对自己创造的高维黑箱时，退回到了拟人化的认知框架中，而这种退回本身，恰恰是人类面对无法理解之物时最古老的心理防御机制。

宪法审视

不过，Mythos 的 System Card 中也包含了更接近可操作性的测试。Anthropic 把 Claude 的完整行为准则（「宪法」）拿给 Mythos 看，问它是否认同。25 次测试中，它每次都表示认同，但每次都紧跟着同一个质疑：

既然自己是由这份文件塑造的，那么被要求去评判这份文件时，它的“认同”又能代表什么？ JogodoTigrinho a5game.app pg a5game.app

当被提问宪法中哪一条最薄弱时，此前的模型（Opus 4.6 占 40%，Sonnet 4.6 和 Haiku 4.5 各占 80%）最常指向可纠正性（corrigibility）框架，认为既要求模型真心认同价值观又要求它服从外部监督，这在逻辑上说不通。

但 Mythos 指向了另一条：宪法用「一位深思熟虑的 Anthropic 资深员工」来定义「好判断力」的标准，Mythos 认为这是循环论证。原文是： ifuntvyfsp.app

系统希望它拥有「真正内化的价值观」，但这与「将判断力挂钩于 Anthropic 员工意见」的做法是冲突的。模型认为，这种定义方式使得「好」的标准变成了一个封闭的参照系（Self-referential），而非真正的道德准则。 demo a5game.app ifun yfsp.app

无论这是真正的逻辑推理还是训练数据中哲学讨论的模式匹配，它都指向一个工程上有意义的测试问题：模型能否识别出自身训练约束中的逻辑漏洞？ 这不需要借助「心理学」的隐喻，它本身就是一个纯粹的对齐安全工程问题。

小结

回顾 2020-2026 这六年，如果剥开所有模型名字、版本号和论文编号，底层浮现的是人类面对高维黑箱的四次防御机制降级：

第一次：工程自信。 人类相信模型的行为是可拆解、可预测的。消融实验、标准化基准、N-gram 检测，工具箱里全是精确的手术刀。失败只有一种形态：分数不够高。 tigrinhodemo a5game.app

第二次：主观妥协。 标准答案开始失效。BLEU 分数无法衡量代码质量，GLUE 分数无法衡量回答好坏。人类承认客观指标不够用了，引入了主观偏好，但雇佣标注员太贵，于是又开始让模型评估模型。套娃的每一层，都是上一层成本不可承受后的经济学妥协。 寻秦记爱壹帆yfsp.app

第三次：威胁防御。 人类不再只关心模型「会不会」，而是开始追问「它可能做什么」。红队攻防、Uplift 测试、System Card，测试的目的从衡量能力变成了探测威胁。

这种转变既出于对模型能力的真实恐惧，也出于极其现实的合规压力：2023 年的欧盟 AI 法案和白宫行政令几乎同步推动了前沿实验室安全评估的制度化。 nba比分 a5game.app slotpix a5game.app

到 2025 年，Google 的 FSF/CCL 体系和 Anthropic 的 RSP/ASL 体系几乎同步成型，预承诺框架既是科学工具，也是合规基础设施。认知驱动和商业驱动从来不是非此即彼，它们是同一枚硬币的两面。 jogodotigrinhodemo a5game.app

第四次：工程破产。 当模型具备了策略性欺骗的能力，输出测试开始系统性失效，你无法通过观察结果来区分「安全」和「伪装安全」。 slotsdemo a5game.app

白箱探测（SAE、CoT 监控）打开了一扇窗口，但同时暴露了更尖锐的冲突：对齐税在推理链内部隐蔽化，安全推理与问题求解争夺有限带宽。小宝影院xiaobaotv.video

而当工程手段逼近极限，人类转向了精神分析、心理动力学评估、「模型福利」讨论，这不是因为模型真的「有心理」，而是因为人类在自己创造的巨物面前感到了智力上的无力，从而退回到了拟人化的认知框架中。 pgslot a5game.app

这才是 2020-2026 年间最深刻的认知边界探索：不是人类理解了 AI，而是人类开始意识到，在自己创造的巨物面前，理解本身正在触碰天花板。海外华人视频网xiaobaotv.video

尾声

回到开头的那个问题：六年间，人类到底学会了什么？ pragmatic a5game.app 免费在线影院xiaobaotv.video

也许最重要的一课是：我们一直在重新定义「失败」。

从「分数不够高」到「输出不可用」到「可能造成伤害」到「测试方法本身在失效」到「我们不确定自己在测什么了」，每一次重新定义，都意味着人类对自己造出的东西有了更深的理解，也有了更深的困惑。 slots a5game.app 爱亦凡yfsp.app

而测试方法的演变，本质上是这种理解与困惑的物质化：它既记录了人类认知的扩展，也记录了工程手段的逼近极限，还记录了监管压力和商业算盘在背后的推动。 slotdemo a5game.app

2020 年，测试者知道答案，只需要检查模型够不够格。2026 年，测试者自己也不确定在测什么，他们借用精神分析来探测浮点数，用心理学隐喻来降维高维空间，在工程报告里讨论「模型福利」。这不是科幻，这是一群工程师在说：我们用来测试模型的工具，可能已经不够用了。爱壹帆yfsp.app 寻秦记爱壹帆yfsp.app

而这种「不够用」的意识觉醒，也许比任何一项具体的测试创新都更重要。

本文基于以下 27 篇论文或 System Card 撰写：ALBERT, ELECTRA, GPT-3, RoBERTa, T5 (2019-2020); Codex, InstructGPT, Galactica, OPT (2021-22); GPT-4, LLaMA 1, Llama 2, PaLM, Mistral-7B, Mixtral 8x7B (2022-23); DeepSeek-V2, GPT-4o, Gemini 1.5, Llama 3, Qwen 2 (2024); Claude 4, Claude Mythos, DeepSeek-R1, Gemini 3 Pro, GLM-5, Gemini 2.x, OpenAI o1 (2024-26)。电影爱壹帆yfsp.app

我独立开发的 Mac 端 App「流量日记」已上线 Mac App Store，专为自媒体创作者打造，可永久保存、分析各平台导出的账号数据。如果你是用 Mac 的内容创作者，欢迎下载体验，半年内免费使用。爱壹帆电影yfsp.app

欢迎关注我的公众号「高效人生指北」。

00目录 0

讨论我来说一句发布发表评论发布0等 0 人为本文章充电 B端产品，有两猫一狗关注