对话OpenAI科学家：传统基准测试无法衡量现代AI模型

阿尔法工场

2026-07-01 09:48

Noam Brown是OpenAI的研究科学家，2023年加入OpenAI，以前在Meta工作，是扑克AI和大模型推理技术领域的知名专家。他最出名的成绩是做出了能打赢人类顶尖高手的扑克程序，现在正负责OpenAI里让模型更会“思考”的核心项目。

这是一场关于AI 推理模型、大规模测试时计算（Test-Time Compute）及模型评估现状的深度访谈（Noam Brown 做客 No Priors 播客）。

以下是访谈内容的干货：

一、现有基准测试（Benchmark）的缺陷

• 当前模型能力高度依赖投入的测试时计算预算（token、时间、金钱），但传统 Benchmark 只给单一分数，未控制或展示测试时计算量，导致新一代推理模型（如 5.5 vs 5.4）的真实提升被低估。

• Noam 主张应将性能绘制为测试时计算量的函数，或在固定预算下比较模型，而非只看静态网格分数。

二、测试时计算扩展的意义与安全评估挑战

• 现代模型在合理脚手架（scaffold）下可经数周推理才趋近性能天花板，现有 Responsible Scaling Policies 未充分考虑不同预算下的危险能力差异。

• 安全评估同样面临"用多少预算评估模型危险能力"这一未被充分讨论的问题。

三、实用场景与模型使用建议

• 思考时长应灵活——简单问题快速响应，复杂问题允许长思考，目前用户和业界基本在 striking the right balance。

• Noam 日常用模型处理税务咨询、买房文书等真实问题，认为当前模型输出可信度已可媲美人类专家。

四、用扑克Bot 构建评估模型推理能力

• Noam 用"让模型写扑克 Bot"作为私有 eval：早期模型做 River Solver 都需引导；5.5 可零样本完成 River Solver，经轻微引导可做完整求解器。

• 模型曾出现"gaslighting"现象（如坚称弃牌损失 92 而非 100），5.5 已明显改善。

五、未充分探索的潜藏能力与Erds 单位距离猜想

• 当前已发布模型在足够大推理预算+脚手架下可能已能解决部分未解数学问题（如 Erds 单位距离猜想已被 OpenAI 内部模型推翻），但外界未充分探索大预算下的能力上限。

• 模型迭代快，同等任务推理成本每代降 10~100 倍，存在"等下一代更便宜"与"现在探索极限"的权衡。

六、递归自我改进与"智能爆炸"观点

• 并非所有任务都随测试时计算增加而改善（如纯事实回忆），且模型尚缺"研究品味"，无法完全替代研究员提出原创算法或方向。

• 因强大能力依赖大量运行时间，时间是瓶颈，不太可能出现瞬间 overnight 智能爆炸，更可能是渐进式加速（Gradual Takeoff）。

七、多智能体、竞争与行业展望

• 未来方向包括多智能体协调与跨会话知识积累（人类靠文明积累知识，模型目前 context 消失后归零）。

• 前沿实验室竞争虽激烈，但各方均意识到风险与责任，力求正向结果而非单纯竞速。

八、对研究社区的最后呼吁

• 业界陷入"大家都发 Benchmark 网格 → 大家期待网格"的坏均衡，Noam 撰文呼吁改以测试时计算量为横轴绘图呈现性能曲线，打破错误均衡。（No Priors）

用户在证星号发表的信息将由本网站记录保存，仅代表作者个人观点，与本网站立场无关，不构成投资建议，据此操作风险自担

入驻