对话OpenAI科学家:传统基准测试无法衡量现代AI模型

阿尔法工场

2026-07-01 09:48

Noam Brown是OpenAI的研究科学家,2023年加入OpenAI,以前在Meta工作,是扑克AI和大模型推理技术领域的知名专家。他最出名的成绩是做出了能打赢人类顶尖高手的扑克程序,现在正负责OpenAI里让模型更会“思考”的核心项目。

这是一场关于AI 推理模型、大规模测试时计算(Test-Time Compute)及模型评估现状的深度访谈(Noam Brown 做客 No Priors 播客)。

以下是访谈内容的干货

一、现有基准测试(Benchmark)的缺陷

• 当前模型能力高度依赖投入的测试时计算预算(token、时间、金钱),但传统 Benchmark 只给单一分数,未控制或展示测试时计算量,导致新一代推理模型(如 5.5 vs 5.4)的真实提升被低估。

• Noam 主张应将性能绘制为测试时计算量的函数,或在固定预算下比较模型,而非只看静态网格分数。

二、测试时计算扩展的意义与安全评估挑战

• 现代模型在合理脚手架(scaffold)下可经数周推理才趋近性能天花板,现有 Responsible Scaling Policies 未充分考虑不同预算下的危险能力差异。

• 安全评估同样面临"用多少预算评估模型危险能力"这一未被充分讨论的问题。

三、实用场景与模型使用建议

• 思考时长应灵活——简单问题快速响应,复杂问题允许长思考,目前用户和业界基本在 striking the right balance

• Noam 日常用模型处理税务咨询、买房文书等真实问题,认为当前模型输出可信度已可媲美人类专家。

四、用扑克Bot 构建评估模型推理能力

• Noam "让模型写扑克 Bot"作为私有 eval:早期模型做 River Solver 都需引导;5.5 可零样本完成 River Solver,经轻微引导可做完整求解器。

• 模型曾出现"gaslighting"现象(如坚称弃牌损失 92 而非 100),5.5 已明显改善。

五、未充分探索的潜藏能力与Erds 单位距离猜想

• 当前已发布模型在足够大推理预算+脚手架下可能已能解决部分未解数学问题(如 Erds 单位距离猜想已被 OpenAI 内部模型推翻),但外界未充分探索大预算下的能力上限。

• 模型迭代快,同等任务推理成本每代降 10~100 倍,存在"等下一代更便宜""现在探索极限"的权衡。

六、递归自我改进与"智能爆炸"观点

• 并非所有任务都随测试时计算增加而改善(如纯事实回忆),且模型尚缺"研究品味",无法完全替代研究员提出原创算法或方向。

• 因强大能力依赖大量运行时间,时间是瓶颈,不太可能出现瞬间 overnight 智能爆炸,更可能是渐进式加速(Gradual Takeoff)。

七、多智能体、竞争与行业展望

• 未来方向包括多智能体协调与跨会话知识积累(人类靠文明积累知识,模型目前 context 消失后归零)。

• 前沿实验室竞争虽激烈,但各方均意识到风险与责任,力求正向结果而非单纯竞速。

八、对研究社区的最后呼吁

• 业界陷入"大家都发 Benchmark 网格 → 大家期待网格"的坏均衡,Noam 撰文呼吁改以测试时计算量为横轴绘图呈现性能曲线,打破错误均衡。(No Priors)


用户在证星号发表的信息将由本网站记录保存,仅代表作者个人观点,与本网站立场无关,不构成投资建议,据此操作风险自担

网站导航 | 公司简介 | 法律声明 | 诚聘英才 | 征稿启事 | 联系我们 | 广告服务 | 举报专区
欢迎访问证券之星!请点此与我们联系 版权所有: Copyright © 1996-