阿尔法工场
Noam Brown是OpenAI的研究科学家,2023年加入OpenAI,以前在Meta工作,是扑克AI和大模型推理技术领域的知名专家。他最出名的成绩是做出了能打赢人类顶尖高手的扑克程序,现在正负责OpenAI里让模型更会“思考”的核心项目。
这是一场关于AI 推理模型、大规模测试时计算(Test-Time Compute)及模型评估现状的深度访谈(Noam Brown 做客 No Priors 播客)。
以下是访谈内容的干货:
一、现有基准测试(Benchmark)的缺陷
• 当前模型能力高度依赖投入的测试时计算预算(token、时间、金钱),但传统 Benchmark 只给单一分数,未控制或展示测试时计算量,导致新一代推理模型(如 5.5 vs 5.4)的真实提升被低估。
• Noam 主张应将性能绘制为测试时计算量的函数,或在固定预算下比较模型,而非只看静态网格分数。
二、测试时计算扩展的意义与安全评估挑战
• 现代模型在合理脚手架(scaffold)下可经数周推理才趋近性能天花板,现有 Responsible Scaling Policies 未充分考虑不同预算下的危险能力差异。
• 安全评估同样面临"用多少预算评估模型危险能力"这一未被充分讨论的问题。
三、实用场景与模型使用建议
• 思考时长应灵活——简单问题快速响应,复杂问题允许长思考,目前用户和业界基本在 striking the right balance。
• Noam 日常用模型处理税务咨询、买房文书等真实问题,认为当前模型输出可信度已可媲美人类专家。
四、用扑克Bot 构建评估模型推理能力
• Noam 用"让模型写扑克 Bot"作为私有 eval:早期模型做 River Solver 都需引导;5.5 可零样本完成 River Solver,经轻微引导可做完整求解器。
• 模型曾出现"gaslighting"现象(如坚称弃牌损失 92 而非 100),5.5 已明显改善。
五、未充分探索的潜藏能力与Erds 单位距离猜想
• 当前已发布模型在足够大推理预算+脚手架下可能已能解决部分未解数学问题(如 Erds 单位距离猜想已被 OpenAI 内部模型推翻),但外界未充分探索大预算下的能力上限。
• 模型迭代快,同等任务推理成本每代降 10~100 倍,存在"等下一代更便宜"与"现在探索极限"的权衡。
六、递归自我改进与"智能爆炸"观点
• 并非所有任务都随测试时计算增加而改善(如纯事实回忆),且模型尚缺"研究品味",无法完全替代研究员提出原创算法或方向。
• 因强大能力依赖大量运行时间,时间是瓶颈,不太可能出现瞬间 overnight 智能爆炸,更可能是渐进式加速(Gradual Takeoff)。
七、多智能体、竞争与行业展望
• 未来方向包括多智能体协调与跨会话知识积累(人类靠文明积累知识,模型目前 context 消失后归零)。
• 前沿实验室竞争虽激烈,但各方均意识到风险与责任,力求正向结果而非单纯竞速。
八、对研究社区的最后呼吁
• 业界陷入"大家都发 Benchmark 网格 → 大家期待网格"的坏均衡,Noam 撰文呼吁改以测试时计算量为横轴绘图呈现性能曲线,打破错误均衡。(No Priors)
用户在证星号发表的信息将由本网站记录保存,仅代表作者个人观点,与本网站立场无关,不构成投资建议,据此操作风险自担