模型时代山姆·奥特曼...

高飞
2024-11-03 10:13:02

#模型时代# 山姆·奥特曼：我听说GPT-o2的GPQA分数是105%。
OpenAI是几个前沿模型公司中，最会搞营销的，这当然主要靠奥特曼。用国内的话术，他也是几家公司中，唯一的IP企业家，Deepmind的哈萨比斯、Anthropic的Dario都没有这样的媒体光环（副业是xAI的马斯克可以算另一个）。
昨天奥特曼又搞了个事情，在X上发推说，“听说o2的GPQA分数是105%”，然后又在下边接了一句，“糟糕，忘切账号了”。

不管这事儿，是真是假，但是如果o2的GPQA分数是105%，那确实是大事件了。

简单介绍一下GPQA（有兴趣进一步了解的，可以看原始论文：arxiv.org/abs/2311.12022）：
GPQA 是 Graduate-Level Google-Proof Q&A Benchmark 的缩写。这这是一个非常具有难度的数据集，旨在评估 Large Language Models (LLMs)和可扩展监督机制的能力。具体来说，GPQA 由生物、物理和化学领域专家精心设计的 448 道选择题组成。难到什么程度呢？

即使是拥有或正在攻读相应领域博士学位的专家，在这些问题上的准确率也只有65%（如果不包括事后发现的明显错误，则为74%）。

大家可能想，大模型有海量数据集支撑，啥都懂，很容易得高分吧。并不是，因为这些问题都是 "防谷歌 "的，这意味着即使不受限制地访问网络，技术高超的非专业验证者在花费 30 分钟以上的时间搜索答案后，准确率也只能达到34%。例如在有机化学领域的问题会涉及：异构体数量计算、生物分子反应、或量子力学中的态转换操作等。

因此，即使是Claude3.5最新的Sonnet模型，在这个项目的得分也只有65%，GPT-4o只有53.6%，谷歌的Gemini Pro 1.5则是59.1%。

但是，有一个问题，由于GPQA是按照百分比评分，所以这个测试的理论上最高分数就是100%。所以我问GPT-4o，如果山姆·奥特曼说最新的o2模型实现了105%，可能的原因有哪些，模型在其中一个理由写到：
“有时，105%这种表述是一种营销手段，用来吸引注意，暗示模型性能相较于以往的显著提升。它可能是为了强调产品“超乎想象的”性能，而不是在数学上真实可行的准确率”。

你看ChatGPT还是很了解东家的思路的。

发表评论