模型时代 山姆·奥特曼... 高飞 2024-11-03 10:13:02 #模型时代# 山姆·奥特曼:我听说GPT-o2的GPQA分数是105%。OpenAI是几个前沿模型公司中,最会搞营销的,这当然主要靠奥特曼。用国内的话术,他也是几家公司中,唯一的IP企业家,Deepmind的哈萨比斯、Anthropic的Dario都没有这样的媒体光环(副业是xAI的马斯克可以算另一个)。昨天奥特曼又搞了个事情,在X上发推说,“听说o2的GPQA分数是105%”,然后又在下边接了一句,“糟糕,忘切账号了”。不管这事儿,是真是假,但是如果o2的GPQA分数是105%,那确实是大事件了。简单介绍一下GPQA(有兴趣进一步了解的,可以看原始论文:arxiv.org/abs/2311.12022):GPQA 是 Graduate-Level Google-Proof Q&A Benchmark 的缩写。这这是一个非常具有难度的数据集,旨在评估 Large Language Models (LLMs)和可扩展监督机制的能力。具体来说,GPQA 由生物、物理和化学领域专家精心设计的 448 道选择题组成。难到什么程度呢?即使是拥有或正在攻读相应领域博士学位的专家,在这些问题上的准确率也只有65%(如果不包括事后发现的明显错误,则为74%)。大家可能想,大模型有海量数据集支撑,啥都懂,很容易得高分吧。并不是,因为这些问题都是 "防谷歌 "的,这意味着即使不受限制地访问网络,技术高超的非专业验证者在花费 30 分钟以上的时间搜索答案后,准确率也只能达到34%。例如在有机化学领域的问题会涉及:异构体数量计算、生物分子反应、或量子力学中的态转换操作等。因此,即使是Claude3.5最新的Sonnet模型,在这个项目的得分也只有65%,GPT-4o只有53.6%,谷歌的Gemini Pro 1.5则是59.1%。但是,有一个问题,由于GPQA是按照百分比评分,所以这个测试的理论上最高分数就是100%。所以我问GPT-4o,如果山姆·奥特曼说最新的o2模型实现了105%,可能的原因有哪些,模型在其中一个理由写到:“有时,105%这种表述是一种营销手段,用来吸引注意,暗示模型性能相较于以往的显著提升。它可能是为了强调产品“超乎想象的”性能,而不是在数学上真实可行的准确率”。你看ChatGPT还是很了解东家的思路的。