OpenAI 推理模型 o1 评估研究报告...

  • 互联网的那点事
  • 2024-09-24 12:10:05
OpenAI 推理模型 o1 评估研究报告

准确率高达 97.8% 远超其他 LLM 模型 但成本非常高

亚利桑那州立大学的研究人员基于 PlanBench 基准测试,评估了当前 LLMs 和新型 LRM( OpenAI 的 o1 模型)在规划任务中的表现。

模型推理表现:

o1 模型o1 -preview模型在600个Blocksworld问题中的准确率为97.8%,这是现有模型中的最高表现,明显优于其他 LLMs。

-Claude 3.5和Claude 3的准确率分别为54.8%和59.3%。

-LLaMA 3.1 405B模型的准确率为62.6%,是LLMs中表现最好的。

-GPT-4的表现中规中矩,准确率为34.6%,而GPT-4 Turbo为40.1%。

-其他模型,如Gemini 1.5 Pro和Gemini 1 Pro的表现则明显较差。

在 Mystery Blocksworld 这种混淆版本的测试中,o1 模型也取得了 52.8% 的准确率,大幅超越其他模型。

推理时间与成本

o1 -preview模型在每个实例上花费了大约40秒,而在Mystery Blocksworld问题上,推理时间增加到83秒。相比之下,经典的规划算法(如Fast Downward)能够以接近零成本和每个实例0.265秒的时间解决问题。

经济成本方面:尽管 o1 模型在某些任务上具有较高的准确性,但其推理过程非常耗时且昂贵。例如,每 100 个实例的推理成本高达 42.12 美元,远高于传统 LLM 模型的推理成本。

研究者在短期内对o1 模型的评估一共花费了**$1897.55美元**

详细报告解读:网页链接
原报告:网页链接

发表评论