OpenAI 推理模型 o1 评估研究报告...

互联网的那点事
2024-09-24 12:10:05

OpenAI 推理模型 o1 评估研究报告

准确率高达 97.8% 远超其他 LLM 模型但成本非常高

亚利桑那州立大学的研究人员基于 PlanBench 基准测试，评估了当前 LLMs 和新型 LRM（ OpenAI 的 o1 模型）在规划任务中的表现。

模型推理表现：

o1 模型o1 -preview模型在600个Blocksworld问题中的准确率为97.8%，这是现有模型中的最高表现，明显优于其他 LLMs。

-Claude 3.5和Claude 3的准确率分别为54.8%和59.3%。

-LLaMA 3.1 405B模型的准确率为62.6%，是LLMs中表现最好的。

-GPT-4的表现中规中矩，准确率为34.6%，而GPT-4 Turbo为40.1%。

-其他模型，如Gemini 1.5 Pro和Gemini 1 Pro的表现则明显较差。

在 Mystery Blocksworld 这种混淆版本的测试中，o1 模型也取得了 52.8% 的准确率，大幅超越其他模型。

推理时间与成本

o1 -preview模型在每个实例上花费了大约40秒，而在Mystery Blocksworld问题上，推理时间增加到83秒。相比之下，经典的规划算法（如Fast Downward）能够以接近零成本和每个实例0.265秒的时间解决问题。

经济成本方面：尽管 o1 模型在某些任务上具有较高的准确性，但其推理过程非常耗时且昂贵。例如，每 100 个实例的推理成本高达 42.12 美元，远高于传统 LLM 模型的推理成本。

研究者在短期内对o1 模型的评估一共花费了**$1897.55美元**

详细报告解读：网页链接
原报告：网页链接

发表评论