chatgpt

  • 黄建同学
  • 2024-09-19 22:42:07
扩展 LLM 推理时的性能极限是多少?

该论文已经从数学上证明了,只要允许 Transformer 生成尽可能多的中间推理 token,它就能解决任何问题。值得注意的是,恒定深度就足够了。#ai##chatgpt#

Chain of Thought Empowers Transformers to Solve Inherently Serial Problems(思维链助力 Transformer 解决固有的串行问题)

论文:arxiv.org/abs/2402.12875

论文摘要:
指示模型生成一系列中间步骤,即思路链 (CoT),是一种非常有效的方法,可以提高大型语言模型 (LLM) 在算术和符号推理任务上的准确性。然而,CoT 背后的机制仍不清楚。

这项工作从表达能力的角度,为仅解码器的 Transformer 提供了 CoT 的强大功能的理论理解。从概念上讲,CoT 赋予模型执行固有串行计算的能力,而 Transformer 则缺乏这种能力,尤其是在深度较低的情况下。

给定输入长度n先前的研究表明,具有有限精度的恒定深度 Transformer聚(n)嵌入大小只能解决温度0没有 CoT。我们首先展示了一个更严格的表达能力上限,适用于具有恒定位精度的恒定深度 Transformer,它只能解决交流0,的真子集温度0。然而,CoT 的步骤,使用恒定位精度的恒定深度变压器和O (对数n )嵌入大小可以解决任何可以通过大小布尔电路解决的问题电视从经验上看,

启用 CoT 可显著提高难以并行计算的任务的准确性,包括置换群的组合、迭代平方和电路值问题,尤其是对于低深度 Transformer 而言。

ChatGPT

发表评论