一图详解Transformer 量子位 2024-09-23 09:13:56 #一图详解Transformer#数据科学家Josep Ferrer制作了一张详解Transformer原理的图片!(图1)推荐还不了解Transformer的朋友们看看!主要内容有:1. 什么是Transformer?(图2)Transformer是一种神经网络,擅长理解顺序数据的上下文并从中生成新数据。它是第一个完全依赖自注意力,不使用 RNN 或卷积的架构。2.把Transformer当成黑箱(图3)将用于语言翻译的 Transformer 想象为一个黑箱。 • 输入:某种语言的一句话。• 输出:翻译后的结果。这个黑匣子里面会发生什么呢?让我们来看看吧! 3.编码器(encoder)/解码器(decoder) 架构(图4)• 输入:西班牙语句子¿De quién es?• 编码器:将它转换为可以代表其本质的结构化格式。• 解码器:接收编码数据并生成翻译。• 输出:翻译后的句子:这是谁的?4.Transformer背后的架构(图5)每个编码器和解码器都由很多层(layer)组成。它们的工作原理如下:• 编码器:按顺序、逐层处理输入。• 解码器:获取编码数据并逐步生成输出。两者都使用自注意力和前馈神经网络,能够生成自然语言结果!