一图详解Transformer

  • 量子位
  • 2024-09-23 09:13:56
#一图详解Transformer#

数据科学家Josep Ferrer制作了一张详解Transformer原理的图片!(图1)
推荐还不了解Transformer的朋友们看看!

主要内容有:
1. 什么是Transformer?(图2)
Transformer是一种神经网络,擅长理解顺序数据的上下文并从中生成新数据。
它是第一个完全依赖自注意力,不使用 RNN 或卷积的架构。

2.把Transformer当成黑箱(图3)
将用于语言翻译的 Transformer 想象为一个黑箱。
• 输入:某种语言的一句话。
• 输出:翻译后的结果。
这个黑匣子里面会发生什么呢?让我们来看看吧!

3.编码器(encoder)/解码器(decoder) 架构(图4)
• 输入:西班牙语句子¿De quién es?
• 编码器:将它转换为可以代表其本质的结构化格式。
• 解码器:接收编码数据并生成翻译。
• 输出:翻译后的句子:这是谁的?

4.Transformer背后的架构(图5)
每个编码器和解码器都由很多层(layer)组成。它们的工作原理如下:
• 编码器:按顺序、逐层处理输入。
• 解码器:获取编码数据并逐步生成输出。
两者都使用自注意力和前馈神经网络,能够生成自然语言结果!

发表评论