1.1.2 理解Transformer架构及其在LLM中的作用_大模型应用开发极简入门：基于GPT-4和ChatGPT（第2版）-QQ阅读女频仙侠网

1.1.2　理解Transformer架构及其在LLM中的作用

Transformer 架构彻底改变了 NLP，主要原因在于它成功解决了 RNN 等早期模型的关键局限：难以处理较长的输入文本序列，并在长距离依赖中保持上下文信息。换句话说，RNN 在处理较长文本时容易遗忘前文内容，而 Transformer 通过自注意力（self-attention）机制，能够有效捕捉和编码全局上下文，从而显著提升文本理解与生成能力。

这场变革的核心是注意力机制（attention mechanism），一个简单却极其强大的概念。相比于将文本序列中的所有单词视作同等重要，注意力机制允许模型在每一步任务中“关注”相关性最高的词。这使得文本中相距较远的元素可以直接建立联系，例如句子的最后一个单词可以“关注”第一个单词，而不会受到距离限制，从而克服了 RNN 等早期模型难以捕捉长距离依赖的局限性。在这一机制的基础上，又衍生出了交叉注意力（cross-attention）和自注意力两种架构模块，它们在LLM中被广泛应用。而 Transformer 架构正是充分利用了这些模块，从而大幅提升了模型的文本理解与生成能力。

交叉注意力使模型能够判断输入文本中不同部分的相关性，以准确预测输出文本的下一个单词。可以将其比作一束聚光灯，照亮输入文本中最关键的单词或短语，突出对预测最重要的信息，同时忽略不相关的细节。

为了更直观地理解交叉注意力，让我们以一个简单的句子翻译任务为例。假设我们要将英语句子“Alice enjoyed the sunny weather in Brussels”（Alice 很享受布鲁塞尔阳光明媚的天气）翻译成法语“Alice a profité du temps ensoleillé à Bruxelles”。在这个过程中，我们重点关注如何生成法语单词 ensoleillé（阳光明媚的）。在预测这个单词时，交叉注意力会赋予英语单词 sunny 和 weather 更高的权重，因为它们与 ensoleillé 的意义密切相关。通过聚焦这些关键单词，交叉注意力能够帮助模型准确生成这一部分的翻译，如图 1-2 所示。

图 1-2：交叉注意力模块使模型关注输入文本（英语句子）中的关键部分，以预测输出文本（法语句子）中的下一个单词

自注意力是指模型能够自主关注输入文本中的不同部分。在 NLP 中，自注意力机制使模型可以评估句子中各个单词相比于其他单词的重要性，从而更好地理解单词之间的关系，并能够综合多个单词的信息，构建更高层次的语义概念。

以更具体的例子来看，假设我们有这样一句话：“Alice received praise from her colleagues”（Alice 受到了同事们的称赞）。如果模型试图理解句子中 her 的含义，自注意力机制会为句中的不同单词分配不同的权重，突出与 her 相关的重要单词。在这个例子中，Alice 和 colleagues 这两个单词与 her 关系密切，因此模型会为它们分配更高的权重。通过这种方式，自注意力机制帮助模型建立新的语义概念，例如在本例中，它可能会形成“Alice 的同事”这一语义概念。图 1-3 直观地展示了这一过程。

图 1-3：自注意力机制使新概念 Alice's colleagues（Alice 的同事）得以出现

与循环架构不同，Transformer 架构还具有易于并行化的优势。这意味着 Transformer 架构可以同时处理输入文本的多个部分，而不是按顺序逐步处理。由于不同部分的计算可以并行进行，而无须等待前一步骤完成，这大大加快了计算和训练速度。基于 Transformer 架构的模型的并行处理能力与图形处理单元（graphics processing unit，GPU）的架构完美契合，GPU 的设计旨在同时处理多个计算任务，因此非常适合用于训练和运行基于 Transformer 架构的模型。GPU 的高并行性和强大的计算能力使数据科学家能够在更大规模的数据集上训练模型，从而推动了LLM的发展。

Transformer 架构是一种序列到序列（sequence-to-sequence，Seq2Seq）的模型，最初是为机器翻译等序列到序列任务而开发的。标准的 Transformer 架构有两个主要组件：编码器和解码器，二者都十分依赖注意力机制。编码器的任务是处理输入文本，识别有价值的特征，并生成有意义的文本表示，称为嵌入（embedding）。解码器使用这个嵌入来生成一个输出，比如翻译结果或摘要文本。这个输出有效地解释了编码信息。

GPT（Generative Pre-trained Transformer，生成式预训练 Transformer）是一类基于 Transformer 架构的模型，专门利用原始架构中的解码器部分。在 GPT 中，不存在编码器，因此无须通过交叉注意力机制来整合编码器产生的嵌入。也就是说，GPT 仅依赖解码器内部的自注意力机制来生成上下文感知的表示和预测结果。请注意，BERT 等其他一些众所周知的模型是基于编码器的，但本书不涉及这类模型。图 1-4 展示了 NLP 技术的演变历程。

图 1-4：NLP 技术从到LLM的演变