作为 LLM,GPT 模型是 NLP 领域最新的模型类型,NLP 是机器学习(machine learning,ML)和AI的一个子领域。在深入研究 GPT 模型之前,有必要了解 NLP 及其相关领域。

尽管对AI的理解有所不同,但大体上,人们认为它让计算机系统有能力执行那些通常需要人类智慧的任务。根据这个定义,许多算法可以被归为AI算法,比如导航应用程序所用的交通预测算法或策略类电子游戏所用的基于规则的系统。从表面上看,在这些示例中,计算机似乎需要智能才能完成相关任务。

ML 是AI的一个子集。在 ML 中,我们不试图直接实现AI系统使用的决策规则,而是试图开发算法,使系统能够通过示例自己学习。自从在 20 世纪 50 年代开始进行 ML 研究以来,人们已经在科学文献中提出了许多 ML 算法。

在这些 ML 算法中,深度学习(deep learning,DL)算法已经引起了广泛关注。DL 是 ML 的一个分支,专注于受大脑结构启发的算法。这些算法被称为人工神经网络(artificial neural network,ANN)。它们可以处理大量的数据,并且在图像识别、语音识别及 NLP 等任务上表现出色。

GPT 模型的基础是一种特定的神经网络架构,即 Transformer。2017 年,来自谷歌的 Vaswani 等人在论文“Attention Is All You Need”中提出了该架构。Transformer 就像阅读机一样,它关注句子或段落的不同部分,以理解其上下文并产生连贯的回答。此外,它还可以理解句子中的单词顺序和上下文意思。这使得 Transformer 在语言翻译、问题回答和文本生成等任务中非常高效。图 1-1 直观展示了这些核心概念及其在提升 Transformer 模型处理各种语言任务能力方面的作用。

图 1-1:从AI到 Transformer 的嵌套技术集合

NLP 是AI的一个子领域,专注于使计算机能够处理、解释和生成人类语言。现代 NLP 解决方案的基础是 ML 算法。NLP 的目标是让计算机能够处理自然语言文本。这个目标涉及诸多任务,如下所述。

文本分类

将输入文本归为预定义的类别。这类任务包括情感分析和主题分类。比如,某公司使用情感分析来了解客户对其服务的意见。电子邮件过滤是主题分类的一个例子,其中电子邮件可以被归类为“个人邮件”“社交邮件”“促销邮件”“垃圾邮件”等。

自动翻译

将文本从一种语言自动翻译成另一种语言。请注意,这类任务可以包括将代码从一种程序设计语言翻译成另一种程序设计语言,比如从 Python 翻译成 C++。

问题回答

根据给定的文本回答问题。比如,在线客服门户网站可以使用 NLP 模型回答关于产品的常见问题,教学软件可以使用 NLP 模型回答学生关于所学主题的问题。

文本生成

根据给定的输入文本(称为提示词1)生成连贯且相关的输出文本。

1 对于 prompt 一词,本书统一采用“提示词”这个译法,以符合业内惯例。不过,prompt 既可以是一个词,也可以是一个句子、一段文本。对于 prompt engineering 等词,本书仍采用“提示工程”等译法。——译者注

如前所述,LLM 是试图完成文本生成任务的一类 ML 模型。LLM 使计算机能够处理、解释和生成人类语言,从而提高人机交互效率。为了做到这一点,LLM 会分析大量文本数据或基于这些数据进行训练,从而学习句子中各个单词间的模式和关系。这个学习过程可以使用各种数据源,包括维基百科、Reddit、成千上万本书,甚至互联网本身。这一学习过程使LLM能够在接收到输入文本后,预测最可能出现的下一个单词,从而生成连贯且有意义的回复。LLM 具有大量的内部参数,在训练过程中,构建该模型的算法会不断寻找最优参数,以使模型能够对下一个单词做出最佳预测。现代语言模型,如最新的 GPT 模型,规模庞大且经过海量文本训练,因此如今能够直接执行大多数 NLP 任务,例如文本分类、机器翻译、问答等。

 OpenAI已推出多种语言模型,截至撰写本书时,最为先进且功能强大的模型当属 GPT-4 系列。作为一个多模态模型,GPT-4 Vision 标志着重大的进步,它不仅擅长处理文本,还具备处理图像输入的能力。这一突破得益于LLM采用的 ViT(Vision Transformer,视觉 Transformer)这一专用架构,使其能够有效解读图像。最新的 GPT-4o 模型在多模态方面更进一步,它不仅能够处理和生成文本,还能理解和生成图像及音频。

LLM 的发展可以追溯到 20 世纪 90 年代,最初的语言模型较为简单,例如 模型,它通过统计前几个单词的出现频率来预测句子中的下一个单词。在训练文本中, 模型会选择最常出现在前序单词之后的单词作为预测结果。尽管这种方法为语言建模奠定了基础,但由于它在理解上下文和语法方面存在局限性,生成的文本往往缺乏连贯性和一致性。

为了提升 模型的性能,更先进的学习算法被引入,例如循环神经网络(recurrent neural network,RNN)和长短时记忆网络(long short-term memory,LSTM)。与 相比,这些模型能够学习更长的序列,并更好地分析上下文信息。然而,它们在处理大规模数据时仍然存在效率问题。尽管如此,RNN 在很长一段时间内仍然是最有效的模型之一,因此被广泛应用于机器翻译等工具中。