- 大模型应用开发极简入门:基于GPT-4和ChatGPT(第2版)
- (比)奥利维耶·卡埃朗 (法)玛丽-艾丽斯·布莱特
- 1837字
- 2025-05-07 12:21:00
1.2.6 GPT-4
2023 年 3 月,OpenAI发布了 GPT-4。关于这个新模型的架构,我们知之甚少,因为 OpenAI提供的信息很少。这是 OpenAI迄今为止最先进的系统 5,能够针对用户的提问生成更安全、更有用的回答。OpenAI声称,GPT-4 在高级推理能力方面超越了 GPT-3.5 Turbo。
5 截至本书英文版 2024 年 7 月出版时。——译者注
当该模型发布时,OpenAI发布了一份技术报告“GPT-4 Technical Report”,评估了模型的能力,并与之前的模型(如 InstructGPT 和 GPT-3)进行了大量比较。
与 OpenAIGPT 家族中的其他模型不同,GPT-4 是第一个能够同时接收文本和图像的多模态模型。这意味着 GPT-4 在生成输出句子时会考虑上下文中的图像和文本。这样一来,用户就可以将图像添加到提示词中并对其提问。
起初,OpenAI并未在 GPT-4 中公开推出视觉功能。直到 2023 年 11 月,OpenAI宣布推出具备视觉能力的 GPT-4 Turbo 模型。GPT-4 Turbo 还配备了 128 000 词元的上下文窗口,这意味着输入提示词可以相当于 300 页的英文文本!此外,GPT-4 Turbo 的成本也低于原始的 GPT-4。
在图 1-8 的示例中,我们在纸上写下一个公式,拍照后让 GPT-4 Turbo 描述图片中的公式。正如你所见,模型轻松识别出这是黄金比例。
目前市场上有众多语言模型,客观比较它们的表现,确定哪个模型在特定任务中更为出色,变得尤为重要。一种常见的方法是评估它们在大学考试中的表现。在这种背景下,人们对模型在不同测试中的表现进行了评估,结果显示,GPT-4 在各项测试中的得分普遍高于 GPT-3.5 Turbo。例如,在美国的统一律师资格考试中,GPT-3.5 Turbo 的得分位于第10 百分位,而 GPT-4 则位于第90 百分位。在国际生物学奥林匹克竞赛中,GPT-3.5 Turbo 的得分位于第31 百分位,而 GPT-4 则位于第99 百分位。这一进展令人印象深刻,尤其是在不到一年的时间内取得了如此显著的提升。最近,OpenAI发布了其最新 6 的旗舰模型 GPT-4o(“o”代表 omni,即“全能”),该模型在多个基准测试中表现优于此前的 GPT-4。
6 截至 2025 年 3 月,OpenAI发布的最新模型为 GPT-4.5。——译者注

图 1-8:GPT-4 视觉能力的应用(2024 年 2 月)
另一种常见的语言模型比较方式是让人类以盲测的方式评分,即评估者在不知晓模型名称的情况下,对不同模型的回答进行评分。LMSYS Chatbot Arena Leaderboard(托管于 Hugging Face)提供了这种比较方式。LMSYS Chatbot Arena 是一个基于众包的LLM随机对战平台,用户可以同时与两个随机选择的模型进行对话,而不知晓具体使用的是哪种模型,然后投票选出回答更相关的模型。这种方式类似于一场竞赛,模型之间可以进行比拼,并通过 ELO 评分系统进行排名(关于 ELO 评分系统的更多信息,请参阅“为什么使用 ELO 评分系统来比较模型”)。
为什么使用 ELO 评分系统来比较模型
ELO 评分系统由匈牙利裔美国物理学教授、国际象棋大师 Arpad Elo 创建,最初是为了改进美国国际象棋联合会(United States Chess Federation,USCF)使用的早期评级方法。1960 年,USCF 采纳了这一系统。1970 年,世界国际象棋联合会也开始使用它。如今,ELO 评分系统被广泛应用于竞争领域,例如电子游戏中的玩家排名,其中《英雄联盟》的玩家评级便是基于此系统。
ELO 评分系统同样适用于比较 LLM。在该系统中,两个LLM通过盲评方式进行竞争。具体操作是,用户向两个模型提出相同的问题,模型给出回答后,用户需要选择哪个回答更为优质。
ELO 评分系统可用于对零和游戏中的玩家排名。零和游戏指的是在游戏中,其中一个玩家的得益正好等于另一个玩家的损失。排名的挑战在于玩家对抗的动态变化和新玩家的不断涌现。该系统设计得足够灵活,能够通过不断更新比赛结果来调整玩家的排名,从而有效评估玩家的相对技能水平。
ELO 评分系统为每个玩家分配一个数值,数值越高表示技能水平越强。该系统的核心优势之一是,它能直接通过两位玩家的 ELO 分数差异来估算其中一方获胜的概率。
假设玩家 和玩家
的 ELO 分数分别为
和
,则玩家
获胜的概率可以通过以下公式计算:

在撰写本书时,排名前三的模型均为 GPT-4 系列,其中 ELO 分数最高的是 GPT-4o 模型(gpt-4o-2024-05-13)。第四名是谷歌的 Gemini 1.5 Pro 模型,而 GPT-3.5 Turbo 排名第30 位。
如果你向一个人展示两个模型——例如,gpt-4o-2024-05-13(得分 1287)和 GPT-3.5-Turbo-0613(得分 1120)——而不告诉他它们是什么模型,你可以通过将 ELO 分数代入公式来估算此人更偏好 gpt-4o-2024-05-13 模型的概率。在这种情况下,概率估计为 72%。
表 1-1 总结了 GPT 模型的演变历程。
表 1-1:GPT 模型的演变历程

你可能听说基础模型(foundation model)这个术语。与传统的针对特定任务训练的模型不同,基础模型是在多种类型的数据上进行训练的。这种广泛的训练使它们对不同领域有深入的理解,而这些知识随后可以通过微调来适应特定任务。GPT 系列模型就是典型的基础模型。正如我们所见,GPT 展现出了在各种主题上生成类似人类文本的强大能力。通过微调,它的广泛知识可以被专门优化,使它擅长不同的任务,例如写作、编程等。这种特性使得基础模型能够适应医疗、金融等多个领域的任务,充分利用其庞大的、不受特定领域限制的知识库。