- 大模型应用开发极简入门:基于GPT-4和ChatGPT(第2版)
- (比)奥利维耶·卡埃朗 (法)玛丽-艾丽斯·布莱特
- 977字
- 2025-05-07 12:20:57
1.1.4 将视觉整合到LLM中
GPT-4 Vision 为 GPT-4 系列增添了多模态能力,极大地拓宽了其在文本处理之外的应用场景。尽管实现这一功能的具体技术细节仍未公开 3,但我们可以通过研究那些集成了视觉数据的开源大模型,来一窥 GPT-4 实现多模态功能可能采用的策略。本节将深入剖析这些开源模型中的处理流程,以揭示 GPT-4 是如何将图像与文本进行融合的。
3 OpenAI公开过一篇关于 GPT-4 的论文“GPT-4 Technical Report”。——译者注
长期以来,卷积神经网络(convolutional neural network,CNN)一直是图像处理领域中的先进技术。在图像分类、物体检测等任务中,CNN 凭借在输入图像上滑动的滤波器层,展现了卓越的性能。这些滤波器能够保持图像像素间的空间关系,正因如此,CNN 能够识别从早期层的简单边缘,到深层的复杂形状和物体等各种模式。
然而,正如 2017 年 Transformer 架构的引入颠覆了 NLP 领域,取代了 RNN,2020 年,基于 Transformer 架构的图像处理新模型应运而生,对 CNN 在图像处理任务中的长期统治地位发起了挑战。2021 年,Dosovitskiy 等人发表的论文“An Image Is Worth 16 × 16 Words: Transformers for Image Recognition at Scale”展示了纯 Transformer 模型的强大能力,其中,ViT 模型在多项图像分类任务中的表现超越了 CNN。
你可能会好奇 Transformer 是如何处理图像数据的。整体而言,这与处理文本的方式非常相似。如前所述,当带有提示词的文本被发送到大模型时,大模型首先将文本分解为小字符块——词元,然后处理这些词元以预测下一个词元。在处理图像时,ViT 会首先将图像分割成固定大小的图像块(patch)。图 1-6 展示了这一过程。

图 1-6:图像在输入到 Transformer 之前,被分割成固定大小的图像块
这些图像块随后与文本词元整合到一个统一的输入序列中。简单来说,当LLM处理文本数据时,所有的词元都会首先被映射到一个高维空间。换句话说,每个词元都会被转换成一个高维向量,而这种词元与高维向量之间的映射关系是在LLM训练过程中学习得出的。对于固定大小的图像块,处理方式几乎相同——模型在学习过程中计算出图像块与相同高维空间之间的映射函数。通过这种映射,文本词元和图像块可以被放入相同的高维空间,形成一个融合的序列。
然后,这个包含文本和图像的输入序列会通过 Transformer 架构进行处理,以预测下一个词元。由于可以在相同的高维表示空间中整合文本词元和图像块,模型能够在这两种模态之间应用自注意力机制,使其能够生成同时考虑文本和图像信息的响应。对于 Python 开发者来说,这种处理图像的能力可能会极大地影响用户与AI应用程序的交互方式,例如开发更直观的聊天机器人,或是能理解并解释图像内容的教育工具。