- 大模型应用开发极简入门:基于GPT-4和ChatGPT(第2版)
- (比)奥利维耶·卡埃朗 (法)玛丽-艾丽斯·布莱特
- 3048字
- 2025-05-07 12:20:54
译者序 没有谁天生就是AI工程师
何文斯
从 2022 年末开始,以 ChatGPT 为代表的新一轮AI热潮 GenAI(生成式 AI)以前所未有的速度席卷全球。我们几乎每周都可以看到 GenAI在各个领域的新用途:它可以回答各种问题、翻译文章、撰写报告、写一段有创意的营销文案、在编程项目中生成代码,甚至能够“看”到图片并为我们解释其所蕴含的深刻意义。
我相信,LLM 将在未来驱动一场技术变革,无论是以 GPT 为代表的闭源模型,还是以 DeepSeek 为代表的开源模型,都将推动LLM技术的快速普及。随着算力的规模化提升,模型的训练和推理成本都将大幅度下降。同时,多模态的演进、智能体架构的成熟,会促进AI领域产生大量的创新场景,这也将推动AI应用生态系统的爆发性增长。LLM 将重塑人类与技术的交互方式,催生出一个更加智能、高效的数字化世界。AI不仅是工具,更将成为新一代计算平台的核心,驱动未来的创新浪潮。
全世界最大的代码托管平台 GitHub 在其报告中指出 1,2023 年的 GenAI项目数量同比增长了 248%。大量的开发人员正在学习 GenAI技术,并将新技术用于增强原有产品或者构建全新的AINative 应用程序 2。AI正在成为产品的核心组件。另外,与以往“传统”的AI技术不同的是,LLM 使个人构建AI项目变得更加容易。据 GitHub 的报告统计,由个人主导的AI项目的数量同比增长了 148%,这一数字在近一年仍在快速增长。
1 数据参见“Octoverse: The state of open source and rise ofAIin 2023”。
2 AINative 应用程序是指从设计之初就内置了AI技术的应用程序。这类应用程序与传统的应用程序不同,因为它们不是在现有框架上添加AI功能,而是将AI集成为其核心组成部分。
作为国内较早投身于 GenAI领域的产品经理和LLM应用技术的科普作者,我拿到这本书原稿的第一反应是,对于LLM驱动型应用程序的专业开发人员来说,这样一本小册子的知识量显得不足,这是因为我将自己代入了读者角色。实际上,这本书的目标读者并非已经做过LLM驱动型应用程序开发的专业开发人员,他们中的大多数可能向 ChatGPT 等聊天机器人提过问题,但对LLM相关技术没有太多关注,甚至可能一无所知。
在阅读完这本书之后,我发现作者正是考虑到了这一点,才以初学者的视角,为读者提供了清晰、全面的“最小可用知识”,目的是让开发人员快速上手实践,轻松体验到独立搭建第一个AI应用程序的乐趣。比如,书中的示例包括打造《塞尔达传说:旷野之息》专家、开发 YouTube 视频摘要生成器等,你完全可以将这本小册子当成自己的LLM项目快速启动手册。
2022 年底,OpenAI经过一系列的工程技术处理,将 GPT 模型以一个自然语言交互应用形态(ChatGPT)推向市场。之后,领域从业者及爱好者才有了机会广泛接触和理解LLM及其背后的技术。比尔•盖茨在 GatesNotes 网站上发表的一篇文章提到 3,LLM 将彻底改变每个人与计算机的交互方式,还将颠覆软件行业,引发从键入命令转向点击图标以来计算机领域最大的人机交互革命。在接下来的 5 ~ 10 年中,随着AI服务成本的降低,人类将进入全民AI时代。AI将不再仅属于少数技术人员,任何可以上网的人都将能够拥有一个由AI技术驱动的个人助理。AI助理会更加个性化,它将了解你的个人和工作关系、爱好和日程,可以帮助你接收和发送电子邮件、安排旅游行程、预订电影场次,为你的家庭理财配置提供建议等。在可预见的未来,掌握基本的AI知识将像现在掌握基本的计算机知识一样成为每个人的必备技能,每个人都将或多或少地具备定义AI的能力。
3 参见“AIis about to completely change how you use computers”。
对初学者而言,进入一个全新的领域无疑需要克服心理上的恐惧,对于像机器学习、自然语言处理这些直觉上技术门槛很高的领域更是如此。但接下来我要讲一个关于 OpenAI联合创始人 Greg Brockman 的个人故事。
Greg Brockman 在 2019 年 7 月发表了一篇题为“How I became a machine learning practitioner”的博客文章,讲述了自己学习机器学习技术的历程。Greg 在加入 OpenAI之前是 Stripe 公司的首席技术官,虽然已经是一位技术“大牛”,但他直到加入 OpenAI3 年之后才开始以初学者的身份学习机器学习技术。在学习过程中,虽然有 OpenAI同事的帮助,但他也跟普通人一样遇到了很多障碍和挫折,甚至自我怀疑,不过他最终还是坚持了下来。经过 9 个月的深入学习,Greg 成功地从传统软件工程师转型为机器学习工程师。没有谁天生就是AI工程师,即使是 OpenAI的联合创始人也需要学习。我希望这个真实的故事能对正准备投身于AI领域的你有所帮助。
任何一项新技术都存在一条技术成熟度曲线,LLM 技术在当下尚未迈入生产成熟期。自 2023 年本书第1 版出版至 2025 年,GenAI技术以惊人的速度发展着。我不时感慨,在个人职业生涯中,我从没有任何一个阶段像现在一样需要快速迭代知识。在日常工作中应用新的AI技术,一方面在很大程度上提高了我的生产力;但另一方面,因为每天不停歇地关注AI领域的最新进展,同时兴奋地研究新技术,我的工作总量反而增加了。这既让我感到兴奋,又让我深刻地感受到作为一名AI技术从业者所面临的挑战。
可以预见的是,在这本书上市之后,无论是 GenAI,还是基于LLM的应用程序开发,抑或是其他相关领域,都仍将继续以不可思议的速度发展。这就意味着,无论是编写一本技术书,还是成为相关技术领域的从业者,都需要抱着开放的心态,时刻拥抱新的变化,持续迭代自己的知识,更重要的是,乐于上手实践。
回到这本书,两位作者提供了非常清晰、系统的知识脉络,为想学习使用LLM构建应用程序的 Python 开发人员提供了全面的技术指导。这本书对于LLM驱动型应用程序开发初学者非常友好,有助于快速了解 GPT 等模型的原理特性,并学习如何使用流行的编程语言 Python,以及当前最先进的开发框架(如 Assistants API、LangChain、LlamaIndex 等),快速构建基于AI技术的解决方案。最有帮助的是,本书系统梳理了LLM应用开发的原则及相关理念,并通过典型应用示例予以解释,方便开发者在上手实践的过程中理解。
通过这本书,你可以学到以下核心知识:
● GPT-4 和 GPT-3.5 的基本原理和优势,以及它们的工作方式;
● 如何将这类模型集成到基于 Python 的自然语言处理应用中;
● 使用 OpenAI API 开发文本生成、问答、内容摘要等初级应用;
● 进阶主题,包括提示工程、为特定任务微调模型、RAG、插件、LangChain、LlamaIndex、GPTs 以及智能助手等。
这本书原版第1 版上市于 2023 年 8 月,第2 版上市于 2024 年 7 月。在这近一年之间,OpenAI发布了 Assistants API、GPTs 应用商店,以及 GPT-4 Turbo with Vision、GPT-4o 和 GPT-4o mini 系列模型等相当多令人惊喜的更新。除此之外,围绕LLM的技术工程三大范式(提示工程、微调、RAG)正在发生变化,市场上衍生的各类开发框架为开发者提供了便利,并帮助AI创新者从概念验证走向生产,而第2 版着重体现了这部分内容。
虽然译者已经仔细对书中的内容做了技术审校,但由于这一领域现象级的技术更替速度,这样的工作仍难以保证当你拿到这本书时,书中所介绍的技术或引用的插图还能代表最新进展。因此,我强烈建议你在阅读过程中,结合 OpenAI的最新开发文档来进行具体的开发实践。
学习一个全新的领域需要动机、热情、坚持和方法。能读到这篇译者序,说明你已经具备了最初的动机,可能是纯粹的好奇心,也可能是提升职业技能的意愿,这已经是一个很好的起点了。
同为这个领域的学习者,我想与你分享 Y Combinator 的联合创始人、《黑客与画家》作者 Paul Graham 在其个人博客网站上发表的一篇文章——“Superlinear Returns”(《超线性回报》)。他在文章中提到,我们在学习过程中的投入与回报是超线性的。在开始阅读这本书时——
● 你可能会对大量的术语和技术概念感到茫然无措;
● 你可能还需要查阅除这本书之外的其他资料;
● 你可能会担心按照这样的学习速度无论如何都达不到预期目标;
● ……
焦虑会时不时找上门,但请放心,为了获得一个扎实的立足点,最初的努力虽不轻松,但绝对值得。随着实践的深入,这个过程会变得越来越容易。这就是“超线性回报”——随着时间的投入,奖励曲线会在后期急剧上升。
最后,祝愿你能早日写出充满创意的AI应用程序,并在这个探索过程中找到乐趣。