正如前面提到的,Transformer 和语言模型最初主要用于文本处理任务。最早的 Transformer 架构由 Vaswani 等人在 2017 年的论文“Attention Is All You Need”中提出,旨在解决文本翻译问题。然而,基于 Transformer 的技术很快就被应用到其他类型的数据上。例如,GPT-4 已经具备视觉处理能力,可以在生成回答时将图像作为输入的一部分进行理解。

但这并不是唯一可以在应用程序中使用的模态。OpenAI提供了可以在 Python 中使用的工具,这些工具可以通过 OpenAI API 访问,虽然它们并不直接嵌入LLM本身,但可以作为补充技术,让开发者在构建应用程序时利用更广泛的AI功能。

  1. 使用 DALL · E 生成图像

    通过 OpenAI API,应用程序可以直接调用 DALL · E 2 或 DALL · E 3 模型。这些模型属于文本生成图像(text-to-image)模型。DALL · E 3 是更先进的版本,能够在生成的图像中融入文本,还支持横向(landscape)和纵向(portrait)布局。相比 DALL · E 2,DALL · E 3 生成的图像通常更精美,细节更丰富,并且能够理解更复杂的提示词。这些模型使开发者能够直接通过文本描述创建视觉吸引力强的内容,为创意和实用性应用开辟了新的可能性。

     

  2. 语音识别与合成

    OpenAI还训练了名为 Whisper 的神经网络 Transformer,它在超过 50 种语言的语音识别中表现出色,尤其是在英语方面,已接近人类水平。OpenAI已将 Whisper 的代码开源,开发者也可以通过 OpenAI API 访问该工具。Whisper 允许开发者创建能以极高准确度理解口语的应用程序。

    此外,OpenAI音频 API 提供了对两个文本转语音(text to speech,TTS)模型的访问,一个优化了实时文本转语音的应用场景,另一个则更侧重于语音质量。用户可以选择 6 种声音,这些模型支持超过 50 种语言,在英语中表现最佳。

     

  3. 使用 Sora 进行视频生成

    在本书撰写时,OpenAI已发布了其新的文本转视频工具——Sora。目前,Sora 尚未向开发者开放 7,但这表明未来不久将会有类似的工具可供使用。用户只需要提供简单的提示词,Sora 就能够生成最长 60 秒的视频内容。

    这些多模态工具显著拓展了AI的能力,为开发者及其应用程序开辟了新前景。借助这些技术,你可以创建更具互动性的应用程序,让用户通过多种方式(图像、语音、文本,以及即将推出的视频)进行交流。

7 OpenAI已于北京时间 2024 年 12 月 10 日正式向公众开放了其文本生成视频模型 Sora。——译者注