GPT-4o(“o” 代表 “omni”)和 GPT-4o mini 是原生多模态模型,旨在处理文本、音频和视频输入的组合,并能生成文本、音频和图像格式的输出。GPT-4o mini 是 GPT-4o 的轻量级版本。
背景
在 GPT-4o 之前,用户可以使用语音模式与 ChatGPT 互动,该模式使用三个独立的模型运行。GPT-4o 将这些功能集成到一个跨文本、视觉和音频训练的单一模型中。这种统一的方法确保所有输入(无论是文本、视觉还是听觉)都由同一个神经网络进行协同处理。
GPT-4o mini 是这个全能模型系列的下一个迭代版本,以更小、更经济的版本提供。该模型提供比 GPT-3.5 Turbo 更高的准确率,同时速度一样快,并支持多模态输入和输出。
当前的 API 功能
目前,gpt-4o-mini
模型支持 {text, image}
输入,{text}
输出,与 gpt-4-turbo
的模态相同。作为预览,我们还将使用 gpt-4o-audio-preview
模型来展示通过 GPT4o 模型进行转录的功能。