什么是 GPT-4o？

GPT-4o（“o”代表“omni”）是 OpenAI 的旗舰多模态模型，旨在原生理解和生成文本、音频和图像输入与输出的组合。它代表了人机交互的重大飞跃，提供 GPT-4 级别的智能，但速度更快，并且在不同模态上的能力得到提升。与之前通过独立管道处理语音的模型不同，GPT-4o 使用单个神经网络处理所有输入和输出，使其能够感知情感、实时响应并进行流畅自然的对话。

主要特点

原生多模态： 在一个模型内无缝处理文本、音频和视觉，实现丰富且具有上下文感知能力的交互。
实时响应： 音频响应时间低至 232 毫秒，与人类对话速度相当。
GPT-4 级别智能： 在文本和编码基准测试中与 GPT-4 Turbo 的性能相匹配，同时速度显著更快，API 价格便宜 50%。
高级视觉能力： 擅长理解和讨论用户上传的图像、屏幕截图、文档和图表。
富有表现力的音频输出： 能够以多种不同的情感风格生成语音输出，甚至可以唱歌。

使用案例

实时语音助手： 驱动能够理解语气和上下文的高度响应和自然的数字助手。
实时翻译： 在对话中促进不同语言之间的实时翻译。
互动学习： 充当能够以视觉和口头方式解释概念的私人导师。
数据分析与可视化： 分析图像中的图表和数据，并提供即时见解。
客户支持： 创建更具同理心和效率的客户服务机器人，可以处理语音和文本查询。

入门指南

这是一个简单的“Hello World”示例，使用 OpenAI Python 库与 GPT-4o 模型进行交互。首先，请确保您已安装该库并设置了您的 API 密钥。

```bash pip install openai export OPENAI_API_KEY=’你的-api-密钥-在此’

然后，您可以运行以下 Python 代码：

```python from openai import OpenAI

client = OpenAI()

文本输入示例

response = client.chat.completions.create( model=”gpt-4o”, messages=[ {“role”: “system”, “content”: “你是一个有用的助手。”}, {“role”: “user”, “content”: “你好，你与其他模型有什么不同？”} ] )

print(response.choices[0].message.content)

文本和图像输入示例

response_vision = client.chat.completions.create( model=”gpt-4o”, messages=[ { “role”: “user”, “content”: [ {“type”: “text”, “text”: “这张图片里有什么？”}, { “type”: “image_url”, “image_url”: { “url”: “https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/1280px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg”, }, }, ], } ], max_tokens=300, )

print(response_vision.choices[0].message.content)

定价

GPT-4o 采用“免费增值”模式。ChatGPT 的免费用户可以在使用限制内访问 GPT-4o。ChatGPT Plus 的付费用户拥有更高的消息限制。对于开发者而言，GPT-4o 可通过 API 使用，其价格比之前的 GPT-4 Turbo 模型低 50%，使其在构建可扩展应用方面更具成本效益。

GPT-4o (OpenAI)

什么是 GPT-4o？

主要特点

使用案例

入门指南

文本输入示例

文本和图像输入示例

定价

System Specs

Classifications

Tags

Alternative Systems