什么是 GPT-4o?
GPT-4o(“o”代表“omni”)是 OpenAI 的旗舰多模态模型,旨在原生理解和生成文本、音频和图像输入与输出的组合。它代表了人机交互的重大飞跃,提供 GPT-4 级别的智能,但速度更快,并且在不同模态上的能力得到提升。与之前通过独立管道处理语音的模型不同,GPT-4o 使用单个神经网络处理所有输入和输出,使其能够感知情感、实时响应并进行流畅自然的对话。
主要特点
- 原生多模态: 在一个模型内无缝处理文本、音频和视觉,实现丰富且具有上下文感知能力的交互。
- 实时响应: 音频响应时间低至 232 毫秒,与人类对话速度相当。
- GPT-4 级别智能: 在文本和编码基准测试中与 GPT-4 Turbo 的性能相匹配,同时速度显著更快,API 价格便宜 50%。
- 高级视觉能力: 擅长理解和讨论用户上传的图像、屏幕截图、文档和图表。
- 富有表现力的音频输出: 能够以多种不同的情感风格生成语音输出,甚至可以唱歌。
使用案例
- 实时语音助手: 驱动能够理解语气和上下文的高度响应和自然的数字助手。
- 实时翻译: 在对话中促进不同语言之间的实时翻译。
- 互动学习: 充当能够以视觉和口头方式解释概念的私人导师。
- 数据分析与可视化: 分析图像中的图表和数据,并提供即时见解。
- 客户支持: 创建更具同理心和效率的客户服务机器人,可以处理语音和文本查询。
入门指南
这是一个简单的“Hello World”示例,使用 OpenAI Python 库与 GPT-4o 模型进行交互。首先,请确保您已安装该库并设置了您的 API 密钥。
```bash pip install openai export OPENAI_API_KEY=’你的-api-密钥-在此’
然后,您可以运行以下 Python 代码:
```python from openai import OpenAI
client = OpenAI()
文本输入示例
response = client.chat.completions.create( model=”gpt-4o”, messages=[ {“role”: “system”, “content”: “你是一个有用的助手。”}, {“role”: “user”, “content”: “你好,你与其他模型有什么不同?”} ] )
print(response.choices[0].message.content)
文本和图像输入示例
response_vision = client.chat.completions.create( model=”gpt-4o”, messages=[ { “role”: “user”, “content”: [ {“type”: “text”, “text”: “这张图片里有什么?”}, { “type”: “image_url”, “image_url”: { “url”: “https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/1280px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg”, }, }, ], } ], max_tokens=300, )
print(response_vision.choices[0].message.content)
定价
GPT-4o 采用“免费增值”模式。ChatGPT 的免费用户可以在使用限制内访问 GPT-4o。ChatGPT Plus 的付费用户拥有更高的消息限制。对于开发者而言,GPT-4o 可通过 API 使用,其价格比之前的 GPT-4 Turbo 模型低 50%,使其在构建可扩展应用方面更具成本效益。