OpenAI Whisper 是什么？

OpenAI Whisper 是一个开源的自动语音识别（ASR）系统，它在从网络上收集的68万小时的多语言和多任务监督数据上进行了训练。这种广泛的训练使其在应对背景噪音、口音和技术语言方面异常强大。它的准确性接近人类水平，被广泛认为是转录质量的基准，能够处理多种语言，甚至能将它们翻译成英语。

主要特点

无论您使用命令行界面还是Python库，开始使用Whisper都非常简单。

首先，安装必要的软件包： ```bash pip install -U openai-whisper

命令行使用： 要转录一个音频文件，只需运行： ```bash whisper “path/to/audio.mp3” –model medium

Python 使用： 您可以轻松地将Whisper集成到您的Python项目中。

```python import whisper

model = whisper.load_model(“base”) result = model.transcribe(“path/to/audio.mp3”) print(result[“text”])

Whisper主要以两种形式提供：

开源： 模型可以免费下载并在您自己的硬件上运行。这对于有隐私顾虑或需要处理大量音频的用户来说是理想的选择。
付费API： OpenAI通过其API提供Whisper作为付费服务，价格为每分钟0.006美元。这是一个方便的、按需付费的选项，不需要您管理自己的基础设施。