Deepgram 是什么?
Deepgram 是一家先进的 AI 语音识别公司,为开发人员提供强大的语音转文本和音频智能 API。其模型建立在端到端深度学习之上,以其卓越的速度、高准确性和成本效益而闻名。Deepgram 允许企业转录预录制的音频和实时音频流,从而从语音数据中解锁宝贵的见解。
主要特点
- 极速: 实时提供转录稿,通常比音频的持续时间还快,非常适合直播应用。
- 高准确性: 采用复杂的深度学习模型,在各种口音、方言和领域中实现高转录准确性。
- 实时流式传输: 提供持久的 WebSocket 连接,以低延迟转录实时音频流。
- 说话人分离(Diarization): 在单个音频通道中识别并标记不同的说话人。
- 智能格式化: 自动添加标点符号和大写字母,并格式化数字、日期和时间,以提高可读性。
- 语言支持: 支持多种语言和方言的转录。
使用案例
- 呼叫中心分析: 转录和分析客户通话,以监控质量保证、跟踪座席表现并识别客户情绪。
- 语音助手: 通过快速可靠的语音识别为声控应用和虚拟助手提供动力。
- 媒体转录: 快速为播客、视频和广播生成字幕和转录稿。
- 会议转录: 为虚拟或现场会议创建可搜索、准确的记录。
- 合规监控: 在金融或法律对话中自动标记关键词和短语,以确保符合法规。
入门指南
这是一个使用 Deepgram Python SDK 从 URL 转录预录制音频文件的“Hello World”示例。
首先,安装 SDK: ```bash pip install deepgram-sdk
然后,使用以下 Python 代码:
```python import os from dotenv import load_dotenv from deepgram import DeepgramClient, PrerecordedOptions
load_dotenv()
您的 Deepgram API 密钥
建议将其设置为环境变量
API_KEY = os.getenv(“DEEPGRAM_API_KEY”)
您要转录的音频的 URL
AUDIO_URL = “https://static.deepgram.com/examples/Bueller-Life-moves-pretty-fast.wav”
def main(): try: # 1. 使用 API 密钥创建 Deepgram 客户端 deepgram = DeepgramClient(API_KEY)
# 2. 配置转录选项
options = PrerecordedOptions(
model="nova-2",
smart_format=True,
)
# 3. 使用音频 URL 和选项调用 transcribe_url 方法
response = deepgram.listen.prerecorded.v("1").transcribe_url({"url": AUDIO_URL}, options)
# 4. 打印转录稿
print(response.to_json(indent=4))
except Exception as e:
print(f"Exception: {e}")
if name == “main”: main()
定价
Deepgram 采用免费增值、按使用量付费的定价模式。他们为开发者提供了一个慷慨的免费套餐,其中包括大量的转录额度。超出免费套餐后,定价基于转录的分钟数,不同模型(例如 Nova-2、Base、Enhanced)的费率也不同。他们还为大用量用户或需要本地部署的用户提供定制的企业计划。
高级功能
- 本地部署: 对于有严格数据隐私或安全要求的组织,Deepgram 提供本地解决方案,允许您在自己的基础设施内运行其模型。
- 音频智能: 除了简单的转录,Deepgram 还提供主题检测、情感分析和摘要等功能,以从音频数据中提取更高级别的见解。
- 自定义模型训练: 用户可以训练针对其特定音频环境、词汇和声学特征的自定义模型,以实现更高的准确性。