什么是 Google Cloud Speech-to-Text?
Google Cloud Speech-to-Text 是一项功能强大的基于云的服务,允许开发人员通过应用复杂的神经网络模型将音频转换为文本。作为一种企业级解决方案,它旨在实现高精度和可扩展性,支持多种语言和方言。该服务可以从文件(批量处理)或从麦克风或其他音频流实时转录音频,使其成为各种语音应用的通用工具。
主要特点
- 高质量转录: 利用谷歌最先进的人工智能研究,包括Chirp模型,即使在嘈杂的环境中也能提供高度准确的转录。
- 广泛的语言支持: 支持超过125种语言和方言,支持全球应用。
- 实时流式传输: 在捕获音频时实时转录,非常适合实时字幕和语音命令应用。
- 说话人分离: 可以在单个音频剪辑中识别和分离不同的说话人。
- 模型定制: 允许进行调整以识别特定的、领域特定的词语和短语,从而提高行话或独特名称的准确性。
- 自动标点和格式化: 自动添加标点符号,并可以将口语数字格式化为常规格式,如货币或地址。
使用案例
- 联络中心分析: 转录客户服务电话,以分析情绪、跟踪座席表现并识别常见问题。
- 媒体内容字幕: 自动为视频、广播和播客生成字幕和隐藏式字幕,以提高可访问性。
- 语音控制应用: 在物联网设备到车载助手的应用中,为语音命令和控制功能提供支持。
- 临床文档: 使医疗专业人员能够口述患者笔记,简化医疗保健中的文档流程。
入门指南
要在Python中使用Google Cloud Speech-to-Text,您首先需要设置一个Google Cloud项目,启用API,并使用服务帐户配置身份验证。
环境设置好后,您可以安装客户端库: ```bash pip install google-cloud-speech
这是一个简单的“Hello World”风格的示例,用于转录本地音频文件:
```python from google.cloud import speech
def transcribe_audio(file_path: str): “"”将本地音频文件转录为文本。””” client = speech.SpeechClient()
with open(file_path, "rb") as audio_file:
content = audio_file.read()
audio = speech.RecognitionAudio(content=content)
config = speech.RecognitionConfig(
encoding=speech.RecognitionConfig.AudioEncoding.LINEAR16,
sample_rate_hertz=16000,
language_code="cmn-Hans-CN", # 更改为普通话(中国大陆)
)
print("等待转录完成...")
response = client.recognize(config=config, audio=audio)
for result in response.results:
print(f"转录稿: {result.alternatives[0].transcript}")
将 ‘path/to/your/audio.wav’ 替换为实际文件路径
transcribe_audio(‘path/to/your/audio.wav’)
注意:对于超过60秒的音频文件,您必须使用long_running_recognize方法,并将文件存储在Google Cloud Storage中。
定价
Google Cloud Speech-to-Text采用按需付费的定价模式,根据每月处理的音频量收费。有一个免费套餐,每月最多可处理60分钟的音频。超出免费套餐的使用量,价格会根据所使用的API版本和功能而有所不同(例如,使用Chirp模型的V2 API大约每分钟收费0.016美元)。