什么是 Google Cloud Speech-to-Text？

Google Cloud Speech-to-Text 是一项功能强大的基于云的服务，允许开发人员通过应用复杂的神经网络模型将音频转换为文本。作为一种企业级解决方案，它旨在实现高精度和可扩展性，支持多种语言和方言。该服务可以从文件（批量处理）或从麦克风或其他音频流实时转录音频，使其成为各种语音应用的通用工具。

主要特点

高质量转录： 利用谷歌最先进的人工智能研究，包括Chirp模型，即使在嘈杂的环境中也能提供高度准确的转录。
广泛的语言支持： 支持超过125种语言和方言，支持全球应用。
实时流式传输： 在捕获音频时实时转录，非常适合实时字幕和语音命令应用。
说话人分离： 可以在单个音频剪辑中识别和分离不同的说话人。
模型定制： 允许进行调整以识别特定的、领域特定的词语和短语，从而提高行话或独特名称的准确性。
自动标点和格式化： 自动添加标点符号，并可以将口语数字格式化为常规格式，如货币或地址。

使用案例

联络中心分析： 转录客户服务电话，以分析情绪、跟踪座席表现并识别常见问题。
媒体内容字幕： 自动为视频、广播和播客生成字幕和隐藏式字幕，以提高可访问性。
语音控制应用： 在物联网设备到车载助手的应用中，为语音命令和控制功能提供支持。
临床文档： 使医疗专业人员能够口述患者笔记，简化医疗保健中的文档流程。

入门指南

要在Python中使用Google Cloud Speech-to-Text，您首先需要设置一个Google Cloud项目，启用API，并使用服务帐户配置身份验证。

环境设置好后，您可以安装客户端库： ```bash pip install google-cloud-speech

这是一个简单的“Hello World”风格的示例，用于转录本地音频文件：

```python from google.cloud import speech

def transcribe_audio(file_path: str): “"”将本地音频文件转录为文本。””” client = speech.SpeechClient()

with open(file_path, "rb") as audio_file:
    content = audio_file.read()

audio = speech.RecognitionAudio(content=content)
config = speech.RecognitionConfig(
    encoding=speech.RecognitionConfig.AudioEncoding.LINEAR16,
    sample_rate_hertz=16000,
    language_code="cmn-Hans-CN",  # 更改为普通话（中国大陆）
)

print("等待转录完成...")
response = client.recognize(config=config, audio=audio)

for result in response.results:
    print(f"转录稿: {result.alternatives[0].transcript}")

将 ‘path/to/your/audio.wav’ 替换为实际文件路径

transcribe_audio(‘path/to/your/audio.wav’)

注意：对于超过60秒的音频文件，您必须使用long_running_recognize方法，并将文件存储在Google Cloud Storage中。

定价

Google Cloud Speech-to-Text采用按需付费的定价模式，根据每月处理的音频量收费。有一个免费套餐，每月最多可处理60分钟的音频。超出免费套餐的使用量，价格会根据所使用的API版本和功能而有所不同（例如，使用Chirp模型的V2 API大约每分钟收费0.016美元）。

Google Cloud Speech-to-Text

什么是 Google Cloud Speech-to-Text？

主要特点

使用案例

入门指南

将 ‘path/to/your/audio.wav’ 替换为实际文件路径

transcribe_audio(‘path/to/your/audio.wav’)

定价

System Specs

Classifications

Tags

Alternative Systems