¿Qué es la API de AssemblyAI?

AssemblyAI ofrece una potente API que proporciona modelos de IA de última generación para transcribir y comprender el habla. Permite a los desarrolladores convertir fácilmente archivos de audio y video en texto, y obtener conocimientos más profundos a través de características como el análisis de sentimientos, la diarización de hablantes y la moderación de contenido. Está diseñada para construir una amplia gama de aplicaciones que dependen de datos de voz.

Características Clave

Transcripción de Alta Precisión: Utiliza modelos avanzados de aprendizaje profundo para proporcionar transcripciones muy precisas tanto para audio pregrabado como para transmisión en tiempo real.
Diarización de Hablantes: Identifica y etiqueta a diferentes hablantes en una única transmisión de audio, facilitando el seguimiento de las conversaciones.
Análisis de Sentimientos: Analiza el texto transcrito para determinar el tono emocional (positivo, negativo, neutral) del habla.
Redacción de PII: Detecta y redacta automáticamente Información de Identificación Personal (PII) sensible de las transcripciones para garantizar la privacidad y el cumplimiento.
Detección de Entidades: Identifica y extrae entidades clave como nombres, fechas, ubicaciones y organizaciones del contenido de audio.
Resumen: Proporciona resúmenes abstractivos de archivos de audio largos, destacando la información más importante.

Casos de Uso

Transcripción de Reuniones: Transcribe automáticamente reuniones virtuales, entrevistas y conferencias telefónicas para crear registros con capacidad de búsqueda y elementos de acción.
Análisis de Centros de Llamadas: Analiza las llamadas de soporte al cliente para rastrear el sentimiento, identificar tendencias y mejorar el rendimiento de los agentes.
Análisis de Contenido Multimedia: Transcribe podcasts, videos y transmisiones para crear subtítulos y permitir la búsqueda de contenido.
Aplicaciones Controladas por Voz: Construye asistentes activados por voz, software de dictado y otras interfaces de usuario manos libres.

Cómo Empezar

Empezar con AssemblyAI es sencillo. Primero, necesitas obtener una clave de API gratuita del sitio web de AssemblyAI.

Aquí tienes un ejemplo simple de “Hola Mundo” usando el SDK de Python para transcribir un archivo de audio desde una URL:

```python import assemblyai as aai

Tu clave de API

aai.settings.api_key = “TU_CLAVE_DE_API”

URL del archivo de audio a transcribir

FILE_URL = “https://storage.googleapis.com/aai-web-samples/espn-bears.m4a”

Crea un objeto transcriptor

transcriber = aai.Transcriber()

Inicia la transcripción

transcript = transcriber.transcribe(FILE_URL)

if transcript.status == aai.TranscriptStatus.error: print(transcript.error) else: print(transcript.text)

Salida de ejemplo:

“It’s a different kind of season for the Bears, a different kind of team…”

Precios

AssemblyAI opera con un modelo de precios freemium de pago por uso. Ofrece un generoso nivel gratuito para que los desarrolladores comiencen, que incluye un número significativo de horas tanto para transcripción pregrabada como en streaming. Más allá del nivel gratuito, el precio se basa en el volumen de audio procesado por hora. Las características avanzadas como el análisis de sentimientos y la redacción de PII están disponibles como complementos con sus propias estructuras de precios. También hay disponibles planes empresariales personalizados para implementaciones a gran escala.

AssemblyAI API