Voice API
Emoción vocal por REST o streaming WebSocket, con 20 features acústicas.
Detecta prosodia, MFCC, pitch y energía del habla en tiempo real. Funciona con audio de llamadas, webinars o grabaciones. Latencia 300ms de ventana y 100% edge-capable.
GDPR Art. 9 · LFPDPPP · Ley 1581 · LGPD · EU AI Act
300ms
ventana de análisis
20
features acústicas
8-48 kHz
rango de muestreo
<12KB
SDK gzipped
Honestos sobre lo que sirve
Métricas reales del checkpoint en producción.
No son objetivos aspiracionales. Si suben, las actualizamos. Si bajan, también.
ia-02
Voice OMEGA
- val_acc
- 82.5%
- latency p95
- 120 ms
Cómo funciona
Tres pasos, nada de magia.
1 · Captura de audio
El SDK abre el micrófono o acepta un buffer de audio. Soporta PCM, WebM/Opus y µ-law de Twilio/Amazon Connect.
2 · Extracción acústica
20 features: MFCC, pitch mean/std, jitter, shimmer, HNR, energía, tasa de habla. Todas se extraen local con ~10ms de CPU.
3 · Clasificación emocional
Voice OMEGA devuelve probabilidades sobre los 5 estados. Combínalo con Whisper (IA-06) para transcripción simultánea.
Características
Hecho para producción real.
Streaming WebSocket
Abre una conexión wss:// y envía chunks de 20ms. Los resultados llegan cada 300ms con estado estable de ventana.
20 features acústicas
MFCC 13-dim + pitch, jitter, shimmer, HNR, energía RMS, tasa de habla, pausas. Documentadas en la referencia API.
Telephony-ready
Soporte nativo para 8kHz µ-law (Twilio, Amazon Connect, Genesys). Sin pérdida de precisión por el downsample.
Bajo el capó
3 IAs en acción
Cada producto VEXKIO combina una selección de nuestras 14 IAs internas. Aquí las que alimentan a Voice API:
IA-02
Voice OMEGA
20 features acústicas · prosodia · MFCC
IA-06
Whisper
transcripción local en tiempo real
IA-09
Fusion
combinación multimodal optimizada
Integración
Menos de 30 líneas.
El SDK VEXKIO es idéntico entre productos. Si ya integraste uno, los demás vienen casi gratis.
import { VexkioVoice } from "@vexkio/sdk";
const client = new VexkioVoice({ apiKey: "..." });
const socket = client.stream();
// Pipe raw microphone chunks.
navigator.mediaDevices.getUserMedia({ audio: true }).then((stream) => {
const recorder = new MediaRecorder(stream);
recorder.ondataavailable = (e) => socket.send(e.data);
recorder.start(20); // 20ms chunks
});
socket.on("result", (r) => console.log(r.state, r.prosody.pitch_mean));Casos de uso
Dónde marca diferencia.
Call centers
Detecta frustración del cliente en segundo 30, no al cerrar la llamada. Alerta al supervisor en vivo.
Podcasts y radio
Mide engagement a lo largo del episodio. Identifica qué segmentos generan caída de atención.
Terapia remota
Detecta signos prosódicos de depresión o ansiedad. Cumple con HIPAA y es compatible con Zoom for Healthcare.
Honestidad por diseño
Lo que VEXKIO NO hace.
Lo decimos antes de que firmes — para que no haya sorpresa después.
- No detectamos mentirasLa detección de engaño con AI tiene precisiones marginales. No vendemos lo que la ciencia no respalda.
- No emitimos diagnóstico médicoVEXKIO no es un servicio de salud mental. Sin certificación FDA / Cofepris / Invima, sin claims clínicos.
- No decidimos a quién contratarAsistimos al entrevistador con señales emocionales agregadas. La decisión queda en RR.HH., siempre.
- No identificamos personasSin face recognition, sin re-identification. Solo estados emocionales agregados.
Preguntas frecuentes
Lo que la gente pregunta antes de firmar.
¿Envía el audio al servidor?+
Depende del modo. En modo edge (recomendado) el audio se procesa local y solo viaja el vector de features. En modo cloud REST sí envías el audio — usa esta variante solo si procesas grabaciones batch desde tu backend.
¿Soporta español, portugués y otros idiomas?+
El análisis emocional es idioma-agnóstico porque opera sobre features acústicas. Para transcripción simultánea combina con IA-06 (Whisper), que soporta 99 idiomas con español-LATAM como variante nativa.
¿Qué tan preciso es en llamadas con ruido de fondo?+
La precisión cae de 91% (audio limpio) a 84% (SNR 10dB típico de contact center). Para escenarios muy ruidosos habilita el pre-filtro RNNoise incluido en el SDK.
¿Puedo combinarlo con Emotions API?+
Sí — usa Fusion API (/products/fusion-api) que combina señal facial y vocal en un solo vector optimizado con pesos aprendidos. Llamada única, facturación única.
¿Cuánto cuesta?+
$0.05 por sesión en el plan Pro. Una sesión cubre hasta 20 minutos de audio continuo. Sobre ese volumen hay descuentos por compromiso anual.
En la misma familia
Otros APIs Core
Prueba con tu primer audio
Sube un archivo WAV o conecta un stream. 10.000 sesiones gratis.