VEXKIO
APIs CoreAPIsLIVE candidate

Voice API

Emoción vocal por REST o streaming WebSocket, con 20 features acústicas.

Detecta prosodia, MFCC, pitch y energía del habla en tiempo real. Funciona con audio de llamadas, webinars o grabaciones. Latencia 300ms de ventana y 100% edge-capable.

Solicitar piloto pagado$5K setup · 3 mo min · NDA + DPAProbar sandboxdesde $0.05/sesión

GDPR Art. 9 · LFPDPPP · Ley 1581 · LGPD · EU AI Act

300ms

ventana de análisis

20

features acústicas

8-48 kHz

rango de muestreo

<12KB

SDK gzipped

Honestos sobre lo que sirve

Métricas reales del checkpoint en producción.

No son objetivos aspiracionales. Si suben, las actualizamos. Si bajan, también.

ia-02

Voice OMEGA

LIVE candidate
val_acc
82.5%
latency p95
120 ms

Cómo funciona

Tres pasos, nada de magia.

1 · Captura de audio

El SDK abre el micrófono o acepta un buffer de audio. Soporta PCM, WebM/Opus y µ-law de Twilio/Amazon Connect.

2 · Extracción acústica

20 features: MFCC, pitch mean/std, jitter, shimmer, HNR, energía, tasa de habla. Todas se extraen local con ~10ms de CPU.

3 · Clasificación emocional

Voice OMEGA devuelve probabilidades sobre los 5 estados. Combínalo con Whisper (IA-06) para transcripción simultánea.

Características

Hecho para producción real.

Streaming WebSocket

Abre una conexión wss:// y envía chunks de 20ms. Los resultados llegan cada 300ms con estado estable de ventana.

20 features acústicas

MFCC 13-dim + pitch, jitter, shimmer, HNR, energía RMS, tasa de habla, pausas. Documentadas en la referencia API.

Telephony-ready

Soporte nativo para 8kHz µ-law (Twilio, Amazon Connect, Genesys). Sin pérdida de precisión por el downsample.

Bajo el capó

3 IAs en acción

Cada producto VEXKIO combina una selección de nuestras 14 IAs internas. Aquí las que alimentan a Voice API:

IA-02

Voice OMEGA

20 features acústicas · prosodia · MFCC

IA-06

Whisper

transcripción local en tiempo real

IA-09

Fusion

combinación multimodal optimizada

Integración

Menos de 30 líneas.

El SDK VEXKIO es idéntico entre productos. Si ya integraste uno, los demás vienen casi gratis.

import { VexkioVoice } from "@vexkio/sdk";

const client = new VexkioVoice({ apiKey: "..." });
const socket = client.stream();

// Pipe raw microphone chunks.
navigator.mediaDevices.getUserMedia({ audio: true }).then((stream) => {
  const recorder = new MediaRecorder(stream);
  recorder.ondataavailable = (e) => socket.send(e.data);
  recorder.start(20); // 20ms chunks
});

socket.on("result", (r) => console.log(r.state, r.prosody.pitch_mean));

Casos de uso

Dónde marca diferencia.

Call centers

Detecta frustración del cliente en segundo 30, no al cerrar la llamada. Alerta al supervisor en vivo.

Podcasts y radio

Mide engagement a lo largo del episodio. Identifica qué segmentos generan caída de atención.

Terapia remota

Detecta signos prosódicos de depresión o ansiedad. Cumple con HIPAA y es compatible con Zoom for Healthcare.

Honestidad por diseño

Lo que VEXKIO NO hace.

Lo decimos antes de que firmes — para que no haya sorpresa después.

Preguntas frecuentes

Lo que la gente pregunta antes de firmar.

¿Envía el audio al servidor?+

Depende del modo. En modo edge (recomendado) el audio se procesa local y solo viaja el vector de features. En modo cloud REST sí envías el audio — usa esta variante solo si procesas grabaciones batch desde tu backend.

¿Soporta español, portugués y otros idiomas?+

El análisis emocional es idioma-agnóstico porque opera sobre features acústicas. Para transcripción simultánea combina con IA-06 (Whisper), que soporta 99 idiomas con español-LATAM como variante nativa.

¿Qué tan preciso es en llamadas con ruido de fondo?+

La precisión cae de 91% (audio limpio) a 84% (SNR 10dB típico de contact center). Para escenarios muy ruidosos habilita el pre-filtro RNNoise incluido en el SDK.

¿Puedo combinarlo con Emotions API?+

Sí — usa Fusion API (/products/fusion-api) que combina señal facial y vocal en un solo vector optimizado con pesos aprendidos. Llamada única, facturación única.

¿Cuánto cuesta?+

$0.05 por sesión en el plan Pro. Una sesión cubre hasta 20 minutos de audio continuo. Sobre ese volumen hay descuentos por compromiso anual.

En la misma familia

Otros APIs Core

Prueba con tu primer audio

Sube un archivo WAV o conecta un stream. 10.000 sesiones gratis.