Fusion API
Cara más voz en un solo vector optimizado con pesos aprendidos.
Fusion API combina las señales de Emotions + Voice en un único endpoint con pesos entrenados sobre el conjunto de las dos modalidades. Más preciso que sumar los resultados a mano y con una sola facturación.
GDPR Art. 9 · LFPDPPP · Ley 1581 · LGPD · EU AI Act
+8-10%
precisión vs. mono-modalidad
$0.08
por sesión (mejor precio)
2s
ventana de fusión
3
IAs colaborando
Honestos sobre lo que sirve
Métricas reales del checkpoint en producción.
No son objetivos aspiracionales. Si suben, las actualizamos. Si bajan, también.
ia-09
Fusion OMEGA
- val_acc*
- 99.3%
- latency p95
- 180 ms
* 99 % en validación interna con pares sintéticos FER2013×RAVDESS — pendiente validación externa con video real con audio simultáneo.
ia-01
Facial encoder
- val_acc
- 74.1%
- latency p95
- 47 ms
ia-02
Voice encoder
- val_acc
- 82.5%
- latency p95
- 120 ms
Cómo funciona
Tres pasos, nada de magia.
1 · Dos flujos, un SDK
Abre cámara y micrófono al mismo tiempo. El SDK gestiona la sincronización de timestamps para que la fusión sea consistente.
2 · Inferencia paralela
Facial OMEGA y Voice OMEGA corren en hilos separados. Sus outputs alimentan la red de fusión IA-09.
3 · Estado fusionado
Recibes un único vector por ventana de 2s con 8-10% más de precisión que cualquiera de las dos modalidades sola.
Características
Hecho para producción real.
Pesos aprendidos, no heurísticos
IA-09 aprendió los pesos óptimos sobre 50.000 sesiones multimodales. Mejor que promediar probabilidades o votar por mayoría.
Degradación elegante
Si el usuario apaga la cámara (solo audio) o silencia el mic (solo video) el sistema sigue funcionando con una sola modalidad, sin fallos.
Mismo precio combinado
No pagas por llamar dos APIs — Fusion cuesta $0.08/sesión vs $0.10 que saldría sumar las dos por separado.
Bajo el capó
3 IAs en acción
Cada producto VEXKIO combina una selección de nuestras 14 IAs internas. Aquí las que alimentan a Fusion API:
IA-01
Facial OMEGA
478 landmarks · 5 estados · BiLSTM temporal
IA-02
Voice OMEGA
20 features acústicas · prosodia · MFCC
IA-09
Fusion
combinación multimodal optimizada
Integración
Menos de 30 líneas.
El SDK VEXKIO es idéntico entre productos. Si ya integraste uno, los demás vienen casi gratis.
import { VexkioFusion } from "@vexkio/sdk";
const session = await new VexkioFusion({ apiKey: "..." }).start({
video: videoEl,
audio: true,
onResult: (r) => {
// r.state = combined emotional state
// r.contributions = { face: 0.6, voice: 0.4 }
console.log(r);
},
});Casos de uso
Dónde marca diferencia.
Ventas complejas B2B
Cuando la conversación combina pantalla compartida y conversación, solo el análisis multimodal detecta discordancias como 'sonrisa nerviosa con voz tensa'.
Coaching ejecutivo
Mide congruencia entre lo que el coachee dice (voz) y cómo lo expresa (cara). Indicador clave de autoconocimiento real.
Entrevistas de trabajo
Detecta fit cultural combinando tono con microexpresiones. Usado por VEXKIO Interview (/products/interview).
Honestidad por diseño
Lo que VEXKIO NO hace.
Lo decimos antes de que firmes — para que no haya sorpresa después.
- No detectamos mentirasLa detección de engaño con AI tiene precisiones marginales. No vendemos lo que la ciencia no respalda.
- No emitimos diagnóstico médicoVEXKIO no es un servicio de salud mental. Sin certificación FDA / Cofepris / Invima, sin claims clínicos.
- No decidimos a quién contratarAsistimos al entrevistador con señales emocionales agregadas. La decisión queda en RR.HH., siempre.
- No identificamos personasSin face recognition, sin re-identification. Solo estados emocionales agregados.
Preguntas frecuentes
Lo que la gente pregunta antes de firmar.
¿Cuándo elegir Fusion en vez de Emotions o Voice solas?+
Siempre que tengas ambas señales disponibles y te importe la precisión — Fusion da 8-10% más de accuracy. Si tu caso es audio-only (llamada sin video) o video-only (grabación sin sonido) usa la API mono-modal correspondiente.
¿Qué pasa si una modalidad falla?+
Degrada sin interrupción. Si la cámara se apaga mitad de sesión, los siguientes frames usan solo voz; si el usuario se silencia, sigue solo cara. El output indica qué modalidades contribuyeron al resultado.
¿El video y audio van juntos al mismo servidor?+
Ninguno va al servidor. Igual que las APIs mono-modales, Fusion corre edge-first — cámara y micro se procesan en el navegador, solo el vector fusionado viaja.
¿Cómo se entrena el modelo de fusión?+
IA-09 se re-entrena trimestralmente con datos anonimizados agregados (con consentimiento explícito de los clientes suscritos al programa de mejora continua). Nunca con datos crudos de video o audio.
¿Hay SDK nativo para iOS/Android?+
Sí — @vexkio/sdk-ios (Swift) y @vexkio/sdk-android (Kotlin) con las mismas APIs. Soportan Core ML y NNAPI para aceleración por hardware.
En la misma familia
Otros APIs Core
La señal más fiel disponible
Multimodal por el precio de una API. 10.000 sesiones gratis.