VEXKIO
APIs CoreAPIsLIVE candidate

Fusion API

Cara más voz en un solo vector optimizado con pesos aprendidos.

Fusion API combina las señales de Emotions + Voice en un único endpoint con pesos entrenados sobre el conjunto de las dos modalidades. Más preciso que sumar los resultados a mano y con una sola facturación.

Solicitar piloto pagado$5K setup · 3 mo min · validation pendiente video realProbar sandboxdesde $0.08/sesión

GDPR Art. 9 · LFPDPPP · Ley 1581 · LGPD · EU AI Act

+8-10%

precisión vs. mono-modalidad

$0.08

por sesión (mejor precio)

2s

ventana de fusión

3

IAs colaborando

Honestos sobre lo que sirve

Métricas reales del checkpoint en producción.

No son objetivos aspiracionales. Si suben, las actualizamos. Si bajan, también.

ia-09

Fusion OMEGA

LIVE candidate
val_acc*
99.3%
latency p95
180 ms

* 99 % en validación interna con pares sintéticos FER2013×RAVDESS — pendiente validación externa con video real con audio simultáneo.

ia-01

Facial encoder

LIVE candidate
val_acc
74.1%
latency p95
47 ms

ia-02

Voice encoder

LIVE candidate
val_acc
82.5%
latency p95
120 ms

Cómo funciona

Tres pasos, nada de magia.

1 · Dos flujos, un SDK

Abre cámara y micrófono al mismo tiempo. El SDK gestiona la sincronización de timestamps para que la fusión sea consistente.

2 · Inferencia paralela

Facial OMEGA y Voice OMEGA corren en hilos separados. Sus outputs alimentan la red de fusión IA-09.

3 · Estado fusionado

Recibes un único vector por ventana de 2s con 8-10% más de precisión que cualquiera de las dos modalidades sola.

Características

Hecho para producción real.

Pesos aprendidos, no heurísticos

IA-09 aprendió los pesos óptimos sobre 50.000 sesiones multimodales. Mejor que promediar probabilidades o votar por mayoría.

Degradación elegante

Si el usuario apaga la cámara (solo audio) o silencia el mic (solo video) el sistema sigue funcionando con una sola modalidad, sin fallos.

Mismo precio combinado

No pagas por llamar dos APIs — Fusion cuesta $0.08/sesión vs $0.10 que saldría sumar las dos por separado.

Bajo el capó

3 IAs en acción

Cada producto VEXKIO combina una selección de nuestras 14 IAs internas. Aquí las que alimentan a Fusion API:

IA-01

Facial OMEGA

478 landmarks · 5 estados · BiLSTM temporal

IA-02

Voice OMEGA

20 features acústicas · prosodia · MFCC

IA-09

Fusion

combinación multimodal optimizada

Integración

Menos de 30 líneas.

El SDK VEXKIO es idéntico entre productos. Si ya integraste uno, los demás vienen casi gratis.

import { VexkioFusion } from "@vexkio/sdk";

const session = await new VexkioFusion({ apiKey: "..." }).start({
  video: videoEl,
  audio: true,
  onResult: (r) => {
    // r.state = combined emotional state
    // r.contributions = { face: 0.6, voice: 0.4 }
    console.log(r);
  },
});

Casos de uso

Dónde marca diferencia.

Ventas complejas B2B

Cuando la conversación combina pantalla compartida y conversación, solo el análisis multimodal detecta discordancias como 'sonrisa nerviosa con voz tensa'.

Coaching ejecutivo

Mide congruencia entre lo que el coachee dice (voz) y cómo lo expresa (cara). Indicador clave de autoconocimiento real.

Entrevistas de trabajo

Detecta fit cultural combinando tono con microexpresiones. Usado por VEXKIO Interview (/products/interview).

Honestidad por diseño

Lo que VEXKIO NO hace.

Lo decimos antes de que firmes — para que no haya sorpresa después.

Preguntas frecuentes

Lo que la gente pregunta antes de firmar.

¿Cuándo elegir Fusion en vez de Emotions o Voice solas?+

Siempre que tengas ambas señales disponibles y te importe la precisión — Fusion da 8-10% más de accuracy. Si tu caso es audio-only (llamada sin video) o video-only (grabación sin sonido) usa la API mono-modal correspondiente.

¿Qué pasa si una modalidad falla?+

Degrada sin interrupción. Si la cámara se apaga mitad de sesión, los siguientes frames usan solo voz; si el usuario se silencia, sigue solo cara. El output indica qué modalidades contribuyeron al resultado.

¿El video y audio van juntos al mismo servidor?+

Ninguno va al servidor. Igual que las APIs mono-modales, Fusion corre edge-first — cámara y micro se procesan en el navegador, solo el vector fusionado viaja.

¿Cómo se entrena el modelo de fusión?+

IA-09 se re-entrena trimestralmente con datos anonimizados agregados (con consentimiento explícito de los clientes suscritos al programa de mejora continua). Nunca con datos crudos de video o audio.

¿Hay SDK nativo para iOS/Android?+

Sí — @vexkio/sdk-ios (Swift) y @vexkio/sdk-android (Kotlin) con las mismas APIs. Soportan Core ML y NNAPI para aceleración por hardware.

En la misma familia

Otros APIs Core

La señal más fiel disponible

Multimodal por el precio de una API. 10.000 sesiones gratis.