VEXKIO
← Volver al blog
Tecnología·7 min de lectura·12 de mayo de 2026

IA multimodal en tiempo real: cómo VEXKIO fusiona cara, voz y señas en menos de 80 ms

La arquitectura técnica detrás de VEXKIO Fusion API: cuatro IAs en paralelo, late fusion ponderada, degradación elegante con señales parciales y compliance GDPR Art. 9 por diseño.

Por Diego Ramírez

Detectar emociones en una sola modalidad es relativamente fácil. Detectar emociones en vivo, en multimodal, con compliance, con degradación elegante y a 80 ms es ingeniería seria. Acá la arquitectura interna de VEXKIO Fusion API.

El problema con un solo modelo

Construir emotion AI con un único modelo monolítico que ingiera video + audio + texto en paralelo suena elegante. En producción falla por tres razones:

  1. Imposible de entrenar de forma balanceada. Una clase subrepresentada en una modalidad arrastra el accuracy de las otras.
  2. Imposible de auditar por dominio. Un regulador no puede pedir "trazabilidad solo facial" sin destripar todo.
  3. Imposible de actualizar incrementalmente. Mejorar la detección de voz obliga a reentrenar todo.

VEXKIO separó el problema en sub-problemas con responsabilidad única. Cuatro IAs específicas + una IA de fusión. Cada una audita-able, actualiza-ble, sustitutible.

Las 4 IAs perceptivas

IA-01 Facial OMEGA

ResNet-18 sobre 224×224 frames. Pre-procesado con MediaPipe landmarks (478 puntos) en el dispositivo del cliente. Solo se envía la inferencia, jamás los frames. Latencia p95: 47 ms.

IA-02 Voice OMEGA

CRNN sobre MFCC (40 coefs, 3s clip, 16 kHz). Conv 1D + BiLSTM

  • FC. El audio se digitaliza en el cliente, se procesan los MFCC, y los coeficientes (no el audio raw) se envían. Latencia p95: 120 ms (incluye extracción librosa + forward pass).

IA-03 Signs LSC

Small CNN sobre 64×64 pixels. 36 clases de Lengua de Señas Colombiana (alfabeto + signos prioritarios). Latencia p95: 120 ms.

IA-09 Fusion OMEGA

Late-fusion MLP que combina los embeddings de IA-01 (face) e IA-02 (voice). 640 → 256 → 128 → 5 (VEXKIO-5). Recibe los encoders de IA-01 e IA-02 congelados (frozen) — solo entrena la cabeza fusión. Latencia p95: 180 ms (cuando ambas modalidades están presentes).

Por qué late fusion (no early)

Probamos las tres estrategias en pilotos:

| Strategy | val_acc fused | Falla con señal parcial | Notas | |---|---|---|---| | Early fusion (concat raw) | 84 % | Catastrófica | Si falta voz, todo falla | | Cross-attention | 91 % | Mala | Lenta, requiere ambos en cada paso | | Late fusion | 99 %* | Elegante | El elegido |

* Asterisco en 99 % — pendiente validación contra video con audio simultáneo real (no pares sintéticos).

Late fusion gana porque:

  • Cada encoder se entrena independientemente, con su propio dataset óptimo (FER2013 para face, RAVDESS+CREMA-D para voice).
  • Si una modalidad cae (ej. cliente muteó la cámara), el Fusion API degrada automáticamente al modelo de la modalidad activa.

Degradación elegante (la parte que vende)

Una request a /v1/fusion:

{
  "image_b64": "...",
  "audio_b64": "..."
}

Devuelve:

{
  "state": "apertura",
  "confidence": 0.83,
  "modalities_used": ["face", "voice"],
  "model": "ia-09",
  "inference": "real",
  "latency_ms": 180
}

Si el cliente envía solo voz:

{
  "state": "apertura",
  "confidence": 0.78,
  "modalities_used": ["voice"],
  "model": "ia-02",
  "inference": "real",
  "latency_ms": 122
}

El producto sigue funcionando con confidence levemente menor. El cliente no recibe un 5xx. El copilot del vendedor sigue recibiendo señales.

Si no hay ninguna modalidad:

{ "error": "no_signal" }

Honesto, claro, no inventado.

Compliance integrado

VEXKIO procesa los frames + audio en el dispositivo del cliente. Solo se envían vectores de features. Tres consecuencias:

  1. GDPR Art. 9 (datos biométricos) cumplido por arquitectura, no por política. Sin video raw en nuestros servidores, no hay PII biométrica almacenada.
  2. Consent gate antes de cada inferencia. El SDK refuse a enviar features sin consent activo.
  3. DSAR Art. 17 (right to erasure) trivial: el cliente borra los vectores agregados; no hay imágenes que borrar.

Latencia: dónde se va el tiempo

Breakdown en una llamada típica multimodal:

0-30 ms    : MediaPipe landmarks en device
30-80 ms   : librosa MFCC extraction en device
80-90 ms   : packetize + send to API
90-127 ms  : IA-02 voice forward pass
90-137 ms  : IA-01 face forward pass (paralelo)
137-180 ms : IA-09 fusion head + response

Total p95: 180 ms end-to-end. Suficiente para el agente humano. El bottleneck dominante es la fusion + network — no el modelo en sí.

Roadmap multimodal

Próximos pasos en architecture:

  • Cross-attention opcional para clientes que prefieran más accuracy a menos resilience.
  • IA-06 Whisper STT integrado al Fusion para sumar texto como tercera modalidad.
  • Auto-calibración por tenant: el primer 7-day pilot pinea el threshold de confidence per-tenant.

Conclusión

Real-time multimodal emotion AI no es un solo modelo. Es una orquesta. Cada IA hace una cosa bien, expone un contrato tipado, y se reemplaza independientemente. Ese es el moat arquitectónico de VEXKIO frente a competidores que vendieron modelos monolíticos.