IA multimodal en tiempo real: cómo VEXKIO fusiona cara, voz y señas en menos de 80 ms
La arquitectura técnica detrás de VEXKIO Fusion API: cuatro IAs en paralelo, late fusion ponderada, degradación elegante con señales parciales y compliance GDPR Art. 9 por diseño.
Por Diego Ramírez
Detectar emociones en una sola modalidad es relativamente fácil. Detectar emociones en vivo, en multimodal, con compliance, con degradación elegante y a 80 ms es ingeniería seria. Acá la arquitectura interna de VEXKIO Fusion API.
El problema con un solo modelo
Construir emotion AI con un único modelo monolítico que ingiera video + audio + texto en paralelo suena elegante. En producción falla por tres razones:
- Imposible de entrenar de forma balanceada. Una clase subrepresentada en una modalidad arrastra el accuracy de las otras.
- Imposible de auditar por dominio. Un regulador no puede pedir "trazabilidad solo facial" sin destripar todo.
- Imposible de actualizar incrementalmente. Mejorar la detección de voz obliga a reentrenar todo.
VEXKIO separó el problema en sub-problemas con responsabilidad única. Cuatro IAs específicas + una IA de fusión. Cada una audita-able, actualiza-ble, sustitutible.
Las 4 IAs perceptivas
IA-01 Facial OMEGA
ResNet-18 sobre 224×224 frames. Pre-procesado con MediaPipe landmarks (478 puntos) en el dispositivo del cliente. Solo se envía la inferencia, jamás los frames. Latencia p95: 47 ms.
IA-02 Voice OMEGA
CRNN sobre MFCC (40 coefs, 3s clip, 16 kHz). Conv 1D + BiLSTM
- FC. El audio se digitaliza en el cliente, se procesan los MFCC, y los coeficientes (no el audio raw) se envían. Latencia p95: 120 ms (incluye extracción librosa + forward pass).
IA-03 Signs LSC
Small CNN sobre 64×64 pixels. 36 clases de Lengua de Señas Colombiana (alfabeto + signos prioritarios). Latencia p95: 120 ms.
IA-09 Fusion OMEGA
Late-fusion MLP que combina los embeddings de IA-01 (face) e IA-02 (voice). 640 → 256 → 128 → 5 (VEXKIO-5). Recibe los encoders de IA-01 e IA-02 congelados (frozen) — solo entrena la cabeza fusión. Latencia p95: 180 ms (cuando ambas modalidades están presentes).
Por qué late fusion (no early)
Probamos las tres estrategias en pilotos:
| Strategy | val_acc fused | Falla con señal parcial | Notas | |---|---|---|---| | Early fusion (concat raw) | 84 % | Catastrófica | Si falta voz, todo falla | | Cross-attention | 91 % | Mala | Lenta, requiere ambos en cada paso | | Late fusion | 99 %* | Elegante | El elegido |
* Asterisco en 99 % — pendiente validación contra video con
audio simultáneo real (no pares sintéticos).
Late fusion gana porque:
- Cada encoder se entrena independientemente, con su propio dataset óptimo (FER2013 para face, RAVDESS+CREMA-D para voice).
- Si una modalidad cae (ej. cliente muteó la cámara), el Fusion API degrada automáticamente al modelo de la modalidad activa.
Degradación elegante (la parte que vende)
Una request a /v1/fusion:
{
"image_b64": "...",
"audio_b64": "..."
}
Devuelve:
{
"state": "apertura",
"confidence": 0.83,
"modalities_used": ["face", "voice"],
"model": "ia-09",
"inference": "real",
"latency_ms": 180
}
Si el cliente envía solo voz:
{
"state": "apertura",
"confidence": 0.78,
"modalities_used": ["voice"],
"model": "ia-02",
"inference": "real",
"latency_ms": 122
}
El producto sigue funcionando con confidence levemente menor. El cliente no recibe un 5xx. El copilot del vendedor sigue recibiendo señales.
Si no hay ninguna modalidad:
{ "error": "no_signal" }
Honesto, claro, no inventado.
Compliance integrado
VEXKIO procesa los frames + audio en el dispositivo del cliente. Solo se envían vectores de features. Tres consecuencias:
- GDPR Art. 9 (datos biométricos) cumplido por arquitectura, no por política. Sin video raw en nuestros servidores, no hay PII biométrica almacenada.
- Consent gate antes de cada inferencia. El SDK refuse a enviar features sin consent activo.
- DSAR Art. 17 (right to erasure) trivial: el cliente borra los vectores agregados; no hay imágenes que borrar.
Latencia: dónde se va el tiempo
Breakdown en una llamada típica multimodal:
0-30 ms : MediaPipe landmarks en device
30-80 ms : librosa MFCC extraction en device
80-90 ms : packetize + send to API
90-127 ms : IA-02 voice forward pass
90-137 ms : IA-01 face forward pass (paralelo)
137-180 ms : IA-09 fusion head + response
Total p95: 180 ms end-to-end. Suficiente para el agente humano. El bottleneck dominante es la fusion + network — no el modelo en sí.
Roadmap multimodal
Próximos pasos en architecture:
- Cross-attention opcional para clientes que prefieran más accuracy a menos resilience.
- IA-06 Whisper STT integrado al Fusion para sumar texto como tercera modalidad.
- Auto-calibración por tenant: el primer 7-day pilot pinea el threshold de confidence per-tenant.
Conclusión
Real-time multimodal emotion AI no es un solo modelo. Es una orquesta. Cada IA hace una cosa bien, expone un contrato tipado, y se reemplaza independientemente. Ese es el moat arquitectónico de VEXKIO frente a competidores que vendieron modelos monolíticos.
- Pillar: Los 5 estados emocionales VEXKIO.
- API: Fusion API, Emotions API.
- Lectura adyacente: Las 14 IAs de VEXKIO.