IA multimodal en tiempo real: cómo VEXKIO fusiona cara, voz y señas en menos de 80 ms