Este artículo presenta un Puente Latente continuo que acopla modelos de visión y lenguaje con razonamiento congelados y reactivos para habilitar agentes de juego en tiempo real con latencia de milisegundos y planificación a largo plazo. Al proyectar los residuos del modelo lento en el espacio de incrustación de entrada del modelo rápido, evita las rondas de texto mientras iguala o supera a los Puentes de Texto tradicionales en rendimiento.
- El Puente Latente iguala o supera al Puente de Texto en 7 juegos de Atari y en el dominio de conducción MetaDrive.
- Mejora significativamente a MsPacman en un 57% y a RoadRunner en un 28% en comparación con los modelos reactivos de línea base.
- La combinación destructiva de ambos canales reduce el rendimiento en un 96% en RoadRunner.
- El beneficio del puente es altamente predecible, correlacionándose con r=0.93 con la ganancia del razonamiento lento sobre la reacción rápida.
El enfoque proporciona una solución segura para agentes que requieren tanto acción rápida como planificación compleja, con pipelines reproducibles y grabaciones de replay liberadas.