Codec de Acción Neural para Modelos Visión-Lenguaje-Acción
NAC, una arquitectura inspirada en códecs de audio neural, comprime trayectorias de acción de robots como señales 1D multicanal utilizando cuantización vectorial residual multiescala. Al reemplazar las pérdidas de mel-espectrograma con reconstrucción en el dominio del tiempo y no-mel espectral, NAC logra una codificación de acción de alta fidelidad con cambios arquitecturales mínimos, superando a los tokenizers existentes en error de reconstrucción y tasas de éxito en tareas de manipulación del mundo real.