El ajuste fino de modelos VLA requiere menos capas de lo pensado
Los modelos Visión-Lenguaje-Acción muestran una redundancia capa por capa severa a pesar de los grandes conteos de parámetros. Un método de compresión sin entrenamiento que utiliza Alineación del Núcleo Centrado elimina capas gemelas, reduciendo la profundidad del modelo hasta un 50% y permitiendo un entrenamiento 40-50% más rápido y una inferencia hasta un 30% más rápida sin pérdida de rendimiento, validado en tareas robóticas de simulación y del mundo real.