El Clonamiento de Comportamiento Jerárquico Ponderado por Ventaja (HABC) mejora el ajuste fino de RL en línea para agentes de visión y lenguaje mediante el uso de cabezales de crítico separados para viabilidad y eficiencia. Combina sus salidas a través de una puerta adaptativa al estado y aplica pesos por transición, mientras que la asignación de crédito consciente de intervenciones evita la fuga de supervisión. En experimentos con robots reales, HABC aumenta las tasas de éxito hasta 92%, 88% y 38% en tres tareas bimanuales, superando los lineamientos base de SFT de 36%, 44% y 12%.