Hierarchical Advantage-Weighted Behavior Cloning (HABC) улучшает онлайн-RL-настройку агентов визуально-языковых систем за счёт использования отдельных критических голов для жизнеспособности и эффективности. Оно объединяет их выходы через состояние-адаптивный воротник и применяет веса на переходе, при этом интервенция-ориентированная присвоение кредитов предотвращает утечку контроля. В реальных экспериментах с роботами HABC повышает показатели успеха до 92%, 88% и 38% на трёх бимануальных задачах, превосходя базовые значения SFT на 36%, 44% и 12%.