Текстовый большой языковой модель может быть адаптирован к контроллеру Vision--Language--Action с использованием ASCII-рендеренных визуальных наблюдений. Этот подход позволяет LLM интерпретировать визуальные состояния через текст, что позволяет им следовать инструкциям на естественном языке и генерировать исполняемые действия как в симуляции, так и на физических манипуляторах.