Un modelo de lenguaje grande solo de texto puede adaptarse en un controlador Visión--Lenguaje--Acción utilizando observaciones visuales renderizadas en ASCII. Este enfoque permite que los LLM interpreten estados visuales a través del texto, lo que les posibilita seguir instrucciones en lenguaje natural y generar acciones ejecutables tanto en simulación como en manipuladores físicos.