DataClaw0 вводит агентную парадигму для активного уточнения исходных мультимодальных данных с целью соответствия намерениям пользователя и последующих задач. Оно использует двухэтапную схему, основанную на фактических опорах, для создания масштабного набора данных в пяти областях и объединяет обучение с помощью надзора и GRPO для достижения сильной синхронизации с сложными задачами уточнения. Оценка на генерации видео, VQA и навигации в интерфейсе, DataClaw0 обеспечивает высокую плотность информационного содержания в настраиваемых данных, что позволяет эффективно адаптировать модели при минимальном объеме обучающих данных.
DataClaw0: Агентная настройка мультимодальных данных из исходных потоков
Переведено с English → Русский