Autodata: Агентный дата-сайентист для создания высококачественных синтетических данных

Авторы представляют Autodata — общий метод, позволяющий ИИ-агентам функционировать в роли дата-сайентистов для построения высококачественных обучающих и оценочных наборов данных. Подход включает метаоптимизацию этих агентов, чтобы они учились генерировать всё более сильные данные посредством процесса под названием Agentic Self-Instruct. Эксперименты проводились в задачах компьютерных наук, юридическом рассуждении и рассуждении о математических объектах. Результаты демонстрируют, что этот метод создания данных на основе агентов обеспечивает улучшенную производительность по сравнению с классическими методами создания синтетических наборов данных. Кроме того, метаоптимизация самого агента-дата-сайентиста даёт ещё более значительный прирост производительности. Эта работа иллюстрирует, как увеличение вычислительных ресурсов на этапе вывода (inference) может быть преобразовано в данные для обучения моделей более высокого качества. Авторы предполагают, что это направление имеет потенциал фундаментально изменить подход к созданию ИИ-данных.