Спектр обобщения: хроматографический подход к оценке алгоритмов обучения
Традиционные оценки сводят обучение к единому агрегированному показателю, скрывая то, насколько хорошо знания из одного примера обобщаются на другие. Авторы вводят Спектр обобщения (Generalization Spectrum) — фреймворк оценки, который измеряет обобщение для каждого образца путем отслеживания производительности по вариантам тестов с увеличивающимся расстоянием переноса. Эти варианты варьируются от точного воспроизведения до переноса реализации между языками и переноса контекста при нарративном перефрейминге. Фреймворк реализован на основе соревновательного программирования с использованием конвейера выбора и синтеза, инициированного недавними задачами для снижения риска загрязнения данных. Сравнения канонических парадигм обучения показывают, что обучение с подкреплением (Reinforcement Learning) преобразует запоминание в перенос на близкие задачи эффективнее, чем базовые методы контролируемой тонкой настройки (Supervised Fine-Tuning). Обучение в контексте (in-context learning) демонстрирует сильные, но зависящие от соответствия возможности переноса в данном контексте. Диагностические профили показывают, что локальные улучшения не обязательно расширяют радиус обобщения для всех методов. В частности, абстракции и подсказки в основном повышают локальный перенос, тогда как Контролируемая тонкая настройка с использованием эталонов (Reference SFT) сохраняет более сильный хвост распределения для дальнего переноса по сравнению с RL с подкреплением (RFT). Кроме того, самодистилляция или