Гипотеза-ориентированная оптимизация навыков для агентов на основе языковых моделей
HDSO обеспечивает безопасные и проверяемые обновления навыков для агентов на основе языковых моделей без обучения, используя фальсифицируемые гипотезы и проверку. На ALFWorld он улучшает Qwen3-8B на +6,9 точек среднего результата, и сохраняет прирост в +7,1 точку при шумной обратной связи, при этом проверенные навыки передаются между запусками и моделями при достижении диагностической синхронизации.