Коллапс многошагового использования инструментов в RL и надзорные исправления
Недавние методы агентного обучения с подкреплением для больших языковых моделей часто страдают от нестабильности или ограниченного прироста в задачах использования инструментов. Эксперименты показывают, что некоторые модели испытывают катастрофический коллапс, при котором производительность резко падает, а структуры вызова инструментов перестают работать. Анализ показывает, что эти сбои возникают из-за неожиданных скачков вероятности для определенных управляющих токенов, которые нарушают структурированное выполнение. Несмотря на это нарушение, базовая способность использовать инструменты сохраняется, но маскируется специфическими проблемами форматирования. Для решения этой проблемы исследование изучает разнообразные сигналы надзора, включая внеполитический надзор и руководство на основе подсказок в различных схемах обучения. Авторы обнаруживают, что чередование контролируемой тонкой настройки с обучением с подкреплением существенно улучшает стабильность во время обучения. Однако этот подход демонстрирует ухудшение производительности при оценке на данных формата и содержания вне распределения (out-of-distribution). Результаты подчеркивают важность понимания сбоев в RL для обеспечения надежного обучения сложных задач многошагового использования инструментов.