Недавние большие языковые модели испытывают трудности с генерацией предметно-специфичных данных из-за строгих требований к форматированию и структуре. Для решения проблемы совместимости отчетов об отключениях электроэнергии в сфере коммунальных услуг США исследователи предлагают POTracker, оптимизированную модель для генерации машиночитаемых документов соответствия требованиям. Команда выполнила дообучение модели Qwen2.5-7B-Instruct с использованием новой целевой функции под названием POTrackerLoss. Эта новая функция потерь учитывает как текстовое сходство, так и сходство структурных тегов между сгенерированными результатами и эталонными отчетами. Оценка на наборе данных из 1000 отчетов демонстрирует, что POTracker превосходит пять методов дообучения и один подход на основе правил для преобразования в XML. Модель повышает общую точность до 51% и достигает структурной точности 86,47% для сгенерированных отчетов. Кроме того, исследование с участием экспертов-предметников присвоило среднюю оценку качества 4,03 по шкале от 0 до 5 сгенерированным меткам.
POTracker оптимизирует большие языковые модели для генерации отчетов об отключениях электроэнергии, соответствующих стандартам
Переведено с English → Русский