MORL-A2C: Ранжерер для многокритериального обучения с подкреплением для здоровья

Исследователи представляют MORL-A2C, расширение последовательного принятия решений для системы MOPI-HFRS, которое использует алгоритм Advantage Actor-Critic для оптимизации компромисса между предпочтениями пользователя и нутритивным здоровьем в рекомендациях по питанию.

Модель формулирует рекомендацию как задачу переупорядочивания на K шагов с использованием замороженных эмбеддингов GNN и скаляризованной релевантности/награды за здоровье.
Политика инициализируется путем клонирования поведения относительно ранжировщика по скалярному произведению, полученного из тех же эмбеддингов.
В оригинальном конвейере оценки MOPI-HFRS была обнаружена и исправлена ошибка, что привело к обновлению всех метрик производительности базовых моделей.
На бенчмарке макро-нутриентов MORL-A2C улучшает H-Score@20 с 46.05% до 69.57%, в то время как Recall@20 падает с 25.64% до 23.61%, а NDCG@20 — с 23.52% до 20.64%.

Эти результаты подтверждают, что последовательная оптимизация на основе политики может эффективно находить баланс между здоровьем и предпочтениями в системах многокритериальных рекомендаций по питанию.