MORL-A2C: Reordenador de Aprendizaje por Refuerzo Multiobjetivo para Salud

Los investigadores presentan MORL-A2C, una extensión de toma de decisiones secuenciales al sistema MOPI-HFRS que utiliza un algoritmo Actor-Crítico de Ventaja para optimizar el equilibrio entre la preferencia del usuario y la salud nutricional en las recomendaciones de alimentos.

El modelo formula la recomendación como un problema de reordenamiento de K pasos utilizando incrustaciones GNN congeladas y una recompensa escalada de relevancia/salud.
La política se inicializa mediante clonación de comportamiento contra un clasificador de producto punto derivado de las mismas incrustaciones.
Se identificó y corrigió un error en la tubería de evaluación original de MOPI-HFRS, actualizando todas las métricas de rendimiento de referencia.
En el conjunto de datos de macro-nutrientes, MORL-A2C mejora la H-Score@20 de 46.05% a 69.57%, mientras que Recall@20 disminuye de 25.64% a 23.61% y NDCG@20 de 23.52% a 20.64%.

Estos hallazgos validan que la optimización secuencial basada en políticas puede navegar eficazmente el equilibrio entre salud y preferencia en sistemas de recomendación de alimentos multiobjetivo.