Los investigadores presentan MORL-A2C, una extensión de toma de decisiones secuenciales al sistema MOPI-HFRS que utiliza un algoritmo Actor-Crítico de Ventaja para optimizar el equilibrio entre la preferencia del usuario y la salud nutricional en las recomendaciones de alimentos.
- El modelo formula la recomendación como un problema de reordenamiento de K pasos utilizando incrustaciones GNN congeladas y una recompensa escalada de relevancia/salud.
- La política se inicializa mediante clonación de comportamiento contra un clasificador de producto punto derivado de las mismas incrustaciones.
- Se identificó y corrigió un error en la tubería de evaluación original de MOPI-HFRS, actualizando todas las métricas de rendimiento de referencia.
- En el conjunto de datos de macro-nutrientes, MORL-A2C mejora la H-Score@20 de 46.05% a 69.57%, mientras que Recall@20 disminuye de 25.64% a 23.61% y NDCG@20 de 23.52% a 20.64%.
Estos hallazgos validan que la optimización secuencial basada en políticas puede navegar eficazmente el equilibrio entre salud y preferencia en sistemas de recomendación de alimentos multiobjetivo.