DPO Secuencial Muestra Impacto Variable de Preferencia en Distintos Entornos

Un estudio de la Optimización Directa de Preferencia secuencial encuentra que el entrenamiento posterior no degrada uniformemente las preferencias aprendidas anteriormente. El efecto varía según la relación del objetivo, la intensidad de la señal y el orden de entrenamiento, oscilando entre degradación parcial y transferencia positiva. El análisis a nivel de pares revela cambios heterogéneos, con pares de preferencia de alta confianza que a veces mejoran a pesar de la estabilidad de las métricas agregadas.