OPERA: Alinear el razonamiento de propósito abierto mediante aprendizaje por refuerzo basado en perplejidad objetiva
El marco OPERA aborda la inestabilidad de aplicar aprendizaje por refuerzo a tareas de propósito abierto, reemplazando modelos de juicio externos con recompensas intrínsecas derivadas de la dinámica de la perplejidad. Este enfoque cuantifica la reducción de la incertidumbre en estados reflexivos críticos, eliminando sesgos estilísticos e inconsistencias posicionales comunes en los sistemas LLM-as-a-judge. Durante la fase de arranque en frío, el método utiliza palabras guía para sintetizar trazas de razonamiento diversas y emplea rollouts priorizados por perplejidad para identificar ramas lógicamente consistentes. Esta tubería genera un conjunto de datos a gran escala de 20,000 trayectorias de razonamiento de alta calidad para el entrenamiento. Implementar OPERA en el modelo Qwen3-8B establece un nuevo estado del arte entre los modelos de código abierto. El sistema alcanza la paridad con o supera a modelos propietarios como Gemini2.5 y MiniMax-M2.5 en tareas específicas de propósito abierto. Las evaluaciones empíricas confirman la escalabilidad y eficacia de esta estrategia de alineación basada en perplejidad objetiva.