PragReST es un marco de aprendizaje autosupervisado que mejora el razonamiento pragmático de los modelos de lenguaje grandes mediante la generación de trazas de razonamiento contrafáctico y el entrenamiento mediante ajuste fino supervisado y aprendizaje por refuerzo. Supera a los modelos base en cuatro benchmarks pragmáticos, mejorando la precisión de Qwen3-8B y Qwen3-14B en un 5.37% y un 5-5.50% respectivamente, y mantiene un rendimiento sólido en tareas de razonamiento sobre conocimiento general y matemático.
PragReST: Razonamiento contrafáctico auto-reforzante para la comprensión del lenguaje pragmático
Traducido del English → Español