PragReST: Razonamiento contrafáctico auto-reforzante para la comprensión del lenguaje pragmático

PragReST es un marco de aprendizaje autosupervisado que mejora el razonamiento pragmático de los modelos de lenguaje grandes mediante la generación de trazas de razonamiento contrafáctico y el entrenamiento mediante ajuste fino supervisado y aprendizaje por refuerzo. Supera a los modelos base en cuatro benchmarks pragmáticos, mejorando la precisión de Qwen3-8B y Qwen3-14B en un 5.37% y un 5-5.50% respectivamente, y mantiene un rendimiento sólido en tareas de razonamiento sobre conocimiento general y matemático.