El artículo identifica el "sesgo de intervención" como un modo crítico de fallo en agentes educativos de asesoramiento con modelos de lenguaje grandes de cero disparos, donde recomiendan incorrectamente una acción a pesar de que las políticas oráculo mandan inacción. Utilizando el Conjunto de Datos de Analítica del Aprendizaje de la Open University, el estudio demuestra que GPT-4o de cero disparos presenta una tasa de falsos positivos de 43 puntos porcentuales al día 56, lo que conduce a aproximadamente 4.300 contactos innecesarios con asesores por ciclo para 10.000 estudiantes.

  • El aprendizaje supervisado de políticas utilizando un Decision Transformer (DT) en ONNX condicionado por trayectoria y un clasificador XGBoost elimina este sesgo, logrando un error de calibración cercano a cero.
  • El modelo DT alcanza una macro-F1 de 0.79 y una macro-recall de 0.85 en cinco clases de acción, incluyendo acciones raras de reducción de carga, con una tasa de cambio de acción del 0%.
  • Ambos modelos supervisados logran una latencia de decisión en CPU inferior a 5 ms, con el DT mostrando una ventaja indicativa sobre XGBoost en el corte final.
  • El estudio revela una brecha de evaluación donde la puntuación LLM-como-juez (DeepEval G-Eval) premia la prescripción excesivamente fluida en lugar de la calidad real de la decisión.

Los autores argumentan que el aprendizaje supervisado es esencial para aplicaciones de alto riesgo para garantizar decisiones deterministas y evitar la descalibración inherente a los enfoques de LLM de cero disparos.