Decisiones deterministas para IA de alto riesgo
El artículo identifica el "sesgo de intervención" como un modo crítico de fallo en agentes educativos de asesoramiento con modelos de lenguaje grandes de cero disparos, donde recomiendan incorrectamente una acción a pesar de que las políticas oráculo mandan inacción. Utilizando el Conjunto de Datos de Analítica del Aprendizaje de la Open University, el estudio demuestra que GPT-4o de cero disparos presenta una tasa de falsos positivos de 43 puntos porcentuales al día 56, lo que conduce a aproximadamente 4.300 contactos innecesarios con asesores por ciclo para 10.000 estudiantes.