TriggerBench: Evaluando la memoria prospectiva en LLMs

TriggerBench presenta un benchmark para evaluar la memoria prospectiva en modelos de lenguaje grandes, revelando una compensación entre precisión y recuperación, y fragilidad atencional. Se encuentra que la memoria prospectiva es significativamente más difícil que la memoria retrospectiva y se correlaciona con la capacidad de razonamiento disponible, lo que indica que la MP refleja recursos cognitivos subyacentes más allá del conteo de tokens.