TriggerBench: оценка перспективной памяти в больших языковых моделях

TriggerBench представляет бенчмарк для оценки перспективной памяти в больших языковых моделях, выявляя компромисс между точностью и выявлением, а также уязвимость внимания. Перспективная память оказывается значительно сложнее ретроспективной памяти и коррелирует с избыточной вычислительной способностью, что указывает на то, что PM отражает скрытые когнитивные ресурсы за пределами количества токенов.