В данном исследовании большие языковые модели применяются к задачам прогнозирования, а для анализа их внутренних состояний используются разреженные автоэнкодеры, что позволяет различать знание, специфичное для времени, и обобщаемые паттерны. Исследование выявило конкретные признаки, связанные как с осознанием временного контекста, так и с предвзятостью в сторону будущего.
- Исследователи выявили признаки, связанные с осознанием временного контекста и предвзятостью в сторону будущего в больших языковых моделях.
- Усиление признаков осознания временного контекста существенно снизило предвзятость в сторону будущего при прогнозировании.
- Обобщающая способность рассуждений была сохранена при снижении предвзятости за счет усиления признаков.
- Управление кандидатами на признаки предвзятости в сторону будущего не привело к значимому эффекту.
Эти результаты указывают на то, что интерпретируемые временные признаки могут использоваться для причинного смещения больших языковых моделей в сторону более исторически обоснованного рассуждения.