В данном исследовании большие языковые модели применяются к задачам прогнозирования, а для анализа их внутренних состояний используются разреженные автоэнкодеры, что позволяет различать знание, специфичное для времени, и обобщаемые паттерны. Исследование выявило конкретные признаки, связанные как с осознанием временного контекста, так и с предвзятостью в сторону будущего.

  • Исследователи выявили признаки, связанные с осознанием временного контекста и предвзятостью в сторону будущего в больших языковых моделях.
  • Усиление признаков осознания временного контекста существенно снизило предвзятость в сторону будущего при прогнозировании.
  • Обобщающая способность рассуждений была сохранена при снижении предвзятости за счет усиления признаков.
  • Управление кандидатами на признаки предвзятости в сторону будущего не привело к значимому эффекту.

Эти результаты указывают на то, что интерпретируемые временные признаки могут использоваться для причинного смещения больших языковых моделей в сторону более исторически обоснованного рассуждения.