Качество эссе в больших языковых моделях обнаруживается в линейно доступных формах

Исследование показало, что информация о качестве эссе в больших языковых моделях закодирована в линейно доступных формах их скрытых представлений. Эти представления формируются по слоям, остаются стабильными при разных запросах и демонстрируют частичную переносимость при различных запросах на эссе, при этом более длинные эссе всё больше зависят от более глубоких слоёв модели. Исследование выявило конкретные "нейроны оценки эссе", активация которых сильно коррелирует с оценками и может быть изменена при целенаправленных вмешательствах.