Исследование, использующее открытые веса Olmo 3 и Olmo Hybrid, показывает, что гибридные модели превосходят трансформеры по открытым классам слов и открывающим разделителям. Повышение менее стабильно для закрытых классов функциональных слов и закрывающих разделителей, при этом гибридные модели отлично справляются с задачами, связанными со статусом смысла, такими как запоминание местоимений и отслеживание сущностей, в то время как трансформеры лучше справляются с задачами по соответствию скобкам. Эти результаты указывают на то, что рекуррентные слои улучшают предсказания, связанные со статусом, а внимание поддерживает распознавание n-грамм и синтаксических паттернов.
Сравнение на уровне токенов трансформеров и гибридных моделей
Переведено с English → Русский