Недавнее исследование изучает, какие именно токены гибридные языковые модели предсказывают более точно по сравнению со стандартными плотными архитектурами. Исследование сосредоточено на понимании распределения ошибок предсказания среди различных типов токенов, таких как редкие слова и фрагменты кода. Анализируя ландшафты потерь, авторы выявляют, что гибридные модели превосходят в захвате долгосрочных зависимостей в областях разреженных данных. Результаты указывают на то, что механизм смеси экспертов (mixture of experts) позволяет более эффективно использовать параметры во время вывода (инференса). Эта улучшенная точность особенно заметна для токенов с низкой частотой в обучающей выборке. В статье представлен подробный разбор метрик производительности по различным наборам данных для тестирования (бенчмаркам). Эти результаты подчеркивают потенциал гибридных архитектур для эффективной обработки разнообразных лингвистических структур.