Um estudo recente investiga quais tokens específicos são previstos com mais precisão por modelos de linguagem híbridos em comparação com arquiteturas densas padrão. A pesquisa foca em entender a distribuição dos erros de previsão entre diferentes tipos de tokens, como palavras raras e trechos de código. Ao analisar as paisagens de perda, os autores identificam que os modelos híbridos se destacam na captura de dependências de longo alcance em regiões de dados esparsos. Os achados sugerem que o mecanismo de mistura de especialistas permite uma utilização mais eficiente dos parâmetros durante a inferência. Essa precisão aprimorada é particularmente notável para tokens com baixa frequência no corpus de treinamento. O artigo fornece uma análise detalhada das métricas de desempenho em vários conjuntos de dados de benchmark. Esses resultados destacam o potencial das arquiteturas híbridas para lidar efetivamente com estruturas linguísticas diversas.