Comparación a nivel de token entre Transformers y modelos híbridos

Un estudio que utiliza Olmo 3 y Olmo Hybrid con pesos abiertos encuentra que los modelos híbridos superan a los transformers en palabras de contenido de clase abierta y delimitadores de apertura. Las ganancias son menos consistentes para las palabras funcionales de clase cerrada y los delimitadores de cierre, con los híbridos destacándose en tareas de estado semántico como la memoria de pronombres y el seguimiento de entidades, mientras que los transformers tienen un mejor rendimiento en tareas de emparejamiento de corchetes. Estos resultados sugieren que las capas recurrentes mejoran las predicciones conscientes del estado, mientras que la atención apoya el reconocimiento de patrones n-gramáticos y sintácticos.