iLLaDA: Un modelo de lenguaje de difusión enmascarado de 8B con atención totalmente bidireccional
Los autores presentan iLLaDA, un modelo de lenguaje de difusión enmascarado de 8B parámetros entrenado desde cero utilizando atención totalmente bidireccional. Este enfoque contrasta con la factorización autoregresiva predominante y la atención causal utilizadas en los modernos modelos de lenguaje grandes. El pre-entrenamiento del modelo escaló a 12 billones de tokens, seguido de ajuste fino supervisado en un corpus de instrucciones de 25 mil millones de tokens durante 12 épocas. iLLaDA mantiene el objetivo de difusión enmascarada durante ambas fases de entrenamiento y emplea generación de longitud variable para eficiencia. También introduce puntuación basada en confianza para mejorar el rendimiento en tareas de evaluación de opción múltiple. Los resultados de los benchmarks muestran mejoras significativas sobre su predecesor, LLaDA, incluyendo ganancias de 21.6 puntos en BBH y 14.9 puntos en ARC-Challenge para el modelo base. La variante ajustada con instrucciones logró aumentos de 14.5 puntos en MATH y 16.5 puntos en HumanEval. A pesar de su naturaleza no autoregresiva, iLLaDA sigue siendo competitivo con Qwen2.5 7B en varias métricas.