El artículo introduce los Modelos de Lenguaje Afilados (TLMs), un principio arquitectónico que asigna más capacidad de parámetros a las capas iniciales y menos a las capas posteriores dentro de un presupuesto fijo. Este enfoque desafía la práctica estándar de ancho uniforme en las capas al aprovechar la evidencia de que las capas posteriores principalmente refinan el flujo residual en lugar de transformarlo.

  • Los experimentos muestran que afilar el ancho del MLP mediante una programación coseno suave mejora la perplejidad y el rendimiento en benchmarks downstream a través de tres escalas de modelo y cuatro arquitecturas (Transformer, Gated Attention, Hope-attention y Titans).
  • Asignar más capacidad a las capas iniciales produce mejores resultados, mientras que la asignación inversa perjudica el rendimiento en comparación con las líneas base de ancho uniforme.
  • El método proporciona estas ganancias sin costo adicional de parámetros o computación, estableciendo la asignación de capacidad consciente de la profundidad como una palanca de diseño independiente de la arquitectura.

Estos hallazgos sugieren que el afilado es una optimización simple y efectiva para el diseño de modelos de lenguaje que mejora la eficiencia sin aumentar los requisitos de recursos.