Modelos de Lenguaje Afilados: Mejorar el Rendimiento mediante la Asignación de Capacidad Consciente de la Profundidad
El artículo introduce los Modelos de Lenguaje Afilados (TLMs), un principio arquitectónico que asigna más capacidad de parámetros a las capas iniciales y menos a las capas posteriores dentro de un presupuesto fijo. Este enfoque desafía la práctica estándar de ancho uniforme en las capas al aprovechar la evidencia de que las capas posteriores principalmente refinan el flujo residual en lugar de transformarlo.