Modelos de Lenguaje Conicos: Mejora del Rendimiento mediante Asignación de Capacidad Consciente de la Profundidad
Los modelos de lenguaje modernos típicamente asignan parámetros uniformemente a través de capas idénticas, a pesar de la evidencia de que las capas posteriores principalmente refinan el flujo residual en lugar de transformarlo. Para abordar esta asimetría, los investigadores investigaron si la capacidad de parámetros debería variar según la profundidad bajo un presupuesto fijo. Experimentos controlados demostraron que asignar más capacidad a las capas iniciales y menos a las capas posteriores mejora la perplejidad en comparación con las líneas base uniformes, mientras que la asignación inversa degrada el rendimiento. Basándose en estos resultados, los autores introducen Modelos de Lenguaje Conicos (TLMs), un principio arquitectónico donde los componentes portadores de parámetros se reducen monótonamente a través de la profundidad. Los MLP sirven como el sitio principal para esta instanciación debido a su dominio en el conteo de parámetros y su claro eje de anchura. El estudio probó la reducción mediante un programa coseno suave a través de tres escalas de modelo y cuatro arquitecturas, incluyendo Transformer, Gated Attention, Hope-attention y Titans. Los resultados muestran que los TLMs mejoran consistentemente la perplejidad y el rendimiento en benchmarks posteriores sobre las líneas base uniformes sin costos adicionales de cómputo. Estos hallazgos establecen la asignación de capacidad consciente de la profundidad como una palanca de diseño simple y agnóstica a la arquitectura para modelos de lenguaje.