La arquitectura CARVE aborda tres defectos críticos en el modelo recurrente GDN-2 basado en la regla delta, al restringir las operaciones de borrado al eje de clave, permitiendo así la resolución triangular válida de chunks en forma WY y mejorando la eficiencia del valor. Al reutilizar el tensor de salida recurrente como señal de contenido y reemplazar las proyecciones de puerta de escritura por valor individual con escalares únicos, CARVE mantiene una inicialización bit a bit idéntica a GDN-2 mientras resuelve los problemas de enmascaramiento ciego de memoria.
- Alcanza una perplejidad de WikiText de 15.72 con 1.3B parámetros entrenados en 100B tokens, superando a GDN-2 por 4.5-sigma.
- Lidera todas las líneas base recurrentes en nueve benchmarks de razonamiento de sentido común y establece resultados de estado del arte en cada sonda de recuperación RULER.
- Reduce el uso máximo de memoria en un 13% y la cantidad de parámetros en un 19% con solo un sobrecosto de rendimiento del 0.4%.
- Respaldado por seis teoremas formales que cubren capacidad de memoria, estabilidad de Lyapunov, flujo de gradiente, separación de expresividad, tamaño de chunk óptimo en Pareto y optimalidad híbrida.
Este enfoque permite que los modelos recurrentes sigan siendo competitivos con los Transformers en eficiencia de entrenamiento mientras mejoran significativamente el rendimiento en tareas de recuperación y razonamiento a través de cambios arquitectónicos fundamentados matemáticamente.