Архитектура CARVE устраняет три критических недостатка ведущей модели рекуррентной сети GDN-2 на основе правила дельты, ограничивая операции стирания осью ключей, что позволяет выполнять корректное решение треугольных чанков в форме WY и повышать эффективность использования значений. За счёт повторного использования тензора рекуррентного вывода в качестве сигнала содержимого и замены проекций вратарей записи для каждого значения на скаляры CARVE сохраняет битово-идентичную инициализацию по сравнению с GDN-2, одновременно решая проблемы слепой к памяти настройки вратарей.
- Достигает перплексии WikiText 15.72 при 1.3B параметров, обученной на 100B токенов, превосходя GDN-2 на 4.5 сигма.
- Лидирует среди всех рекуррентных базовых моделей по девяти бенчмаркам здравого смысла и устанавливает state-of-the-art результаты на всех зондах извлечения RULER.
- Снижает пиковое использование памяти на 13% и количество параметров на 19% при накладных расходах пропускной способности всего в 0.4%.
- Подтверждена шестью формальными теоремами, охватывающими ёмкость памяти, устойчивость по Ляпунову, поток градиентов, разделение выразительности, оптимальный по Парето размер чанка и гибридную оптимальность.
Этот подход позволяет рекуррентным моделям оставаться конкурентоспособными с Трансформерами по эффективности обучения, значительно улучшая результаты на задачах извлечения информации и рассуждений благодаря математически обоснованным архитектурным изменениям.