Оптимизация Hyperball для ускорения обучения языковых моделей
Hyperball — это простой обертка оптимизатора, которая устанавливает фиксированные нормы Фробениуса для матриц весов и их обновлений. Она повышает скорость обучения и передачу скорости обучения в больших моделях, обеспечивая ускорение на 20--30% по количеству токенов по сравнению с базовыми вариантами с весовым уменьшением на моделях до 1,2 миллиарда параметров.