Методы стохастического импульса, такие как HB и ASGD, демонстрируют различные компромиссы по размеру батчей в эффективности вычислений и последовательного времени выполнения. HB сохраняет вычислительную эффективность на уровне SGD в диапазоне размера батчей, превышающем критический размер батчей SGD на множитель \sqrt{\kappa}, в то время как ASGD улучшает эффективность малых батчей при быстром убывании спектра, но отдает эту эффективность при больших батчах в обмен за сокращение последовательного времени выполнения.
Противоречия по размеру батчей в стохастических методах импульса
Переведено с English → Русский