Методы стохастического импульса, такие как HB и ASGD, демонстрируют различные компромиссы по размеру батча в эффективности вычислений и последовательного времени выполнения. HB сохраняет вычислительную эффективность на уровне SGD в диапазоне размера батча, превышающем критический размер батча SGD на множитель \sqrt{\kappa}, в то время как ASGD улучшает эффективность малых батчей при быстром убывании спектра, но отдает эту эффективность при больших батчах в обмен на сокращение последовательного времени выполнения.