VRA-FedSGD: Снижение дисперсии в федеративном обучении для тяжёлых хвостов шума

Авторы предлагают VRA-FedSGD — алгоритм на основе снижения дисперсии, разработанный для федеративного обучения в средах с градиентным и коммуникационным шумом с тяжёлыми хвостами. Этот подход решает проблемы, характерные для крупномасштабного машинного обучения в беспроводных сетях и развертываниях Интернета вещей (IoT). Метод использует снижение дисперсии на основе импульса в сочетании с нелинейным отображением для смягчения градиентного шума с тяжёлыми хвостами. Он также применяет механизм агрегации со сниженной дисперсией для подавления коммуникационного шума с тяжёлыми хвостами. Для невыпуклых целевых функций VRA-FedSGD достигает скорости сходимости по среднему значению O(K^(-(p-1)/(2p-1))), где p — индекс хвоста. В смысле почти наверное достигается скорость Õ(K^(-(1-1/(p-ε))) для сильно выпуклых целевых функций, где ε — произвольно малая константа. Симуляционные эксперименты на логистической регрессии с реальными данными подтверждают эффективность алгоритма.