NASDAQ решает проблемы низкомерных наблюдений в обучении с усилением, нормализуя пространства наблюдений для балансировки потерь реконструкции. Оно интегрирует обучение оценок с краткосрочной оценкой и предсказанием следующего наблюдения, достигая конкурентоспособных или превосходных результатов с меньшим временем обучения в различных областях.
NASDAQ: Усреднённая динамика наблюдений с усилением Q-обучения
Переведено с English → Русский