Un enfoque de aprendizaje residual utilizando supervisión de error de tarea direccional logra malabares estables con cinco pelotas en robots reales, convergiendo desde el segundo intento. El sistema supera los tiempos de práctica humana y se basa tanto en retroalimentación direccional como en un prior informativo, demostrando que la actualización newtoniana con Jacobiano fijo es la más confiable.