Themis: Un marco de aprendizaje por refuerzo con retroalimentación humana habilitado para IA explicable

Los autores presentan Themis, un marco de prueba y evaluación habilitado para XAI que combina transparencia a través de la explicabilidad con alineación mediante retroalimentación humana para sistemas seguros de Aprendizaje por Refuerzo.

Soporta más de 200 entornos ampliamente utilizados y es fácilmente configurable para experimentos en RL, transparencia y alineación.
Entrena modelos de recompensa que igualan o superan la señal de recompensa verdadera del entorno utilizando preferencias humanas.
Proporciona una plataforma basada en la nube para recopilar retroalimentación humana y gestionar experimentos que es fácil de usar y autoescalable.
Las pruebas demuestran la capacidad de soportar mil usuarios en experimentos consecutivos en una máquina comercial modesta sin sobrecarga adicional de desarrollo.