Los autores presentan Themis, un marco de prueba y evaluación habilitado para XAI que combina transparencia a través de la explicabilidad con alineación mediante retroalimentación humana para sistemas seguros de Aprendizaje por Refuerzo.

  • Soporta más de 200 entornos ampliamente utilizados y es fácilmente configurable para experimentos en RL, transparencia y alineación.
  • Entrena modelos de recompensa que igualan o superan la señal de recompensa verdadera del entorno utilizando preferencias humanas.
  • Proporciona una plataforma basada en la nube para recopilar retroalimentación humana y gestionar experimentos que es fácil de usar y autoescalable.
  • Las pruebas demuestran la capacidad de soportar mil usuarios en experimentos consecutivos en una máquina comercial modesta sin sobrecarga adicional de desarrollo.