Los autores presentan Themis, un marco de prueba y evaluación habilitado para XAI que combina transparencia a través de la explicabilidad con alineación mediante retroalimentación humana para sistemas seguros de Aprendizaje por Refuerzo.
- Soporta más de 200 entornos ampliamente utilizados y es fácilmente configurable para experimentos en RL, transparencia y alineación.
- Entrena modelos de recompensa que igualan o superan la señal de recompensa verdadera del entorno utilizando preferencias humanas.
- Proporciona una plataforma basada en la nube para recopilar retroalimentación humana y gestionar experimentos que es fácil de usar y autoescalable.
- Las pruebas demuestran la capacidad de soportar mil usuarios en experimentos consecutivos en una máquina comercial modesta sin sobrecarga adicional de desarrollo.