Авторы представляют Themis, платформу тестирования и оценки на основе объяснимого ИИ (XAI), которая сочетает прозрачность через объяснимость с выравниванием посредством отзывов человека для безопасных систем обучения с подкреплением.
- Поддерживает более 200 широко используемых сред и легко настраивается для экспериментов в области RL, прозрачности и выравнивания.
- Обучает модели вознаграждения, которые соответствуют или превосходят истинный сигнал вознаграждения среды, используя предпочтения человека.
- Предоставляет облачную платформу для сбора отзывов человека и управления экспериментами, которая удобна для пользователя и автоматически масштабируется.
- Тесты демонстрируют способность поддерживать одну тысячу пользователей в последовательных экспериментах на скромной коммерческой машине без дополнительных затрат на разработку.