Исследование сравнивает семь методов оценки уверенности на 25 парам моделей-датасетов и показывает, что одноразовая оценка уверенности в устной форме хорошо классифицирует случаи, но предоставляет лишь несколько различных значений, что ограничивает пороги для операторов. Сбор данных с помощью нескольких запросов расширяет разрыв в детализации оценки, улучшает слабые модели, но ухудшает сильные, при этом возникают компромиссы, которые информируют о практическом внедрении.