RECOM оценивает 15 000 вопросов раздела r/AskReddit с реальными ответами сообщества, опубликованными после обучения модели. В нем показано, что ни одна автоматическая метрика не может одновременно обеспечить сильную достоверность и высокую дискриминацию, при этом BERTScore ранжирует модели слабо даже при контроле длины. Эта связь возникает из-за проектирования представлений, а не из-за различий в моделях, и требует отчета как достоверности, так и дискриминации с базовыми уровнями на случайных данных.