PeerCheck анализирует различия между отзывами ЛЛМ и людьми, и находит, что ЛЛМ фокусируются на теории, в то время как люди приоритизируют методологию и эксперименты. Фреймворк использует инженерные подходы к запросам, такие как Chain-of-Thought и генерация с использованием ретриевирования, при этом Chain-of-Thought значительно улучшает качество отзывов, хотя RAG вводит неожиданный «парадокс», который иногда снижает качество.