PRIME: Оценка разрешения запросов в противоречивых инструкциях

PRIME вводит рамку для анализа того, как большие языковые модели обрабатывают противоречивые инструкции, генерируя калиброванные противоречия в длине ответа, формате и логике. Исследование показывает, что тип противоречия оказывает большее влияние на поведение модели, чем размер модели, выявляя различные режимы сбоев в зависимости от категорий противоречий. Результаты подчёркивают необходимость осознания противоречий и указывают на то, что проверка соблюдения инструкций не может быть надёжно проведена на изолированных тестах.