Использование внутренних артефактов ЛЛМ для повышения надежности классификации в правовой сфере

Этот исследовательский проект изучает использование внутренних артефактов крупных языковых моделей для обнаружения неправильных предсказаний в задачах правовой классификации. Подход использует признаки из этих артефактов для построения классификаторов, которые выявляют ошибочные выводы в предсказаниях по решению о выдаче ареста и нарушениях закона. Результаты показывают, что внутренние артефакты надежно указывают на неправильные ответы, что повышает общую надежность систем правовой классификации на основе ЛЛМ.