Обучение с положительными и непримечаемыми примерами для аудита оценки языковых моделей

Новый фреймворк использует обучение с положительными и непримечаемыми примерами и частичный оптимальный транспорт для аудита искажений в оценке языковых моделей. Он выравнивает положительные ответы, подтвержденные людьми, с ответами модели, не имеющими меток, в пространстве вложений, выявляя стабильные предпочтения людей и корректируя искажение избыточности без переобучения. Эксперименты показывают улучшенное соответствие с людьми, устойчивость к искажениям в представлении и интерпретируемость оценок уверенности.