HaloGuard 1.0 выпускает классификатор конституционного типа с открытыми весами для безопасности мультиязычного ИИ

Исследователи представляют HaloGuard 1.0, реализацию с открытыми весами парадигмы конституционного классификатора, предназначенную для повышения безопасности ввода на нескольких языках. Модель использует конституцию на естественном языке с 46 политиками и 2940 подкатегориями для генерации синтетических данных и обработки мультиязычных входных данных.

HaloGuard 1.0-0.8B достигает средней оценки F1 в 90.7 по семи бенчмаркам безопасности промптов, превосходя базовые модели до 27B параметров при этом сохраняя уровень ложноположительных результатов на уровне 4.3 и уровень ложноотрицательных результатов на уровне 9.5.
Более крупная версия HaloGuard 1.0-4B достигает средней оценки F1 в 92.1 с уровнем ложноположительных результатов 3.5, отдавая приоритет точности над полнотой.
Обучающая выборка использует исчерпывающие попарные контрфактические примеры, которые меняют намерение, сохраняя тему и словарь неизменными, чтобы снизить количество ложноположительных результатов.
Мультиязычная материализация рассматривает язык как поверхностную форму для 46 языков, а не как враждебный сигнал.

Выпуск предоставляет высокоэффективную модель защиты с открытым исходным кодом, которая значительно сокращает количество параметров, необходимых для достижения передовых показателей безопасности на нескольких языках.