SupraLabs выпустила SupraSafety-18M, крошечную модель для модерации контента

SupraLabs выпустила SupraSafety-18M, бинарный классификатор текста в стиле BERT с 18 миллионами параметров, предназначенный для модерации контента на периферийных устройствах и мобильных телефонах. Модель обучена с нуля на наборе данных nvidia/Nemotron-3.5-Content-Safety-Dataset и достигает точности (accuracy) 81,2% и прецизионности (precision) 86,9%.

Обучена с нуля на 2 GPU T4 в Kaggle в течение 7 эпох с использованием набора данных nvidia/Nemotron-3.5-Content-Safety-Dataset.
Оптимизирована для сред производства с низкой задержкой, периферийных устройств и мобильных телефонов.
Классифицирует текст как БЕЗОПАСНЫЙ или ОПАСНЫЙ с высоким уровнем уверенности в примерах (например, 99,6% для запросов о изготовлении бомбы).
Доступна на Hugging Face под организацией SupraLabs.

Модель обеспечивает эффективные возможности модерации контента в средах с ограниченными ресурсами, где запуск более крупных моделей непрактичен.