Yuvion LLM: Большая языковая модель, учитывающая противоборствующие атаки, для безопасности контента и ИИ

Yuvion LLM — это новая большая языковая модель, предназначенная для устранения сбоев в области безопасности за счёт рассмотрения устойчивости к противоборствующим атакам и агентных возможностей как первичных целей. Она использует конвейер, сочетающий создание данных с учётом противоборствующих атак, продолженное предобучение с усилением знаний и многозадачное постобучение безопасности на основе политик.

Модель применяет контролируемое тонкое обучение с учётом рисков и оптимизацию политики на основе обучения с подкреплением для использования инструментов и многоступенчатого рассуждения.
Yuvion LLM RiskEval (YLRE) вводит 93 бенчмарка по четырём категориям для оценки безопасности, устойчивости к противоборствующим атакам и реальных возможностей.
Вариант Yuvion-8B превосходит передовые базовые модели, включая более крупные модели, такие как GPT-5.4 и Qwen3-MAX, в нескольких задачах безопасности.

Этот подход направлен на обеспечение более реалистичных показателей безопасности за счёт фокуса на стратегических попытках обойти политики модели, а не только на естественных входных данных.