Reasoning models — korshunov.ai

Reasoning models Страница 7 / 35

Малые языковые модели превосходят передовые LLM в извлечении связей

Малая языковая модель с 300 миллионами параметров, прошедшая тонкую настройку на данные общего сегмента, достигает 0,83 микроФ1 в извлечении связей на общем сегменте, превосходя нулевую версию GPT-5.4 и Claude Sonnet 4.6. На литературных тестах модель достигает 0,92 на наборе биографических данных, превосходя GPT-5.4 и превосходя средние результаты передовых моделей. Эти результаты демонстрируют, что задача-адаптированные малые модели могут обеспечивать точные, приватные и эффективные по аппаратному обеспечению результаты без использования масштабных генеративных моделей.

Малые языковые модели превосходят передовые LLM в извлечении связей

PeerCheck: Улучшение академических отзывов, генерируемых ЛЛМ

Деревья сюжетов: иерархические представления для длинных повествований

Использование внутренних артефактов ЛЛМ для повышения надежности классификации в правовой сфере

Сравнение на уровне токенов трансформеров и гибридных моделей

ViGiL3D++ обеспечивает генерацию разнообразных языковых запросов для 3D визуального заземления

Метод направления на этапе тестирования устраняет конфликты временных фактов в языковых моделях

Игра Metanym: автономный бенчмарк для структурного интеллекта

LLM сдаются обману чаще, чем люди

Демографические метаданные негативно влияют на оценку эссе на основе DistilBERT

FiLM-координированный двойной ветвевой трансформатор для моделирования языка

OTTER: Система красного тестирования для оптимизации промптов, избегающих токсичность

Фреймворк GRAG разделяет обоснование и персонализацию в разговорных ИИ-моделях

Валидационно-ограниченный механизм анализа выявления суицидальных состояний в LLMs

Характерные внимательные трансформеры для обнаружения многоходовых проникновений

Оценка на основе ЛЛМ для аннотаций разбиения фраз

Ответная инженерия: локальное редактирование траектории для принятия решений с учетом протокола

Ошибочные иллюзии в голландских LLMs

Многоагентная система аудита для клинического психического здоровья

Исследование показало, что ИИ всё ещё несётся обнаруживать халцинации в юридических цитатах