Reasoning models — korshunov.ai

Reasoning models Страница 1 / 35

Сжатые модели языковых моделей не справляются с открытым генерированием, несмотря на успешное прохождение тестов на выбор одного из вариантов

Сжатые большие языковые модели часто успешно справляются с тестами на выбор одного из вариантов, но не справляются с генерацией корректных ответов в открытых ответах. Эта "обманная оценка" показывает, что ответы не удаляются, а лишь снижаются по значимости, и появляются только при использовании продвинутых методов генерации, таких как beam search или sampling. Стандартные оценочные тесты переоценивают практическую применимость сжатых моделей, подчеркивая критическую пробел в оценке.

Сжатые модели языковых моделей не справляются с открытым генерированием, несмотря на успешное прохождение тестов на выбор одного из вариантов

OPD-Evolver: Он-политическая дистилляция для всестороннего эволюционирования агентов

Пerturbation запроса для надежной оценки больших языковых моделей

SkillMigrator обеспечивает передачу навыков веб-сайтов через совпадение разметки

MambaCount: Эффективный текст-ориентированный подсчет объектов

EnvRL: Использование динамики среды в агентном обучении с помощью вознаграждений

Обучение LLM для среды обучения RL с многомодульным рассуждением

SwiftTrans повышает эффективность перевода кода на основе ЛЛМ

SuCo: адаптивное обоснованное рассуждение, основанное на достаточности

LLMs определяют культурный контекст, но не применяют его

Модели визуально-языковых систем не всегда требуют изображений для точности рентгеновского снимка грудной клетки

EComAgentBench: Оценка агентов покупок с скрытой целью

Авторские аватары на основе ИИ обеспечивают реалистичную подготовку к психотерапевтическим занятиям по методу АКТ

Антипарадокс Слопа: переписка ИИ снижает клиническую неопределенность и межмодальную синхронизацию

DIFE проверяет проникновение бэкдора в CLIP на разных интерфейсах развертывания

Самообучаемые модели речи не учитывают компенсацию тонального контекста

Автоматизированная оптимизация промптов для агентов на основе ЛЛМ

Динамическое редактирование последовательности уменьшает перегрузку мышления в моделях рассуждений, обученных методом релей-обучения

ChLogic: Проверка устойчивости логического мышления в китайских выражениях

Неположительное декодирование Эластичного сети для информационного поиска