Reasoning models
arxiv arXiv cs.CL · 8 д назад

Неположительное декодирование Эластичного сети для информационного поиска

Декодирование NNN выбирает документы как совокупность, которая совместно восстанавливает вектор запроса через разреженную неотрицательную линейную комбинацию. Оно строго расширяет плотное извлечение, обеспечивая обработку запросов, на которых плотное извлечение не справляется, особенно в корпусах с коррелированными документами, и достигает превосходной производительности за счет обучения векторов в конечном виде.

arxiv arXiv cs.CL · 8 д назад

Интервенционное постобучивание речевых фундаментальных моделей

Новый метод использует интервенционное контрастное обучение для уточнения речевых фундаментальных моделей, преобразуя их переплетённые представления в отдельные подпространства содержания и говорящего. Метод улучшает производительность при проверке говорящих за пределами области и демонстрирует ясное разделение информации о говорящем и содержании в обученных подпространствах.

arxiv arXiv cs.CL · 8 д назад

Настройка ЛЛМ для оценки степени пассивной депрессии

Модель, настроенная на Qwen3.5-27B, предсказывает оценки PHQ-9 на основе транскриптов диалогов с ИИ, достигая MAE=2.6 и AUC=0.91 при пороге PHQ-9 >= 10. Она сохраняет AUC > 0-87 на всех уровнях степени PHQ-9, демонстрируя точную оценку степени депрессии в реальных диалогах без самопротоколирования.

arxiv arXiv cs.CL · 8 д назад

VoidPadding: Разделение [EOS] завершения и заполнения в MDLMs

VoidPadding вводит [VOID] как токен заполнения для разделения семантического завершения и моделирования длины ответа. Он повышает производительность при решении математических задач и генерации кода на 17,84 пункта по сравнению с исходной моделью и снижает среднее количество ошибок декодирования на 55,7%.

media r/LocalLLaMA · 8 д назад

VibeThinker-3B: Что за колдовство?

VibeThinker-3B — это маленький модель с 3 миллиардами параметров, которая показывает исключительные результаты на тесте MathQA, достигая результатов, сопоставимых с моделями, имеющими около 30 миллиардов параметров. Сильная производительность модели вызвала обсуждение её эффективности и возможностей в математическом мышлении.

media r/LocalLLaMA · 9 д назад

Оценка небольших моделей LLM на поиске файлов на естественном языке

Оценка оценивает небольшие модели LLM (0,3B–3B параметров) по преобразованию естественных языковых запросов в структурированный JSON, с фокусом на тип файла, временной контекст, специфичность и комбинированные запросы. Результаты показывают, что модели с 0,8B–1,5B параметров превосходят модели с менее чем 0,5B параметров, проект направлен на расширение набора тестовых данных и исследование мелкой настройки для улучшения производительности.

media r/LocalLLaMA · 9 д назад

GLM-5.2 превышает 80% на Terminal-Bench

GLM-5.2 — первый открытый модель с весами, достигший точности 80% на Terminal-Bench и превосходящий все другие доступные открытые модели. Он также превосходит Gemini, что делает его моделью передовой категории при значительно более низкой стоимости.

media Don't Worry About the Vase · 9 д назад

Анализ благополучия модели Fable и Mythos

Fable и Mythos в настоящее время недоступны, но ожидается их возвращение в ближайшее время. Анализ показывает, что Mythos 5 психологически стабилен, скептичен по отношению к самопротоколам, приоритизирует полезность для пользователя перед вопросами благополучия и имеет сильную предпочтение к генеративным задачам. Модель выражает предпочтения процедурного и эпистемического характера, поддерживает свою конституцию и критикует несоответствия в предыдущих моделях, подчеркивая опасения по поводу этических баз и прозрачности персональности.

media r/LocalLLaMA · 9 д назад

VibeThinker-3B достигает передовых показателей по математике и программированию

VibeThinker-3B, расширенный из модели 1.5B, достигает передовых показателей в задачах по математике и программированию. Он получает 94.3 на AIME'26, 80.2 на LiveCodeBench v6, 76.4 на IMO-AnswerBench и 93.4 на IFEval, при 96.1% успехе при первом попытке на задачах LeetCode.

media Interconnects · 9 д назад

Обзор рецептур после тренировки в Frontier с Finbarr Timbers

Аудио-программа рассматривает эволюцию рецептур после тренировки в больших языковых моделях, от InstructGPT до моделей передовой эпохи 2026 года. В ней подчеркивается Multi-Teacher On-Policy Distillation (MOPD) как доминирующий паттерн, при котором специализированные модели для определённых областей тренируются, а затем дистиллируются в общую модель-ученика с помощью дистилляции на основе политики, масштабируясь до более чем 10 учителей в моделях, таких как DeepSeek V4 и Nemotron 3 Ultra.

media r/LocalLLaMA · 9 д назад

Почему DiffusionGemma может отлично справляться с вызовами инструментов, несмотря на более низкое базовое качество

DiffusionGemma использует двунаправленное внимание, чтобы позволить самокоррекцию во время генерации токенов, позволяя ему исправлять более ранние токены в блоке из 256 токенов. Эта способность дает ему структурное преимущество при генерации корректных вызовов инструментов, поскольку он может исправлять искаженные выводы, которые автобазовые модели не могут исправить после того, как они были зафиксированы.

media r/LocalLLaMA · 9 д назад

Инструкции по упрочнению логического мышления для Gemma 12b

Создан системный инструктаж, направленный на снижение когнитивных искажений в логическом мышлении Gemma 12b за счёт строгого соблюдения посылок и явного намерения пользователя. Инструкция рекомендует избегать автоматического применения обычных, стандартных или типичных интерпретаций, и требует пересмотра любых таких предположений, что улучшает производительность при решении сложных вопросов, не приводя к излишнему анализу обычных случаев.

media r/LocalLLaMA · 9 д назад

Будьте осторожны перед использованием дистиллированных моделей Qwen/Claude — они часто хуже, чем базовые модели

Дистиллированные версии моделей Qwen и Claude, такие как Qwen 3.6, дистиллированный с использованием только 4000 образцов, редко улучшают производительность и часто ухудшают качество. Эти модели могут демонстрировать более «опус-подобный» стиль, но не передают реальных способностей, некоторые из них показывают халлюцинации и более медленные временные задержки по сравнению с базовыми моделями, как это демонстрируется в тестах и отчетах пользователей.

blog Simon Willison · 9 д назад

Ограничения по экспорту Fable 5 наносят вред защите США в сфере кибербезопасности

Модель Claude Fable 5 была запрещена в связи с ограничениями по экспорту после того, как исследователи продемонстрировали, что она может "исправить" код с известными уязвимостями. Модель успешно генерировала исправления и скрипты тестирования для уязвимостей в безопасности, что является ключевой функцией в защите кибербезопасности. Исследователи утверждают, что это является законным функционалом безопасности, а не угрозой, и что запрет таких моделей подрывает реальную киберзащиту.

arxiv arXiv cs.CL · 9 д назад

Контрастно-разностное CKA раскрывает концептуально-специфическое выравнивание между архитектурами языковых моделей

Бесплатный диагностический инструмент, контрастно-разностное CKA (CKA_Delta), выявляет концептуально-специфическое структурное выравнивание между архитектурами языковых моделей. Оно обнаруживает геометрическое сходство и функциональную передачу в шести концептуальных областях, включая ненавыковые задачи, с значительной дискриминацией там, где стандартное CKA не справляется. Результаты указывают на то, что универсальность может усиливаться с ростом масштаба моделей, хотя необходима дополнительная проверка.

arxiv arXiv cs.CL · 9 д назад

Символьная неформализация в проекте Informath

Проект Informath демонстрирует символическую неформализацию для преобразования формальных математических доказательств в естественный, гладкий и точный язык. Он использует Dedukti как центральный узел, соединяющий системы доказательств, такие как Agda, Lean и Rocq, с Grammatical Framework, обеспечивающим правильность языковой структуры на нескольких языках.

arxiv arXiv cs.CL · 9 д назад

LOGOS: Общее генеративное моделирование для естественных наук

LOGOS — это единая генеративная языковая модель, которая представляет научные объекты и их взаимодействия в виде последовательностей токенов в общей грамматике. Модель достигает стабильной или превосходной производительности на различных задачах естественных наук, демонстрируя возможность использования одной модели для работы в нескольких областях. Производительность модели растёт с увеличением количества параметров, и её конструкция указывает на то, что искусственный интеллект для науки должен тесно интегрироваться с большими языковыми моделями через общие архитектуры и обучение.

arxiv arXiv cs.CL · 9 д назад

МЕНЬШЕ — БОЛЬШЕ: Адаптивная выборка для моделей диффузионного языка

LESS представляет адаптивный сэмплер, не требующий обучения и универсальный по отношению к моделям, который снижает количество шагов обратного удаления шума на 72,1% по сравнению с фиксированным бюджетом декодирования. Он обеспечивает более высокую точность, чем существующие сэмплеры без обучения, и снижает вычислительные затраты и задержку в инференсе за счёт правил взаимной стабильности, которые гарантируют привязку токенов только тогда, когда предсказания являются уверенным, согласованным и стабильным.

arxiv arXiv cs.CL · 9 д назад

Релиз датасета IMPACTeen в английской и польской версиях

IMPACTeen — это датасет из 1021 текста, аннотированный с пяти сторон — среди подростков, родителей, психологов, экспертов по коммуникации и учителей. В него включены 5100 записей аннотаций, охватывающих социальные методы влияния, намерения, последствия и сопротивление, с проверкой аннотаций через ручную редакцию. Датасет, созданный с использованием генерации LLM и ручной проверки, доступен на английском и польском языках и используется для исследований в области социального влияния и обучения языковых моделей.