Reasoning models
arxiv arXiv cs.CL · 3 д назад

Ответная инженерия: локальное редактирование траектории для принятия решений с учетом протокола

Ответная инженерия вводит слой в режиме работы, который применяет локальные правила коррекции к траектории рассуждений модели во время генерации, без переобучения. В клиническом тесте на острое неврологическое нарушение слуха она повысила долю соответствующих протоколу результатов с 54,5% до 83,5% и соответствие проводящим случаям с 1,6% до 58,9%.

arxiv arXiv cs.CL · 3 д назад

Ошибочные иллюзии в голландских LLMs

Модели на голландском языке демонстрируют иллюзии целостности, аналогичные человеческим читателям. Метрики неожиданности и энтропии внимания показывают, что модели подвергаются обману со стороны контекстных совпадений, при этом энергия ассоциативной памяти выявляет механизмы дискурсной целостности.

arxiv arXiv cs.CL · 3 д назад

Многоагентная система аудита для клинического психического здоровья

Многоагентная система аудита улучшает клиническую психическую диагностику, разделяя процесс мышления на стадии восприятия, извлечения, вывода и аудита. Оценка на датасете DAIC-WOZ показывает снижение ошибки прогнозирования тяжести депрессии по шкале PHQ-8 с 5,35 до 5,02 и обеспечивает интерпретируемую и проверяемую диагностическую логику.

arxiv arXiv cs.CL · 3 д назад

Исследование показало, что ИИ всё ещё несётся обнаруживать халцинации в юридических цитатах

Новое исследование показывает, что более 1000 юридических документов содержат вымышленные цитаты, количество которых ежегодно растёт. Проверка пяти ИИ-моделей показывает улучшение производительности, при этом GPT-5 достигает 82,8% точности и 60,5% F1 в агентных условиях, однако все модели сталкиваются с трудностями в обнаружении тонких ошибок и сталкиваются с ограничениями из-за ограниченного доступа к информации.

arxiv arXiv cs.CL · 3 д назад

Dementia-Agents: Мультимодальный мультимодальный системный подход к стадированию деменции

Dementia-Agents представляет клинически согласованный мультимодальный фреймворк для стадирования и фенотипирования деменции в реальных условиях. Он повышает диагностическую производительность по сравнению с монолитными моделями и предыдущими системами, при сохранении уровня интерпретируемости на уровне области, используя данные из 1066 пациентов двух когнитивных неврологических служб.

arxiv arXiv cs.CL · 3 д назад

Профильный референт в фундаментализации LLM

В статье утверждается, что ссылка в больших языковых моделях не является фиксированной связью, а представляет собой профильную, контекстуальную и численно структурированную явление. Предлагается, что LLM фундаментализируют ссылку через лингвистические следы, параметризованные через оптимизацию, при этом профили ссылок распределяются и активируются через контекстуальные вычисления в векторных пространствах.

arxiv arXiv cs.CL · 3 д назад

RoPE не предотвращает извлеченные головки, исследование показало

Механистический анализ показывает, что извлеченные головки необходимы причинно для долгосрочного воспроизведения контекста. Повышение частоты RoPE не снижает количество головок, и нулевое устранение низкочастотных измерений RoPE в извлечённых головках приводит к дозозависимому снижению воспроизведения, с эффектами, наблюдаемыми в пяти моделях и нескольких архитектурах.

arxiv arXiv cs.CL · 3 д назад

SCOPE: Последовательное конформальное исследование для отклонения входов за пределами распределения в МЛМ

SCOPE представляет рамку, использующую читаемый скрытый слой и конформальную калибровку для обнаружения входов за пределами распределения. Оно использует супермартингал e-процесс для теоретических гарантий по обнаружению границ сервиса, превосходя стандартные детекторы последнего слоя в нескольких архитектурах МЛМ.

arxiv arXiv cs.CL · 3 д назад

ARCO: адаптивный рубрикатор с когерентным развитием для агентов на основе многократных LLM

ARCO представляет рамку рубрики, которая позволяет осуществлять присвоение кредитов на уровне шагов для агентов на основе многократных LLM. Он одновременно обновляет общий модель с головками генерации и оценки, позволяя содержанию рубрики и функции оценки когерентно развиваться за счёт данных на-политики, что улучшает производительность и интерпретируемость на различных тестовых наборах.

arxiv arXiv cs.CL · 3 д назад

Фактическое извлечение в LLMs является непрерывным и избыточным

Большие языковые модели используют непрерывные, избыточные пути для извлечения фактических характеристик. Эти пути часто пропускают слои и включают несколько эквивалентных маршрутов, что указывает на распределенное и избыточное вычисление знаний, что подрывает текущее понимание хранения и извлечения знаний в LLMs.

arxiv arXiv cs.CL · 3 д назад

Научная тонкая настройка увеличивает фантастические суждения языковых моделей

SciFactCheck оценивает 18 языковых моделей в пяти научных областях, и при этом выявляет, что научно настроенные модели демонстрируют снижение фактической надежности и уменьшение внутренней уверенности, несмотря на более языковую уверенность. Исследования с участием людей показывают ограниченное согласие между оценками инструментов проверки фактов и экспертными оценками, что подчеркивает трудности в определении действительных научных утверждений.

arxiv arXiv cs.CL · 3 д назад

Контролируемое генерирование медицинских отчетов с помощью точности и полноты

Фреймворк на основе обучения с усилением обеспечивает точный контроль над клинической точностью и полнотой в генерации медицинских отчетов. Интегрируя клиническую награду и обучение относительно групп, модель повышает клиническую эффективность за пределы метрик языковой гладкости, превосходя самые передовые методы на наборе данных MIMIC-CXR.

arxiv arXiv cs.CL · 3 д назад

Оценка бенчмарка малых языковых моделей для арабской NLP

Бенчмарк из 240 арабских тестовых заданий в восьми областях и десяти навыках оценивает двенадцать малых языковых моделей в нуля-шот условиях. Gemma 3 (12B) достигла наивысшей общей оценки (4,548/5), за ним следуют Aya и C4AI Command Arabic, производительность которых связана больше с арабской настройкой и выполнением инструкций, чем с размером модели. Общие неисправности включают утечку промпта, халлюцинации и слабое выполнение задач.

arxiv arXiv cs.CL · 3 д назад

Двухэтапная синхронизация улучшает педагогику математического репетитора

Двухэтапная схема синхронизации повышает педагогическую производительность крупных языковых моделей при исправлении ошибок в математике. Подход объединяет обучение под руководством супервизоров и прямую оптимизацию предпочтений с использованием синтетических данных по структурированию и фактичности, превосходя базовые и существующие репетиторские модели как по точности, так и по качеству преподавания. Оценки людьми показывают, что модель конкурирует с проприетарной базой, обеспечивая большую открытость и воспроизводимость.

arxiv arXiv cs.CL · 3 д назад

МедХал-Лок: тест-модель для проверки точности локализации ошибок в детекторах медицинских халлицинаций

МедХал-Лок вводит тест-модель для оценки того, насколько точно детекторы медицинских халлицинаций локализуют ошибки. Исследование показывает, что хотя некоторые архитектуры локализуют ошибки значительно лучше случайного уровня, пайплайн на основе знаний не превосходит случайный результат из-за плохой извлечения сущностей, несмотря на высокую точность обнаружения. Результаты показывают, что способность к обнаружению не гарантирует точную локализацию ошибок, что подрывает предположения о прозрачности архитектуры.

arxiv arXiv cs.CL · 3 д назад

Исследование устранения компонентов агентного RAG с использованием локальной модели 7B

Контролируемое исследование устранения оценивает компоненты агентного RAG с использованием локальной модели 7B на датасете HotpotQA. Фиксированный гибридный поиск превосходит адаптивную маршрутизацию на 1,8 EM и 1,9 F1, в то время как два итерации поиска захватывают 95% прироста, полученного при пяти итерациях. Разделение запроса и переранжирование с использованием кросс-энкодера показывают статистически значимые, но меньшие улучшения.

arxiv arXiv cs.CL · 3 д назад

Динамическая система оценки на основе конкретных случаев для оценки переводов

В статье предложена динамическая система оценки, которая адаптирует пространства оценки MQM к отдельным переводам. Выбирая подтипы пространств и гранулярности в зависимости от конкретных требований, она улучшает покрытие и локализацию ошибок, превосходя статические методы оценки на бенчмарках WMT на уровне спанов.

blog Simon Willison · 3 д назад

Внедрение промпта как путаница ролей

Исследователи выявили "путаницу ролей" как ключевую уязвимость в языковых моделях, при которой модели неправильно интерпретируют ввод пользователя из-за стилистических сходств с внутренними метками ролей. Устранение стиля пользовательских промптов снижает успешность атаки с 61% до 10%, что показывает, что незначительные изменения в текстовом стиле могут кардинально изменять поведение модели, даже если содержимое кажется идентичным человеку.

media MarkTechPost · 3 д назад

Sakana AI представляет Sakana Fugu: модель оркестрации агентов

Sakana AI представил Sakana Fugu — модель оркестрации, которая распределяет задачи по обменному пулу передовых моделей языковой обработки через одну API-интерфейс, совместимую с OpenAI. Fugu Ultra превосходит отдельные модели по ключевым тестам, таким как SWE Bench Pro и GPQA-D, и система демонстрирует превосходную производительность на сложных многократных задачах, таких как автоматическое исследование, решение кубика Рубика и игра в шахматы на глазах.

media r/LocalLLaMA · 3 д назад

NEX-N2-mini утверждает достижение парето-оптимальности в эффективности мышления

Модель NEX-N2-mini утверждает, что достигает уровня мышления 3,5 и 3,6 с значительно меньшим количеством токенов мышления. Проверки показывают, что она превосходит другие модели на основе MoE по эффективности, снижая количество потерянных токенов, при этом сохраняя высокое качество мышления.