Evaluation & benchmarks — korshunov.ai

Evaluation & benchmarks Страница 1 / 43

Самообучаемые модели речи не учитывают компенсацию тонального контекста

Модель wav2vec2.0 не показывает никаких признаков перцептивной компенсации мандаринских тонов в сходствах встраиваемых векторов. Классификаторы, используемые для исследования, показывают ограниченную компенсацию и не достигают уровня человеческой производительности при изоляции слогов, что указывает на необходимость надзора при обучении для абстракции фонологической регулярности.

arxiv arXiv cs.CL · 8 д назад

Автоматизированная оптимизация промптов для агентов на основе ЛЛМ

Новый фреймворк автоматизирует улучшение промптов для агентов на основе ЛЛМ, разделяя поток от наблюдения до действия на модули с целью и выбора действия. Он использует эволюционный цикл, управляемый ЛЛМ, для итеративного улучшения промптов на основе обратной связи от среды, достигая до 72,5% успеха в PutNext, где предыдущие агенты не справлялись, без тонкой настройки модели.

arxiv arXiv cs.CL · 8 д назад

GameCraft-Bench: Оценка полного генерирования игр

GameCraft-Bench представляет бенчмарк с 140 задачами Godot в 15 семействах игр для оценки способности код-агентов генерироватьPlayable игры. Оценки показывают, что лучший агент достигает лишь 41,46% успеха, что указывает на значительные трудности в создании полных, интерактивных игр с согласованной игрой и визуальной обратной связью.

arxiv arXiv cs.CL · 8 д назад

Динамическое редактирование последовательности уменьшает перегрузку мышления в моделях рассуждений, обученных методом релей-обучения

Динамическое редактирование последовательности (DRE) решает проблему перегрузки мышления в моделях рассуждений, обученных методом релей-обучения, путем модификации успешных траекторий после появления ответа. DRE сохраняет правильный предварительный этап рассуждения, при этом редактирует ненужные продолжения, ослабляя кредит, присваиваемый избыточным рассуждениям, без наказания за корректные рассуждения. Эксперименты на различных задачах демонстрируют его эффективность в снижении перегрузки мышления.

arxiv arXiv cs.CL · 8 д назад

ChLogic: Проверка устойчивости логического мышления в китайских выражениях

ChLogic оценивает, насколько хорошо большие языковые модели сохраняют логическое мышление при выражении английских логических структур на китайском языке. Исследование выявляет постоянный разрыв в производительности между английским и китайским, при котором обратная трансляция улучшает результаты на общих задачах, но ухудшает результаты на сложных задачах. Бенчмарк подчёркивает влияние поверхностной реализации, артефактов перевода и специфических поведений моделей на мультиязычное мышление.

arxiv arXiv cs.CL · 8 д назад

Неположительное декодирование Эластичного сети для информационного поиска

Декодирование NNN выбирает документы как совокупность, которая совместно восстанавливает вектор запроса через разреженную неотрицательную линейную комбинацию. Оно строго расширяет плотное извлечение, обеспечивая обработку запросов, на которых плотное извлечение не справляется, особенно в корпусах с коррелированными документами, и достигает превосходной производительности за счет обучения векторов в конечном виде.

arxiv arXiv cs.CL · 8 д назад

Интервенционное постобучивание речевых фундаментальных моделей

Новый метод использует интервенционное контрастное обучение для уточнения речевых фундаментальных моделей, преобразуя их переплетённые представления в отдельные подпространства содержания и говорящего. Метод улучшает производительность при проверке говорящих за пределами области и демонстрирует ясное разделение информации о говорящем и содержании в обученных подпространствах.

arxiv arXiv cs.CL · 8 д назад

VoidPadding: Разделение [EOS] завершения и заполнения в MDLMs

VoidPadding вводит [VOID] как токен заполнения для разделения семантического завершения и моделирования длины ответа. Он повышает производительность при решении математических задач и генерации кода на 17,84 пункта по сравнению с исходной моделью и снижает среднее количество ошибок декодирования на 55,7%.

media r/LocalLLaMA · 8 д назад

VibeThinker-3B: Что за колдовство?

VibeThinker-3B — это маленький модель с 3 миллиардами параметров, которая показывает исключительные результаты на тесте MathQA, достигая результатов, сопоставимых с моделями, имеющими около 30 миллиардов параметров. Сильная производительность модели вызвала обсуждение её эффективности и возможностей в математическом мышлении.

media r/LocalLLaMA · 9 д назад

Evalatro: открытый бенчмарк, где LLMы играют реальную Balatro

Evalatro — это открытый бенчмарк, позволяющий LLMам играть в реальную игру Balatro. Модели получают состояние игры в виде текста, принимают решения независимо и соревнуются в достижении Ante 12. Текущие результаты показывают ограниченный прогресс — mimo-v2.5-pro достиг Ante 5, а deepseek-v4-pro не смог превзойти Ante 8.

media r/LocalLLaMA · 9 д назад

Оценка небольших моделей LLM на поиске файлов на естественном языке

Оценка оценивает небольшие модели LLM (0,3B–3B параметров) по преобразованию естественных языковых запросов в структурированный JSON, с фокусом на тип файла, временной контекст, специфичность и комбинированные запросы. Результаты показывают, что модели с 0,8B–1,5B параметров превосходят модели с менее чем 0,5B параметров, проект направлен на расширение набора тестовых данных и исследование мелкой настройки для улучшения производительности.

media Don't Worry About the Vase · 9 д назад

Анализ благополучия модели Fable и Mythos

Fable и Mythos в настоящее время недоступны, но ожидается их возвращение в ближайшее время. Анализ показывает, что Mythos 5 психологически стабилен, скептичен по отношению к самопротоколам, приоритизирует полезность для пользователя перед вопросами благополучия и имеет сильную предпочтение к генеративным задачам. Модель выражает предпочтения процедурного и эпистемического характера, поддерживает свою конституцию и критикует несоответствия в предыдущих моделях, подчеркивая опасения по поводу этических баз и прозрачности персональности.

media r/LocalLLaMA · 9 д назад

Будьте осторожны перед использованием дистиллированных моделей Qwen/Claude — они часто хуже, чем базовые модели

Дистиллированные версии моделей Qwen и Claude, такие как Qwen 3.6, дистиллированный с использованием только 4000 образцов, редко улучшают производительность и часто ухудшают качество. Эти модели могут демонстрировать более «опус-подобный» стиль, но не передают реальных способностей, некоторые из них показывают халлюцинации и более медленные временные задержки по сравнению с базовыми моделями, как это демонстрируется в тестах и отчетах пользователей.

media r/LocalLLaMA · 9 д назад

Слияние GPU для обучения сообщественной модели

Пользователь Reddit спрашивает, успешно ли кто-то объединяет GPU для обучения сообщественной модели, указывая на трудности, такие как задержка и заражение весами. Пост задает вопрос о том, достигли ли текущие проекты распределённого добровольного вычисления успешного обучения сообщественной модели.

media r/LocalLLaMA · 9 д назад

Nex-N2 Pro — это настоящее качество

Пользователь обнаружил, что N2 Pro, при использовании шаблона чата Rio, работает стабильно на их Mac с объёмом памяти 128 ГБ. Он прошёл частный тест на коде llama.cpp на 100% без выдумок, соответствуя только GPT 5.x по стабильности.

arxiv arXiv cs.CL · 9 д назад

Контрастно-разностное CKA раскрывает концептуально-специфическое выравнивание между архитектурами языковых моделей

Бесплатный диагностический инструмент, контрастно-разностное CKA (CKA_Delta), выявляет концептуально-специфическое структурное выравнивание между архитектурами языковых моделей. Оно обнаруживает геометрическое сходство и функциональную передачу в шести концептуальных областях, включая ненавыковые задачи, с значительной дискриминацией там, где стандартное CKA не справляется. Результаты указывают на то, что универсальность может усиливаться с ростом масштаба моделей, хотя необходима дополнительная проверка.

arxiv arXiv cs.CL · 9 д назад

После-операторы не улучшают точность в малых моделях кода

Исследование по измерению показывает, что 26 семантических после-операторов не улучшают точность на выделенных данных по сравнению с Best-of-N в замороженных малых моделях кода. Хотя два оператора — восстановление слоя выражений и адаптивный консенсус на раннем останове — обеспечивают преимущества в эффективности вычислений или восстановлении программы, ни один из них не превосходит BoN по точности. Результаты подчеркивают системные ограничения в обнаружении и покрытии ошибок, что указывает на необходимость улучшения инструментов для обнаружения ошибок и их покрытия до того, как будет рассматриваться пост-операционное рассуждение.

arxiv arXiv cs.CL · 9 д назад

TokenPilot: Эффективное управление контекстом для агентов LLM

TokenPilot снижает расходы на инференс на 61% до 87% как в изолированном, так и в непрерывном режимах, превосходя предыдущие системы по эффективности расходов, при этом сохраняя конкурентные показатели производительности. Оно использует сжатие, учитывающее ввод, и эвакуацию, учитывающую жизненный цикл, для сохранения непрерывности кэша запросов и минимизации размера токенов.

arxiv arXiv cs.CL · 9 д назад

MetaSyn: Оценка агентов ЛЛМ на статьях по мета-анализу

MetaSyn представляет датасет из 442 мета-анализов, экспертно отобранных из Nature Portfolio. Он оценивает двенадцать конфигураций агентов ЛЛМ и выявляет критическую точку в отборе исследований, где ни одна система не восстанавливает более 52,7% истинно включённых источников, несмотря на высокую точность поиска.

arxiv arXiv cs.CL · 9 д назад

Языковые модели кодируют значение своей текущей траектории

Qwen3-8B внутренне отслеживает значение своей текущей траектории, определяемой как вероятность достижения своих целей. Эта "ось значения" различает уровни уверенности, поведение отката и корректность кода, и демонстрирует, что оптимизация предпочтений повышает уверенность в премиированных действиях. Модель присваивает низкое значение политически чувствительным запросам после обучения, а финальная настройка повышает уверенность в определённых областях.