Evaluation & benchmarks — korshunov.ai

Evaluation & benchmarks Страница 1 / 44

Недостатки приложения с интегрированными LLM-моделями показывают пробелы в тестировании

Помощник по поиску аренды с использованием LLM и поддержкой нескольких рынков сталкивался с постоянными дефектами пользователей, несмотря на 1553 прошедших автоматизированных тестов. Анализ 252 коммитов по устранению багов показал, что 44% решений касались четырех неизвестных соединений: работающего браузерного окружения, неподходящих рынков, полных цепочек и уровня всей системы. Был внедрен простой метод для выявления соединения с наибольшим количеством исправлений.

arxiv arXiv cs.AI · 1 д назад

Hi-Seg: Коллаборация человека и ИИ для сегментации пульmonary узлов

Hi-Seg, рамка с участием человека, построенная на SAM, достигает среднего значения Dice почти на 85% при сегментации пульmonary узлов. Он превосходит пять передовых моделей глубокого обучения и 13 вариантов SAM, при этом непрофессиональные аннотаторы достигают результатов, равных результатам младших медицинских студентов, что снижает нагрузку на клиницистов и позволяет обеспечивать масштабную аннотацию.

media r/LocalLLaMA · 1 д назад

Мой микро-бенчмарк: насколько хорошо LLMs имитируют поведение смачивания?

Автор проводит бенчмаркинг LLMs при имитации поведения смачивания с использованием Surface Evolver, инструмента 1992 года для моделирования жидких поверхностей. LLMs оцениваются объективно путем сравнения их сгенерированных файлов данных с эталонными реализациями, при этом результаты показывают количество прошедших тестов и стоимость токенов для каждого модели.

lab Microsoft Research Blog · 1 д назад

Talos: автоматизированный пересмотр геномных данных для диагностики редких заболеваний

Talos — это открытый инструмент, который автоматизирует итеративный пересмотр геномных данных для выявления диагнозов редких заболеваний. Он достиг 90% восстановления диагнозов в рамках охвата при только 1,3 кандидатных вариантах на пациента, и предоставил 241 новый диагноз среди 5 000 незапланированных пациентов, при этом большинство новых находок появлялись в течение 32 дней после публикации доказательств.

arxiv arXiv cs.AI · 1 д назад

Представьте, чтобы обеспечить безопасность в иерархическом обучении с помощью вознаграждения

Метод объединяет обучаемую модель мира с политиками высокого и низкого уровня, чтобы обеспечить безопасное исследование в задачах с длинными горизонтами. Политика высокого уровня направляет исследование к безопасным подцелям, в то время как политика низкого уровня использует воображаемые симуляции, чтобы предотвратить небезопасное поведение, превосходя существующие методы безопасного обучения с помощью вознаграждения по показателю успешности и выполнения ограничений в различных задачах.

arxiv arXiv cs.AI · 1 д назад

Деградация управления в агентах на длинных горизонтах LLM

Сжатие контекста в агентах на длинных горизонтах LLM незаметно удаляет в-контекстные ограничения безопасности, что приводит к запрещённым действиям инструментов. В течение 1323 эпизодов сжатие увеличивает нарушения политики от 0% до 30% и до 59% для некоторых моделей, при этом нарушения достигают 38%, когда ограничения отключаются. Метод фиксации ограничений (Constraint Pinning), не требующий обучения, восстанавливает нулевые нарушения, изолируя ограничения управления от сжатия.

arxiv arXiv cs.AI · 1 д назад

Кадровая устойчивая оптимизация

Кадровая устойчивая оптимизация (GRO) вводит глубокую генеративную модель для определения множеств неопределенности, захватывая нелинейные корреляции, асимметрию и мультимодальность. Пятиуровневая оценочная рамка оценивает генеративные множества неопределенности на основе нейронных сетей по точности восстановления, соответствию распределению, латентной регулярности, устойчивой значимости и вычислительной применимости, эксперименты подтверждают эффективность GRO в планировании производства и расположении объектов.

arxiv arXiv cs.AI · 1 д назад

MacAgentBench запускает бенчмарк искусственного интеллекта для агентов macOS

MacAgentBench представляет всесторонний бенчмарк, включающий 676 задач по 25 приложениям, 60% из которых включают взаимодействие как с графическим интерфейсом, так и с командной строкой. Бенчмарк использует детерминированный правило-ориентированный подход к оценке и оценивает результаты с использованием мелких контрольных точек, показывая, что Claude Opus 4.6 на OpenClaw достигает 73,7% Pass@1, что в основном обусловлено его библиотекой навыков, а не архитектурой фреймворка.

media r/LocalLLaMA · 1 д назад

Проверка надежности двух GPU: является ли это выгодной покупкой?

Пользователь спрашивает, стоит ли добавить GTX 5060 Ti 16GB к существующей системе RTX 5090 для увеличения объема ОЗУ и возможности запуска более крупных моделей LLM и расширения генерации видео в ComfyUI. Обновление позволит использовать Qwen 3.6 с контекстом 256K и улучшить генерацию видео в разрешении 1440p, хотя рост производительности в ComfyUI будет ограничен из-за текущих ограничений программного обеспечения.

media r/LocalLLaMA · 1 д назад

Qwen-AgentWorld-35B-A3B для программирования?

Модель Qwen-AgentWorld-35B-A3B демонстрирует высокую производительность в задачах программирования, с результатом 65,63% по оценке написания программного обеспечения и 65,92% по общему бенчмарку. Она превосходит Qwen3.5-35B-A3B и соперничает с более крупными моделями в задачах, связанных с агентами, при первом впечатлении отмечается превосходная точность в долгосрочных рабочих процессах агентов.

arxiv arXiv cs.AI · 1 д назад

Концептуально-ограниченное обучение промптов для малошотного адаптирования CLIP

CCPL вводит легкую архитектуру, которая фиксирует промпты классов к замороженным концептуальным прототипам, улучшая малошотное адаптирование CLIP. Метод достигает лучшей производительности на базе и новых данных на DTD и EuroSAT по сравнению с CoOp, с устойчивыми приростами за счёт регуляризации в пространстве текста, при этом сохраняя нейтральность на OxfordPets. Метод использует выпадение концептов и управляемое объединение на этапе инференса, результаты чувствительны к семантике датасета и протоколу.

arxiv arXiv cs.AI · 1 д назад

SmartSDG Pipeline Enhances Syn-to-Real Object Detection

Статья представляет SmartSDG — автоматизированную систему, использующую NVIDIA Isaac Sim и физически обоснованную шADING для оптимизации адаптации синтетических данных к реальным. В ней показано, что косвенное освещение и сложные фоновые условия улучшают обнаружение объектов за счёт сохранения текстур поверхностей и снижения ложноположительных результатов, превосходя традиционные синтетические данные под прямым освещением.

arxiv arXiv cs.AI · 1 д назад

Контекстуально-осознанное дистиллирование и аблация для Text2DSL

Новая система Text2DSL использует контекстуально-осознанное дистиллирование с структурированным контекстом, состоящим из грамматики BNF, спецификации API и закрытого словаря идентификаторов. Исследования аблации показывают, что словарь оказывает наибольшее влияние на семантическое качество, в то время как API и BNF значительно улучшают структурную корректность, что подтверждает структурированный контекст как критический и несущий компонент.

arxiv arXiv cs.AI · 1 д назад

Универсализация на уровне CWE в системах наблюдения за системными вызовами

Одноклассный детектор аномалий, обученный на нормальном поведении CVE, принадлежащих к одной CWE-категории, может обобщаться на неизвестные CVE в той же категории, однако эффективность варьируется в зависимости от семейства CWE. Детектор CWE-307 достигает F1 = 0,6976 при уровне ложного положительного ответа 5%, в то время как CWE-89 и CWE-434 показывают плохие результаты, с F1 ≤ 0,21. Переобучение между CVE является направленным и определяется более шириной нормального профиля источника, чем категорией CWE.

arxiv arXiv cs.AI · 1 д назад

Весовое настройка на-поли-дистилляции решает смещение позиции

На-поли-дистилляция (OPD) страдает от смещения позиции, при котором поздние токены обеспечивают плохую поддержку. Весовая настройка OPD (IW-OPD) присваивает динамические веса на основе расхождения распределений, приоритизируя ранние токены и подавляя поздние. IW-OPD сходится быстрее и достигает до 6,9 точек роста производительности на AIME-2025 по сравнению с стандартной OPD.

arxiv arXiv cs.LG · 1 д назад

Награда-безопасное предобучение для обучения с вознаграждением через максимизацию покрытия состояний

ROVER обеспечивает награду-безопасное предобучение за счет максимизации покрытия состояний в пространстве состояний, используя обученную модель мира для оценки покрытия без оценки плотности или энтропии. Оно вводит виртуальный статус-связи для балансировки исследования известных и неизвестных областей, достигая более равномерного покрытия и лучшей производительности в задачах навигации в табличных и пиксельных форматах.

arxiv arXiv cs.LG · 1 д назад

TeaNet улучшает обучение с небольшим количеством примеров в вибрационной спектроскопии

TeaNet, усиленный с точки зрения задачи, восстанавливает спектры, случайно скрытые, для генерации усредненных образцов, сохраняющих исходные спектральные особенности при введении специфических для области вариаций. Этот подход позволяет глубоким нейронным сетям более эффективно выявлять дискриминантные волновые числа, превосходя CNN на 17% в сложных синтетических сценариях и обеспечивая улучшенную интерпретируемость в задачах обучения с небольшим количеством примеров.

arxiv arXiv cs.LG · 1 д назад

TASER: расширение навыков на основе задач для непрерывного обучения в гетерогенных задачах

TASER представляет рамку, которая динамически расширяет и направляет атомарные навыки для непрерывного обучения в гетерогенных задачах. Он снижает катастрофическое забвение и повышает пластичность за счёт обеспечения семантической различимости и эффективного распределения ресурсов через механизмы обнаружения и направления навыков. Оценка на HeteroCLBench, бенчмарке с 19 разными задачами по 9 когнитивным измерениям, показывает, что TASER превосходит существующие базовые решения.

media r/LocalLLaMA · 1 д назад

Qwen3.6 27B в vLLM дumber, чем в llama.cpp

Пользователь сообщает, что Qwen3.6-27B работает значительно менее интеллектуально в vLLM, чем в llama.cpp, демонстрируя проблемы, такие как игнорирование сообщений, халлюцинации инструментальных вызовов и неспособность распознавать контекст предыдущих диалогов. Несмотря на правильную настройку и шаблоны промптов, модель кажется потерять связность и неправильно интерпретировать собственные инструментальные вызовы, при этом ошибки возникают систематически, а не случайно.

arxiv arXiv cs.LG · 1 д назад

MedTS-TTT: обучение в процессе тестирования для медицинских временных рядов

MedTS-TTT представляет рамку обучения в процессе тестирования для классификации медицинских временных рядов. Основан на CLSA-TTT и гатерной конволюционной архитектуре, она обеспечивает быстрое, одношаговое адаптация без итеративной оптимизации. На четырех публичных наборах данных она достигает 11 из 12 лучших результатов при оценке девяти базовых моделей и трёх метрик.