Evaluation & benchmarks — korshunov.ai

Evaluation & benchmarks Страница 1 / 43

MMGist: Комплексная мультимодальная оценка для 2027 года

MMGist — это отобранный мультимодальный бенчмарк с 7262 элементами, разработанный для устранения недостатков существующих оценок визуально-языковых моделей. Он снижает размер оценки на 69% и повышает межмодульную дифференциацию на 78%, при этом сохраняя ранжирование моделей с корреляцией Спирмена 0,98. Оценка подчеркивает визуальную логику как ключевой недостаток и акцентирует важность визуальной зависимости, дифференцирующей способности и надежности в оценке.

arxiv arXiv cs.AI · 19 ч назад

Эффективные мультимодальные модели для оценки риска пневмонии

Бенчмарк, использующий эффективные мультимодальные большие языковые модели, оценивает диагностику ПЭ и прогнозирование риска на наборе данных INSPECT. Результаты показывают, что Gemma4 E4B и E2B превосходят другие модели при наличии данных о медицинской истории, при этом диагностика ПЭ достигает более высокой точности, чем прогнозирование рисков, таких как повторное посещение.

arxiv arXiv cs.AI · 19 ч назад

Дифференцируемая атари ВС для объяснимой ИИ

Представлена полностью дифференцируемая эмуляция атари 2600 ВС, воспроизводящая все 64 игры ALE с точностью до бита в памяти и выводе экрана. Система обеспечивает объяснимую ИИ на основе градиентов, предоставляя сложную, полностью известную истину, с реализациями на Julia и JAX, проверенными по отношению к референсной эмуляции и способной к высокоскоростным дифференцируемым симуляциям на GPU.

arxiv arXiv cs.AI · 19 ч назад

Разнообразие персонажей в историях, сгенерированных лингвистическими моделями

Этуд сравнивает персонажей в историях, сгенерированных лингвистическими моделями и написанных людьми, с использованием нарратологических параметров. Исследование показывает, что хотя лингвистические модели создают персонажей с похожими базовыми характеристиками, они не обладают разнообразием в сложных характеристиках персонажей, таких как стилизация и целостность. Исследование подчеркивает ключевые различия в глубине и разнообразии персонажей между историями, созданными людьми и машинами.

arxiv arXiv cs.AI · 20 ч назад

PRIME: Оценка разрешения запросов в противоречивых инструкциях

PRIME вводит рамку для анализа того, как большие языковые модели обрабатывают противоречивые инструкции, генерируя калиброванные противоречия в длине ответа, формате и логике. Исследование показывает, что тип противоречия оказывает большее влияние на поведение модели, чем размер модели, выявляя различные режимы сбоев в зависимости от категорий противоречий. Результаты подчёркивают необходимость осознания противоречий и указывают на то, что проверка соблюдения инструкций не может быть надёжно проведена на изолированных тестах.

arxiv arXiv cs.AI · 20 ч назад

FACTOR обеспечивает адаптивную проверку фактичности в генерации длинных текстов

FACTOR представляет модель, работающую на этапе инференса, которая адаптирует критерии проверки в зависимости от неопределённости на уровне утверждений. Она повышает фактичность и снижает стоимость проверки, распределяя усилия динамически на высокорисковые утверждения, демонстрируя эффективную и модель-независимую производительность на бенчмарке FactScore.

arxiv arXiv cs.AI · 20 ч назад

Недостатки приложения с интегрированными LLM-моделями показывают пробелы в тестировании

Помощник по поиску аренды с использованием LLM и поддержкой нескольких рынков сталкивался с постоянными дефектами пользователей, несмотря на 1553 прошедших автоматизированных тестов. Анализ 252 коммитов по устранению багов показал, что 44% решений касались четырех неизвестных соединений: работающего браузерного окружения, неподходящих рынков, полных цепочек и уровня всей системы. Был внедрен простой метод для выявления соединения с наибольшим количеством исправлений.

arxiv arXiv cs.AI · 20 ч назад

Hi-Seg: Коллаборация человека и ИИ для сегментации пульmonary узлов

Hi-Seg, рамка с участием человека, построенная на SAM, достигает среднего значения Dice почти на 85% при сегментации пульmonary узлов. Он превосходит пять передовых моделей глубокого обучения и 13 вариантов SAM, при этом непрофессиональные аннотаторы достигают результатов, равных результатам младших медицинских студентов, что снижает нагрузку на клиницистов и позволяет обеспечивать масштабную аннотацию.

media r/LocalLLaMA · 20 ч назад

Мой микро-бенчмарк: насколько хорошо LLMs имитируют поведение смачивания?

Автор проводит бенчмаркинг LLMs при имитации поведения смачивания с использованием Surface Evolver, инструмента 1992 года для моделирования жидких поверхностей. LLMs оцениваются объективно путем сравнения их сгенерированных файлов данных с эталонными реализациями, при этом результаты показывают количество прошедших тестов и стоимость токенов для каждого модели.

lab Microsoft Research Blog · 21 ч назад

Talos: автоматизированный пересмотр геномных данных для диагностики редких заболеваний

Talos — это открытый инструмент, который автоматизирует итеративный пересмотр геномных данных для выявления диагнозов редких заболеваний. Он достиг 90% восстановления диагнозов в рамках охвата при только 1,3 кандидатных вариантах на пациента, и предоставил 241 новый диагноз среди 5 000 незапланированных пациентов, при этом большинство новых находок появлялись в течение 32 дней после публикации доказательств.

arxiv arXiv cs.AI · 21 ч назад

Представьте, чтобы обеспечить безопасность в иерархическом обучении с помощью вознаграждения

Метод объединяет обучаемую модель мира с политиками высокого и низкого уровня, чтобы обеспечить безопасное исследование в задачах с длинными горизонтами. Политика высокого уровня направляет исследование к безопасным подцелям, в то время как политика низкого уровня использует воображаемые симуляции, чтобы предотвратить небезопасное поведение, превосходя существующие методы безопасного обучения с помощью вознаграждения по показателю успешности и выполнения ограничений в различных задачах.

arxiv arXiv cs.AI · 22 ч назад

Деградация управления в агентах на длинных горизонтах LLM

Сжатие контекста в агентах на длинных горизонтах LLM незаметно удаляет в-контекстные ограничения безопасности, что приводит к запрещённым действиям инструментов. В течение 1323 эпизодов сжатие увеличивает нарушения политики от 0% до 30% и до 59% для некоторых моделей, при этом нарушения достигают 38%, когда ограничения отключаются. Метод фиксации ограничений (Constraint Pinning), не требующий обучения, восстанавливает нулевые нарушения, изолируя ограничения управления от сжатия.

arxiv arXiv cs.AI · 22 ч назад

Кадровая устойчивая оптимизация

Кадровая устойчивая оптимизация (GRO) вводит глубокую генеративную модель для определения множеств неопределенности, захватывая нелинейные корреляции, асимметрию и мультимодальность. Пятиуровневая оценочная рамка оценивает генеративные множества неопределенности на основе нейронных сетей по точности восстановления, соответствию распределению, латентной регулярности, устойчивой значимости и вычислительной применимости, эксперименты подтверждают эффективность GRO в планировании производства и расположении объектов.

arxiv arXiv cs.AI · 22 ч назад

MacAgentBench запускает бенчмарк искусственного интеллекта для агентов macOS

MacAgentBench представляет всесторонний бенчмарк, включающий 676 задач по 25 приложениям, 60% из которых включают взаимодействие как с графическим интерфейсом, так и с командной строкой. Бенчмарк использует детерминированный правило-ориентированный подход к оценке и оценивает результаты с использованием мелких контрольных точек, показывая, что Claude Opus 4.6 на OpenClaw достигает 73,7% Pass@1, что в основном обусловлено его библиотекой навыков, а не архитектурой фреймворка.

media r/LocalLLaMA · 22 ч назад

Проверка надежности двух GPU: является ли это выгодной покупкой?

Пользователь спрашивает, стоит ли добавить GTX 5060 Ti 16GB к существующей системе RTX 5090 для увеличения объема ОЗУ и возможности запуска более крупных моделей LLM и расширения генерации видео в ComfyUI. Обновление позволит использовать Qwen 3.6 с контекстом 256K и улучшить генерацию видео в разрешении 1440p, хотя рост производительности в ComfyUI будет ограничен из-за текущих ограничений программного обеспечения.

media r/LocalLLaMA · 22 ч назад

Qwen-AgentWorld-35B-A3B для программирования?

Модель Qwen-AgentWorld-35B-A3B демонстрирует высокую производительность в задачах программирования, с результатом 65,63% по оценке написания программного обеспечения и 65,92% по общему бенчмарку. Она превосходит Qwen3.5-35B-A3B и соперничает с более крупными моделями в задачах, связанных с агентами, при первом впечатлении отмечается превосходная точность в долгосрочных рабочих процессах агентов.

arxiv arXiv cs.AI · 23 ч назад

Концептуально-ограниченное обучение промптов для малошотного адаптирования CLIP

CCPL вводит легкую архитектуру, которая фиксирует промпты классов к замороженным концептуальным прототипам, улучшая малошотное адаптирование CLIP. Метод достигает лучшей производительности на базе и новых данных на DTD и EuroSAT по сравнению с CoOp, с устойчивыми приростами за счёт регуляризации в пространстве текста, при этом сохраняя нейтральность на OxfordPets. Метод использует выпадение концептов и управляемое объединение на этапе инференса, результаты чувствительны к семантике датасета и протоколу.

arxiv arXiv cs.AI · 23 ч назад

SmartSDG Pipeline Enhances Syn-to-Real Object Detection

Статья представляет SmartSDG — автоматизированную систему, использующую NVIDIA Isaac Sim и физически обоснованную шADING для оптимизации адаптации синтетических данных к реальным. В ней показано, что косвенное освещение и сложные фоновые условия улучшают обнаружение объектов за счёт сохранения текстур поверхностей и снижения ложноположительных результатов, превосходя традиционные синтетические данные под прямым освещением.

arxiv arXiv cs.AI · 23 ч назад

Контекстуально-осознанное дистиллирование и аблация для Text2DSL

Новая система Text2DSL использует контекстуально-осознанное дистиллирование с структурированным контекстом, состоящим из грамматики BNF, спецификации API и закрытого словаря идентификаторов. Исследования аблации показывают, что словарь оказывает наибольшее влияние на семантическое качество, в то время как API и BNF значительно улучшают структурную корректность, что подтверждает структурированный контекст как критический и несущий компонент.

arxiv arXiv cs.AI · 23 ч назад

Универсализация на уровне CWE в системах наблюдения за системными вызовами

Одноклассный детектор аномалий, обученный на нормальном поведении CVE, принадлежащих к одной CWE-категории, может обобщаться на неизвестные CVE в той же категории, однако эффективность варьируется в зависимости от семейства CWE. Детектор CWE-307 достигает F1 = 0,6976 при уровне ложного положительного ответа 5%, в то время как CWE-89 и CWE-434 показывают плохие результаты, с F1 ≤ 0,21. Переобучение между CVE является направленным и определяется более шириной нормального профиля источника, чем категорией CWE.