Evaluation & benchmarks — korshunov.ai

Evaluation & benchmarks Страница 1 / 44

Малые языковые модели превосходят передовые крупные языковые модели по извлечению отношений

Финетурированный модель Qwen2.5 с 0,5 миллиарда параметров достигает 0,83 микроФ1 в извлечении отношений в общей области, превосходя нулевую версию GPT-5.4 и Claude Sonnet 4.6. На литературных тестах она достигает 0,92 на датасете Биографический, превосходя GPT-5.4 и превосходя передовые модели по точности, демонстрируя, что адаптированные к задаче малые модели могут обеспечивать высокую производительность при минимальных затратах на оборудование и приватность.

arxiv arXiv cs.AI · 20 ч назад

BabelJudge: Оценка надежности LLM-как-судьи в разных языках и траекториях агента

BabelJudge представляет открытую платформу для измерения четырех ключевых форм предвзятости в LLM-судьях в различных языках и траекториях агентов. Платформа выявляет значительное падение надежности от хинди до саванги — с 0,714 до 0,550 — что подчеркивает деградацию между языками, недоступную по прямой точности. Платформа позволяет проводить оценку с учетом предвзятости без использования человеческих меток, используя контролируемые искажения для создания известных эталонных меток, и расширяется на агентные рабочие процессы с новыми метриками по точности инструментов и обнаружению выдумки.

arxiv arXiv cs.AI · 20 ч назад

RoboMME-Interference: Оценка памяти робота при наличии помех

RoboMME-Interference представляет кросс-сессионный бенчмарк для оценки памяти робота при наличии помех. В него добавляются несвязанные сессии к предыдущим демонстрациям, что показывает, что варианты перцептивной памяти значительно деградируют при увеличении раздражителей, подчеркивая недостаточную устойчивость существующих систем к помехам и необходимость долгосрочной памяти.

arxiv arXiv cs.AI · 21 ч назад

Обратное моделирование постериорного отбора для регрессии в пространстве функций и обратных задач

FAPS — первый фреймворк постериорного отбора в пространстве функций, объединяющий регрессию на стохастических процессах и обратные задачи дифференциальных уравнений. Он использует предобученные априорные распределения на основе потоков и коррекцию Ланжевена с предусловием ковариационной матрицы низкого ранга для обеспечения эффективного и точного постериорного вывода на основе редких и шумных данных с согласованным квантованием неопределённости.

media r/LocalLLaMA · 21 ч назад

Кто-нибудь еще замечал, что выводы vLLM хуже, чем в llama.cpp?

Пользователь сообщает, что замечает менее надежные выводы от vLLM по сравнению с llama.cpp, включая ошибки форматирования, потерю контекста и снижение качества кода. Он спрашивает, откуда могут исходить такие различия — от квантования, шаблонов чата, проблем с парсером или ошибок настройки, и ищет подтверждение, что другие наблюдали подобные разрывы в качестве между инференс-бэкендами.

arxiv arXiv cs.AI · 21 ч назад

SAFER: надежная адаптация на этапе тестирования при противодействующих потоках

SAFER — это рамка без обучения, которая повышает устойчивость адаптации на этапе тестирования за счёт использования аугментации, ориентированной на надёжность. Она генерирует стохастические аугментации, объединяет предсказания с помощью агрегации, взвешенной корреляцией, с обнаружением выбросов, и включает адаптивное смешивание для сохранения чистой производительности при противодействующих атаках. Оценки на PACS, VLCS и OfficeHome показывают улучшенную устойчивость без потери чистой точности.

arxiv arXiv cs.AI · 21 ч назад

Оценка физической согласованности в генерации видео без ссылок

Новый метод оценивает физическую согласованность в сгенерированных видео без необходимости человеческих оценок или истинных ссылок. Он использует DROID-SLAM и SEA-RAFT для обнаружения несоответствий, повышая показатели успешного выполнения задачи более чем на 8% и позволяя проводить спектро-временное локализацию физических артефактов.

arxiv arXiv cs.AI · 21 ч назад

Очистка меток с использованием больших языковых моделей в наборе данных по рентгеновским снимкам грудной клетки

Большая языковая модель (LLM) помогла выявить несоответствия между метками и отчетами в наборе данных CT-RATE по рентгеновским снимкам грудной клетки. GPT-5.4 достигла согласия на уровне 96,4% с существующими метками, при этом рентгенологическая проверка подтвердила метки, полученные с помощью LLM, в 74,2% общих и 91,9% случаев лимфоаденопатии. Метки, полученные с помощью большинства из нескольких LLM, показали лучшие результаты по F1 и кэппу, и очищенный набор данных будет опубликован.

arxiv arXiv cs.AI · 21 ч назад

PlanBench-XL: Бенчмарк для планирования использования инструментов на длительных горизонтах

PlanBench-XL оценивает долгосрочное планирование в агентах на основе языковых моделей через 327 задач по розничной торговле, используя 1665 инструментов. В нем вводится механизм блокировки для имитации сбоев инструментов в реальном мире, что показывает, что агенты, такие как GPT-5.4, снижают свою точность с 51,90% до 11,36% при серьезных сбоях, подчеркивая уязвимости в восстановлении и обработке ошибок.

arxiv arXiv cs.AI · 22 ч назад

Gold Points Sniper: Саморегулируемое визуальное мышление для понимания детальных человеческих действий

Gold Points Sniper (GPS) позволяет лёгким моделям визуально-языкового взаимодействия проводить самоорганизованное многомодальное мышление для понимания детальных человеческих действий. Интегрируя экстрактор золотых точек, селективный сократовский вопросник и оценщик семантической логики, GPS достигает производительности, сравнимой с GPT-4o, при этом обеспечивая превосходную фактическую точность на данных инструкционного обучения, основанных на базе CAP.

arxiv arXiv cs.AI · 22 ч назад

Структурный индекс базы кода улучшает разрешение без дополнительной стоимости

Структурный индекс базы кода в агентах разработки повышает эффективность локализации и разрешения без увеличения стоимости на ячейку. Он превосходит базовые варианты agentic-grep по обоим показателям и обеспечивает меньшую стоимость за решённую задачу, особенно в нагрузках с изменениями нескольких файлов.

lab Hugging Face Blog · 22 ч назад

Введение в рейтинг FFASR: оценка ASR в реальных условиях

Рейтинг FFASR был запущен для оценки систем распознавания речи в реальных условиях. Он предоставляет критерий для оценки производительности моделей автоматического распознавания речи в различных средах и сценариях использования.

arxiv arXiv cs.AI · 22 ч назад

MMGist: Комплексная мультимодальная оценка для 2027 года

MMGist — это отобранный мультимодальный бенчмарк с 7262 элементами, разработанный для устранения недостатков существующих оценок визуально-языковых моделей. Он снижает размер оценки на 69% и повышает межмодульную дифференциацию на 78%, при этом сохраняя ранжирование моделей с корреляцией Спирмена 0,98. Оценка подчеркивает визуальную логику как ключевой недостаток и акцентирует важность визуальной зависимости, дифференцирующей способности и надежности в оценке.

arxiv arXiv cs.AI · 22 ч назад

Эффективные мультимодальные модели для оценки риска пневмонии

Бенчмарк, использующий эффективные мультимодальные большие языковые модели, оценивает диагностику ПЭ и прогнозирование риска на наборе данных INSPECT. Результаты показывают, что Gemma4 E4B и E2B превосходят другие модели при наличии данных о медицинской истории, при этом диагностика ПЭ достигает более высокой точности, чем прогнозирование рисков, таких как повторное посещение.

arxiv arXiv cs.AI · 22 ч назад

Дифференцируемая атари ВС для объяснимой ИИ

Представлена полностью дифференцируемая эмуляция атари 2600 ВС, воспроизводящая все 64 игры ALE с точностью до бита в памяти и выводе экрана. Система обеспечивает объяснимую ИИ на основе градиентов, предоставляя сложную, полностью известную истину, с реализациями на Julia и JAX, проверенными по отношению к референсной эмуляции и способной к высокоскоростным дифференцируемым симуляциям на GPU.

arxiv arXiv cs.AI · 22 ч назад

Разнообразие персонажей в историях, сгенерированных лингвистическими моделями

Этуд сравнивает персонажей в историях, сгенерированных лингвистическими моделями и написанных людьми, с использованием нарратологических параметров. Исследование показывает, что хотя лингвистические модели создают персонажей с похожими базовыми характеристиками, они не обладают разнообразием в сложных характеристиках персонажей, таких как стилизация и целостность. Исследование подчеркивает ключевые различия в глубине и разнообразии персонажей между историями, созданными людьми и машинами.

arxiv arXiv cs.AI · 23 ч назад

PRIME: Оценка разрешения запросов в противоречивых инструкциях

PRIME вводит рамку для анализа того, как большие языковые модели обрабатывают противоречивые инструкции, генерируя калиброванные противоречия в длине ответа, формате и логике. Исследование показывает, что тип противоречия оказывает большее влияние на поведение модели, чем размер модели, выявляя различные режимы сбоев в зависимости от категорий противоречий. Результаты подчёркивают необходимость осознания противоречий и указывают на то, что проверка соблюдения инструкций не может быть надёжно проведена на изолированных тестах.

arxiv arXiv cs.AI · 23 ч назад

FACTOR обеспечивает адаптивную проверку фактичности в генерации длинных текстов

FACTOR представляет модель, работающую на этапе инференса, которая адаптирует критерии проверки в зависимости от неопределённости на уровне утверждений. Она повышает фактичность и снижает стоимость проверки, распределяя усилия динамически на высокорисковые утверждения, демонстрируя эффективную и модель-независимую производительность на бенчмарке FactScore.

arxiv arXiv cs.AI · 23 ч назад

Недостатки приложения с интегрированными LLM-моделями показывают пробелы в тестировании

Помощник по поиску аренды с использованием LLM и поддержкой нескольких рынков сталкивался с постоянными дефектами пользователей, несмотря на 1553 прошедших автоматизированных тестов. Анализ 252 коммитов по устранению багов показал, что 44% решений касались четырех неизвестных соединений: работающего браузерного окружения, неподходящих рынков, полных цепочек и уровня всей системы. Был внедрен простой метод для выявления соединения с наибольшим количеством исправлений.

arxiv arXiv cs.AI · 23 ч назад

Hi-Seg: Коллаборация человека и ИИ для сегментации пульmonary узлов

Hi-Seg, рамка с участием человека, построенная на SAM, достигает среднего значения Dice почти на 85% при сегментации пульmonary узлов. Он превосходит пять передовых моделей глубокого обучения и 13 вариантов SAM, при этом непрофессиональные аннотаторы достигают результатов, равных результатам младших медицинских студентов, что снижает нагрузку на клиницистов и позволяет обеспечивать масштабную аннотацию.