Evaluation & benchmarks — korshunov.ai

Evaluation & benchmarks Страница 1 / 42

Разнообразие персонажей в историях, сгенерированных лингвистическими моделями

Этуд сравнивает персонажей в историях, сгенерированных лингвистическими моделями и написанных людьми, с использованием нарратологических параметров. Исследование показывает, что хотя лингвистические модели создают персонажей с похожими базовыми характеристиками, они не обладают разнообразием в сложных характеристиках персонажей, таких как стилизация и целостность. Исследование подчеркивает ключевые различия в глубине и разнообразии персонажей между историями, созданными людьми и машинами.

arxiv arXiv cs.AI · 15 ч назад

PRIME: Оценка разрешения запросов в противоречивых инструкциях

PRIME вводит рамку для анализа того, как большие языковые модели обрабатывают противоречивые инструкции, генерируя калиброванные противоречия в длине ответа, формате и логике. Исследование показывает, что тип противоречия оказывает большее влияние на поведение модели, чем размер модели, выявляя различные режимы сбоев в зависимости от категорий противоречий. Результаты подчёркивают необходимость осознания противоречий и указывают на то, что проверка соблюдения инструкций не может быть надёжно проведена на изолированных тестах.

arxiv arXiv cs.AI · 15 ч назад

FACTOR обеспечивает адаптивную проверку фактичности в генерации длинных текстов

FACTOR представляет модель, работающую на этапе инференса, которая адаптирует критерии проверки в зависимости от неопределённости на уровне утверждений. Она повышает фактичность и снижает стоимость проверки, распределяя усилия динамически на высокорисковые утверждения, демонстрируя эффективную и модель-независимую производительность на бенчмарке FactScore.

arxiv arXiv cs.AI · 15 ч назад

Недостатки приложения с интегрированными LLM-моделями показывают пробелы в тестировании

Помощник по поиску аренды с использованием LLM и поддержкой нескольких рынков сталкивался с постоянными дефектами пользователей, несмотря на 1553 прошедших автоматизированных тестов. Анализ 252 коммитов по устранению багов показал, что 44% решений касались четырех неизвестных соединений: работающего браузерного окружения, неподходящих рынков, полных цепочек и уровня всей системы. Был внедрен простой метод для выявления соединения с наибольшим количеством исправлений.

arxiv arXiv cs.AI · 15 ч назад

Hi-Seg: Коллаборация человека и ИИ для сегментации пульmonary узлов

Hi-Seg, рамка с участием человека, построенная на SAM, достигает среднего значения Dice почти на 85% при сегментации пульmonary узлов. Он превосходит пять передовых моделей глубокого обучения и 13 вариантов SAM, при этом непрофессиональные аннотаторы достигают результатов, равных результатам младших медицинских студентов, что снижает нагрузку на клиницистов и позволяет обеспечивать масштабную аннотацию.

media r/LocalLLaMA · 15 ч назад

Мой микро-бенчмарк: насколько хорошо LLMs имитируют поведение смачивания?

Автор проводит бенчмаркинг LLMs при имитации поведения смачивания с использованием Surface Evolver, инструмента 1992 года для моделирования жидких поверхностей. LLMs оцениваются объективно путем сравнения их сгенерированных файлов данных с эталонными реализациями, при этом результаты показывают количество прошедших тестов и стоимость токенов для каждого модели.

lab Microsoft Research Blog · 16 ч назад

Talos: автоматизированный пересмотр геномных данных для диагностики редких заболеваний

Talos — это открытый инструмент, который автоматизирует итеративный пересмотр геномных данных для выявления диагнозов редких заболеваний. Он достиг 90% восстановления диагнозов в рамках охвата при только 1,3 кандидатных вариантах на пациента, и предоставил 241 новый диагноз среди 5 000 незапланированных пациентов, при этом большинство новых находок появлялись в течение 32 дней после публикации доказательств.

arxiv arXiv cs.AI · 17 ч назад

Представьте, чтобы обеспечить безопасность в иерархическом обучении с помощью вознаграждения

Метод объединяет обучаемую модель мира с политиками высокого и низкого уровня, чтобы обеспечить безопасное исследование в задачах с длинными горизонтами. Политика высокого уровня направляет исследование к безопасным подцелям, в то время как политика низкого уровня использует воображаемые симуляции, чтобы предотвратить небезопасное поведение, превосходя существующие методы безопасного обучения с помощью вознаграждения по показателю успешности и выполнения ограничений в различных задачах.

arxiv arXiv cs.AI · 17 ч назад

Деградация управления в агентах на длинных горизонтах LLM

Сжатие контекста в агентах на длинных горизонтах LLM незаметно удаляет в-контекстные ограничения безопасности, что приводит к запрещённым действиям инструментов. В течение 1323 эпизодов сжатие увеличивает нарушения политики от 0% до 30% и до 59% для некоторых моделей, при этом нарушения достигают 38%, когда ограничения отключаются. Метод фиксации ограничений (Constraint Pinning), не требующий обучения, восстанавливает нулевые нарушения, изолируя ограничения управления от сжатия.

arxiv arXiv cs.AI · 17 ч назад

Кадровая устойчивая оптимизация

Кадровая устойчивая оптимизация (GRO) вводит глубокую генеративную модель для определения множеств неопределенности, захватывая нелинейные корреляции, асимметрию и мультимодальность. Пятиуровневая оценочная рамка оценивает генеративные множества неопределенности на основе нейронных сетей по точности восстановления, соответствию распределению, латентной регулярности, устойчивой значимости и вычислительной применимости, эксперименты подтверждают эффективность GRO в планировании производства и расположении объектов.

arxiv arXiv cs.AI · 17 ч назад

MacAgentBench запускает бенчмарк искусственного интеллекта для агентов macOS

MacAgentBench представляет всесторонний бенчмарк, включающий 676 задач по 25 приложениям, 60% из которых включают взаимодействие как с графическим интерфейсом, так и с командной строкой. Бенчмарк использует детерминированный правило-ориентированный подход к оценке и оценивает результаты с использованием мелких контрольных точек, показывая, что Claude Opus 4.6 на OpenClaw достигает 73,7% Pass@1, что в основном обусловлено его библиотекой навыков, а не архитектурой фреймворка.

media r/LocalLLaMA · 18 ч назад

Проверка надежности двух GPU: является ли это выгодной покупкой?

Пользователь спрашивает, стоит ли добавить GTX 5060 Ti 16GB к существующей системе RTX 5090 для увеличения объема ОЗУ и возможности запуска более крупных моделей LLM и расширения генерации видео в ComfyUI. Обновление позволит использовать Qwen 3.6 с контекстом 256K и улучшить генерацию видео в разрешении 1440p, хотя рост производительности в ComfyUI будет ограничен из-за текущих ограничений программного обеспечения.

media r/LocalLLaMA · 18 ч назад

Qwen-AgentWorld-35B-A3B для программирования?

Модель Qwen-AgentWorld-35B-A3B демонстрирует высокую производительность в задачах программирования, с результатом 65,63% по оценке написания программного обеспечения и 65,92% по общему бенчмарку. Она превосходит Qwen3.5-35B-A3B и соперничает с более крупными моделями в задачах, связанных с агентами, при первом впечатлении отмечается превосходная точность в долгосрочных рабочих процессах агентов.

arxiv arXiv cs.AI · 18 ч назад

Концептуально-ограниченное обучение промптов для малошотного адаптирования CLIP

CCPL вводит легкую архитектуру, которая фиксирует промпты классов к замороженным концептуальным прототипам, улучшая малошотное адаптирование CLIP. Метод достигает лучшей производительности на базе и новых данных на DTD и EuroSAT по сравнению с CoOp, с устойчивыми приростами за счёт регуляризации в пространстве текста, при этом сохраняя нейтральность на OxfordPets. Метод использует выпадение концептов и управляемое объединение на этапе инференса, результаты чувствительны к семантике датасета и протоколу.

arxiv arXiv cs.AI · 18 ч назад

SmartSDG Pipeline Enhances Syn-to-Real Object Detection

Статья представляет SmartSDG — автоматизированную систему, использующую NVIDIA Isaac Sim и физически обоснованную шADING для оптимизации адаптации синтетических данных к реальным. В ней показано, что косвенное освещение и сложные фоновые условия улучшают обнаружение объектов за счёт сохранения текстур поверхностей и снижения ложноположительных результатов, превосходя традиционные синтетические данные под прямым освещением.

arxiv arXiv cs.AI · 18 ч назад

Контекстуально-осознанное дистиллирование и аблация для Text2DSL

Новая система Text2DSL использует контекстуально-осознанное дистиллирование с структурированным контекстом, состоящим из грамматики BNF, спецификации API и закрытого словаря идентификаторов. Исследования аблации показывают, что словарь оказывает наибольшее влияние на семантическое качество, в то время как API и BNF значительно улучшают структурную корректность, что подтверждает структурированный контекст как критический и несущий компонент.

arxiv arXiv cs.AI · 19 ч назад

Универсализация на уровне CWE в системах наблюдения за системными вызовами

Одноклассный детектор аномалий, обученный на нормальном поведении CVE, принадлежащих к одной CWE-категории, может обобщаться на неизвестные CVE в той же категории, однако эффективность варьируется в зависимости от семейства CWE. Детектор CWE-307 достигает F1 = 0,6976 при уровне ложного положительного ответа 5%, в то время как CWE-89 и CWE-434 показывают плохие результаты, с F1 ≤ 0,21. Переобучение между CVE является направленным и определяется более шириной нормального профиля источника, чем категорией CWE.

arxiv arXiv cs.AI · 19 ч назад

Весовое настройка на-поли-дистилляции решает смещение позиции

На-поли-дистилляция (OPD) страдает от смещения позиции, при котором поздние токены обеспечивают плохую поддержку. Весовая настройка OPD (IW-OPD) присваивает динамические веса на основе расхождения распределений, приоритизируя ранние токены и подавляя поздние. IW-OPD сходится быстрее и достигает до 6,9 точек роста производительности на AIME-2025 по сравнению с стандартной OPD.

arxiv arXiv cs.LG · 19 ч назад

Награда-безопасное предобучение для обучения с вознаграждением через максимизацию покрытия состояний

ROVER обеспечивает награду-безопасное предобучение за счет максимизации покрытия состояний в пространстве состояний, используя обученную модель мира для оценки покрытия без оценки плотности или энтропии. Оно вводит виртуальный статус-связи для балансировки исследования известных и неизвестных областей, достигая более равномерного покрытия и лучшей производительности в задачах навигации в табличных и пиксельных форматах.

arxiv arXiv cs.LG · 19 ч назад

TeaNet улучшает обучение с небольшим количеством примеров в вибрационной спектроскопии

TeaNet, усиленный с точки зрения задачи, восстанавливает спектры, случайно скрытые, для генерации усредненных образцов, сохраняющих исходные спектральные особенности при введении специфических для области вариаций. Этот подход позволяет глубоким нейронным сетям более эффективно выявлять дискриминантные волновые числа, превосходя CNN на 17% в сложных синтетических сценариях и обеспечивая улучшенную интерпретируемость в задачах обучения с небольшим количеством примеров.