Все статьи — korshunov.ai

Все статьи Страница 1 / 122

О стабильности ранжирования промптов при оценке больших языковых моделей

В данной работе систематически исследуется стабильность ранжирования промптов под воздействием типичных источников изменчивости, таких как случайные семена и ограниченные подмножества данных для оценки, на примере трех LLM с открытым весом и двух задач бенчмарков.

arxiv arXiv cs.AI · 6 ч назад

Циклически согласованное нейронное объяснение сертификатов формальной верификации

Исследователи предлагают циклически согласованную нейронную архитектуру, которая генерирует достоверные естественные языковые объяснения для сертификатов формальной верификации, устраняя непрозрачность этих проверяемых машиной доказательств для неспециалистов. Система достигает 90,0% циклически проверенной корректности на тестовых данных из домена финансового комплаенса, значительно превосходя много-LLM базовые модели как по точности, так и по скорости вывода.

media r/LocalLLaMA · 6 ч назад

Ornith 35B работает достаточно хорошо с Qwen3.6 35B DFlash в режиме спекулятивного моделирования

Пользователь сообщает о повышении скорости генерации токенов на 30-40% за счёт использования модели Ornith-1.0-35B в качестве черновой модели вместе с Qwen3.6-35B-A3B-DFlash через llama-server.

arxiv arXiv cs.AI · 7 ч назад

PHANTOM: Крупномасштабный набор данных мультимодальных атак противника для моделей зрения и языка

Исследователи представили PHANTOM, крупномасштабный набор данных с открытым исходным кодом, содержащий 47 524 предварительно сгенерированных атак противника, предназначенных для оценки безопасности и устойчивости моделей зрения и языка (VLM). Этот ресурс консолидирует и расширяет предыдущие бенчмарки, охватывая 10 высокоуровневых категорий и 55 подкатегорий вредоносных намерений, стремясь снизить вычислительные барьеры для исследований в области атак противника.

arxiv arXiv cs.AI · 7 ч назад

Female-RHINO: Система для автоматизированного анализа МРТ матки с интеграцией в сканер в реальном времени

В данной статье представлена Female-RHINO — система в реальном времени, использующая ИИ и интегрирующаяся с МРТ-сканерами для проведения автоматизированного количественного анализа матки и структурированной отчетности во время получения изображений. Система объединяет модели глубокого обучения для сегментации и обнаружения ориентиров, чтобы извлекать биомаркеры из сагиттальных T2-взвешенных МРТ-изображений малого таза без ручного вмешательства.

arxiv arXiv cs.AI · 7 ч назад

Эра LLM: Стратегический бенчмарк 1v1 для рассуждений, дипломатии и надёжности

Авторы представляют Age of LLM, пошаговый бенчмарк 1v1, в котором две большие языковые модели соревнуются на сетке 13x7, чтобы уничтожить базу противника в условиях тумана войны и полной дипломатии. Этот приватный движок смягчает загрязнение данных за счёт использования свежих случайных семян карт и оппонентов для каждого матча.

arxiv arXiv cs.AI · 7 ч назад

ATRIA: Адаптивная прослеживаемая генерация отчетов ЭКГ с использованием итеративных агентов

В статье представлена ATRIA — многоагентная система для формирования отчетов по ЭКГ, которая устраняет ограничения существующих моделей «от конца к концу» и однопроходных агентов за счет имитации итеративного рабочего процесса клинициста.

arxiv arXiv cs.AI · 7 ч назад

Средние ранговые маски субъективной оптимальности: бенчмарк Фридмана-Немени для декодеров БКИ моторной визуализации ЭЭГ

В данном исследовании оценивается, доминирует ли какой-либо один конвейер декодирования среди субъектов в интерфейсах мозг-компьютер на основе моторной визуализации путем тестирования 1056 конфигураций на трех публичных наборах данных с использованием строгих статистических бенчмарков.

arxiv arXiv cs.AI · 7 ч назад

Разрешение сущностей через пакетные запросы к оракулу

В данной статье рассматривается проблема разрешения сущностей в больших наборах данных с использованием оракула, который группирует записи ограниченными пакетами, стремясь к модели оплаты по факту использования для контроля затрат при максимизации полноты.

arxiv arXiv cs.AI · 7 ч назад

Агентный ИИ для двухуровневой долгосрочной оптимизации систем физического уровня с управлением политиками

В данной статье представлен Agentic-LTPO — вложенная двухуровневая структура оптимизации, предназначенная для преодоления ограничений методов с фиксированной целевой функцией в системах физического уровня, сталкивающихся с динамическими политиками операторов и ограничениями реального времени. Структура использует агентный ИИ для генерации конфигураций верхнего уровня, которые преобразуют изменяющиеся политики и исторический опыт в структурированные задачи нижнего уровня для принятия решений в реальном времени.

media r/LocalLLaMA · 7 ч назад

Second Circuit: НКО за цифровую свободу мысли

Крис Тидессон объявляет о создании Second Circuit — НКО, посвящённой поддержке самостоятельного использования ИИ и поощрению внедрения программного обеспечения с открытым исходным кодом среди правительств, компаний и частных лиц. Организация была изначально создана в ответ на ситуацию с ChatGPT 4o и уже более шести месяцев поддерживает Discord-сообщество.

media r/LocalLLaMA · 7 ч назад

о заявлении Дарио

Этот пост на Reddit из сообщества r/LocalLLaMA обсуждает заявление, сделанное Дарио Амодеи. Контент ограничен заголовком и метаданными, без подробного текста или анализа в источнике.

arxiv arXiv cs.AI · 8 ч назад

Могут ли агрегированные инварианты ускорить непрерывное сопоставление подграфов? Пределы, законы и динамический спектральный индекс

В данном исследовании оценивается, может ли спектральная фильтрация ускорить непрерывное сопоставление подграфов (CSM) на динамических графах; установлено, что хотя ленивое обслуживание неэффективно, селективное точное обслуживание обеспечивает значительный прирост производительности.

arxiv arXiv cs.AI · 8 ч назад

Обнаружение ИИ-агентов для программирования в открытых исходных кодах: проверенная многометодная перепись 180 миллионов репозиториев

Многоуровневая система обнаружения, анализирующая 180 миллионов Git-репозиториев, показывает, что методы с одним сигналом значительно недооценивают распространенность генеративных ИИ-агентов для программирования, упуская до 97% активности. Исследование выявляет более 320 000 коммитов в месяц от агентов, таких как Claude Code, который доминирует в скрытом внедрении через конфигурационные файлы, а не через бот-аккаунты.

arxiv arXiv cs.AI · 8 ч назад

Поведение трансформаций изображений в латентном пространстве

В данной работе исследуется, как классические трансформации изображений влияют на эмбеддинги в латентном пространстве с использованием энкодеров от компаний Lunit Inc., Bioptimus и исследовательской группы Meta.

arxiv arXiv cs.AI · 8 ч назад

MedPCFM: Улучшение завершения медицинских точечных облаков путём интеграции Point Transformer и Flow Matching

В статье представлен PCFM — подход на основе flow matching для завершения медицинских точечных облаков, интегрирующий Point Transformer v3 (PTv3) для решения проблемы недостаточно изученного генеративного моделирования в данной области. Метод оценивается на наборах данных SkullFix, SkullBreak и Mandibular Defect по сравнению с сильными детерминированными и диффузионными базовыми моделями.

arxiv arXiv cs.AI · 8 ч назад

ReM-MoA: Память рассуждений поддерживает масштабирование Mixture-of-Agents

Авторы предлагают ReM-MoA, фреймворк Mixture-of-Agents с дополненной памятью, предназначенный для поддержания прироста производительности по мере увеличения глубины модели, решая проблемы деградации и насыщения, обнаруженные в существующих вариантах. Система использует Ранжированную Память Рассуждений (Ranked Reasoning Memory) и схему маршрутизации Curated Diversified Memory Routing для сохранения разнообразия исследования при распространении высококачественных трасс рассуждений через слои.

arxiv arXiv cs.AI · 8 ч назад

NoContactNoWorries: Оценка контакта через зрение и проприоцепцию для ловкой манипуляции в руке

Исследователи предлагают NoContactNoWorries, основанную на трансформерах систему, которая выводит бинарные состояния контакта во время манипуляции в руке путем слияния RGB-D зрения с проприоцепцией робота. Этот подход служит масштабируемым псевдо-тактильным сигналом, избегая затрат и хрупкости, связанных с выделенными аппаратными тактильными датчиками.

arxiv arXiv cs.AI · 8 ч назад

Байесовский контроль для агентов по написанию кода

В данной статье представлен байесовский контроллер для оркестрации современных агентов по написанию кода, решающий ограничения систем с фиксированными правилами, которые игнорируют неопределённость при использовании инструментов.

media r/LocalLLaMA · 8 ч назад

Что случилось с Petals (децентрализованными выводами) от BigScience?

Предоставленный исходный контент представляет собой ссылку на публикацию в Reddit и не содержит текста статьи или деталей обсуждения.