Все статьи — korshunov.ai

Все статьи Страница 1 / 122

PHANTOM: Крупномасштабный набор данных мультимодальных атак противника для моделей зрения и языка

Исследователи представили PHANTOM, крупномасштабный набор данных с открытым исходным кодом, содержащий 47 524 предварительно сгенерированных атак противника, предназначенных для оценки безопасности и устойчивости моделей зрения и языка (VLM). Этот ресурс консолидирует и расширяет предыдущие бенчмарки, охватывая 10 высокоуровневых категорий и 55 подкатегорий вредоносных намерений, стремясь снизить вычислительные барьеры для исследований в области атак противника.

arxiv arXiv cs.AI · 6 ч назад

Female-RHINO: Система для автоматизированного анализа МРТ матки с интеграцией в сканер в реальном времени

В данной статье представлена Female-RHINO — система в реальном времени, использующая ИИ и интегрирующаяся с МРТ-сканерами для проведения автоматизированного количественного анализа матки и структурированной отчетности во время получения изображений. Система объединяет модели глубокого обучения для сегментации и обнаружения ориентиров, чтобы извлекать биомаркеры из сагиттальных T2-взвешенных МРТ-изображений малого таза без ручного вмешательства.

arxiv arXiv cs.AI · 6 ч назад

Эра LLM: Стратегический бенчмарк 1v1 для рассуждений, дипломатии и надёжности

Авторы представляют Age of LLM, пошаговый бенчмарк 1v1, в котором две большие языковые модели соревнуются на сетке 13x7, чтобы уничтожить базу противника в условиях тумана войны и полной дипломатии. Этот приватный движок смягчает загрязнение данных за счёт использования свежих случайных семян карт и оппонентов для каждого матча.

arxiv arXiv cs.AI · 6 ч назад

ATRIA: Адаптивная прослеживаемая генерация отчетов ЭКГ с использованием итеративных агентов

В статье представлена ATRIA — многоагентная система для формирования отчетов по ЭКГ, которая устраняет ограничения существующих моделей «от конца к концу» и однопроходных агентов за счет имитации итеративного рабочего процесса клинициста.

arxiv arXiv cs.AI · 6 ч назад

Средние ранговые маски субъективной оптимальности: бенчмарк Фридмана-Немени для декодеров БКИ моторной визуализации ЭЭГ

В данном исследовании оценивается, доминирует ли какой-либо один конвейер декодирования среди субъектов в интерфейсах мозг-компьютер на основе моторной визуализации путем тестирования 1056 конфигураций на трех публичных наборах данных с использованием строгих статистических бенчмарков.

arxiv arXiv cs.AI · 6 ч назад

Разрешение сущностей через пакетные запросы к оракулу

В данной статье рассматривается проблема разрешения сущностей в больших наборах данных с использованием оракула, который группирует записи ограниченными пакетами, стремясь к модели оплаты по факту использования для контроля затрат при максимизации полноты.

arxiv arXiv cs.AI · 6 ч назад

Агентный ИИ для двухуровневой долгосрочной оптимизации систем физического уровня с управлением политиками

В данной статье представлен Agentic-LTPO — вложенная двухуровневая структура оптимизации, предназначенная для преодоления ограничений методов с фиксированной целевой функцией в системах физического уровня, сталкивающихся с динамическими политиками операторов и ограничениями реального времени. Структура использует агентный ИИ для генерации конфигураций верхнего уровня, которые преобразуют изменяющиеся политики и исторический опыт в структурированные задачи нижнего уровня для принятия решений в реальном времени.

media r/LocalLLaMA · 6 ч назад

Second Circuit: НКО за цифровую свободу мысли

Крис Тидессон объявляет о создании Second Circuit — НКО, посвящённой поддержке самостоятельного использования ИИ и поощрению внедрения программного обеспечения с открытым исходным кодом среди правительств, компаний и частных лиц. Организация была изначально создана в ответ на ситуацию с ChatGPT 4o и уже более шести месяцев поддерживает Discord-сообщество.

media r/LocalLLaMA · 6 ч назад

о заявлении Дарио

Этот пост на Reddit из сообщества r/LocalLLaMA обсуждает заявление, сделанное Дарио Амодеи. Контент ограничен заголовком и метаданными, без подробного текста или анализа в источнике.

arxiv arXiv cs.AI · 7 ч назад

Могут ли агрегированные инварианты ускорить непрерывное сопоставление подграфов? Пределы, законы и динамический спектральный индекс

В данном исследовании оценивается, может ли спектральная фильтрация ускорить непрерывное сопоставление подграфов (CSM) на динамических графах; установлено, что хотя ленивое обслуживание неэффективно, селективное точное обслуживание обеспечивает значительный прирост производительности.

arxiv arXiv cs.AI · 7 ч назад

Обнаружение ИИ-агентов для программирования в открытых исходных кодах: проверенная многометодная перепись 180 миллионов репозиториев

Многоуровневая система обнаружения, анализирующая 180 миллионов Git-репозиториев, показывает, что методы с одним сигналом значительно недооценивают распространенность генеративных ИИ-агентов для программирования, упуская до 97% активности. Исследование выявляет более 320 000 коммитов в месяц от агентов, таких как Claude Code, который доминирует в скрытом внедрении через конфигурационные файлы, а не через бот-аккаунты.

arxiv arXiv cs.AI · 7 ч назад

Поведение трансформаций изображений в латентном пространстве

В данной работе исследуется, как классические трансформации изображений влияют на эмбеддинги в латентном пространстве с использованием энкодеров от компаний Lunit Inc., Bioptimus и исследовательской группы Meta.

arxiv arXiv cs.AI · 7 ч назад

MedPCFM: Улучшение завершения медицинских точечных облаков путём интеграции Point Transformer и Flow Matching

В статье представлен PCFM — подход на основе flow matching для завершения медицинских точечных облаков, интегрирующий Point Transformer v3 (PTv3) для решения проблемы недостаточно изученного генеративного моделирования в данной области. Метод оценивается на наборах данных SkullFix, SkullBreak и Mandibular Defect по сравнению с сильными детерминированными и диффузионными базовыми моделями.

arxiv arXiv cs.AI · 7 ч назад

ReM-MoA: Память рассуждений поддерживает масштабирование Mixture-of-Agents

Авторы предлагают ReM-MoA, фреймворк Mixture-of-Agents с дополненной памятью, предназначенный для поддержания прироста производительности по мере увеличения глубины модели, решая проблемы деградации и насыщения, обнаруженные в существующих вариантах. Система использует Ранжированную Память Рассуждений (Ranked Reasoning Memory) и схему маршрутизации Curated Diversified Memory Routing для сохранения разнообразия исследования при распространении высококачественных трасс рассуждений через слои.

arxiv arXiv cs.AI · 7 ч назад

NoContactNoWorries: Оценка контакта через зрение и проприоцепцию для ловкой манипуляции в руке

Исследователи предлагают NoContactNoWorries, основанную на трансформерах систему, которая выводит бинарные состояния контакта во время манипуляции в руке путем слияния RGB-D зрения с проприоцепцией робота. Этот подход служит масштабируемым псевдо-тактильным сигналом, избегая затрат и хрупкости, связанных с выделенными аппаратными тактильными датчиками.

arxiv arXiv cs.AI · 7 ч назад

Байесовский контроль для агентов по написанию кода

В данной статье представлен байесовский контроллер для оркестрации современных агентов по написанию кода, решающий ограничения систем с фиксированными правилами, которые игнорируют неопределённость при использовании инструментов.

media r/LocalLLaMA · 7 ч назад

Что случилось с Petals (децентрализованными выводами) от BigScience?

Предоставленный исходный контент представляет собой ссылку на публикацию в Reddit и не содержит текста статьи или деталей обсуждения.

media r/LocalLLaMA · 7 ч назад

Пользователь Reddit предлагает OpenAI выпустить GPT-OSS-2 для противодействия IPO Anthropic

Пользователь Reddit предлагает OpenAI запустить мощную модель с открытым исходным кодом, названную GPT-OSS-2, совпавшую по времени с предстоящим IPO Anthropic.

media r/LocalLLaMA · 7 ч назад

Qwen3-tts.cpp и графический интерфейс Compose Desktop для локального синтеза речи

Разработчик выпустил оптимизированную реализацию на C++ для Qwen3-TTS, обеспечивающую скорость около 5x в реальном времени на RTX 5080, а также кроссплатформенный десктопный GUI, созданный с помощью Kotlin Compose Multiplatform. Проект предоставляет инференс на базе GGML, поддерживающий выполнение как на CPU, так и на CUDA в Windows и Linux.

arxiv arXiv cs.AI · 8 ч назад

Африканский языковой налог: количественная оценка стоимости, задержки и контекстного штрафа при токенизации африканских языков в передовых LLM

Исследование количественно оценивает структурный штраф за токенизацию, с которым сталкиваются африканские языки в коммерческих больших языковых моделях, показывая, что пользователи платят больше и испытывают большую задержку из-за неэффективного назначения подслов. Для 20 африканских языков и 11 передовых токенизаторов каждый протестированный язык имеет премию по сравнению с английским, медианные затраты достигают 1,88 раза от английского и до 8,92 раза для скрипта Нко.