Все статьи — korshunov.ai

Все статьи Страница 1 / 130

Ли-алгебраическое внимание: токены элементов группы в нейронных сетях

Ли-алгебраическое внимание вводит токены как элементы матричных групп Ли, используя замкнутую алгебраическую норму относительных положений как оценки внимания. Метод достигает инвариантного и эквивариантного внимания без компонент теории представлений, превосходя векторные базовые модели на SE(2), SO(3) и Aff(2) с меньшим количеством параметров и без обучаемых ядер.

arxiv arXiv cs.LG · 13 д назад

Определённая многокалибровка с оптимальной сложностью выборки

Новый алгоритм достигает оптимальной сложности выборки в минимаксном смысле для многокалибровки с использованием определённых предикторов, решая долговременную открытую проблему. Метод также генерирует определённые предикторы, удовлетворяющие условию неотличимости результатов, и позволяет построить оптимальные определённые универсальные предикторы и универсальные предикторы, решая открытые вопросы из предыдущих работ.

arxiv arXiv cs.LG · 13 д назад

UNIEGO: Прокси-среди единая эгоцентрическая видеопредставление

UNIEGO вводит иерархическую многоклассовую систему дистилляции, использующую прокси-модели для медиации передачи знаний из девяти различных учителей по точкам зрения и модальностям. Этап селективной дистилляции прокси (SPD) адаптивно выбирает надежные прокси во время обучения, улучшая качество и стабильность представлений. UNIEGO достигает лучших результатов в распознавании действий, поиске видео и сегментации действий на базовых данных эго-экзо.

arxiv arXiv cs.LG · 13 д назад

На сколько прозрачна DiffusionGemma?

DiffusionGemma имеет плохую прозрачность переменных из-за высокой степени прозрачности последовательности, но это может быть уменьшено за счёт интерпретируемого барьера токенов, снижая глубину последовательности до 1,1 раза глубины Gemma 4. Прозрачность алгоритмов в моделях диффузии является более сложной из-за динамических изменений токенов, хотя исследования случаев выявили новые явления, такие как нехронологическое мышление и мышление в промежуточном контексте. DiffusionGemma оказалась подобной по мониторируемости Gemma 4.

arxiv arXiv cs.CL · 13 д назад

Датасет RefRad2D обеспечивает масштабируемую пространственную анатомическую опору в рентгенологии

RefRad2D — это масштабный билингвальный датасет из 1,2 млн пар изображений КТ и МРТ и текстов из клинической практики. Обученный на этом данных, RadGrounder достигает конкурентоспособных результатов в задаче визуального вопроса-ответа и обеспечивает пространственную опору без ухудшения качества языковой обработки, что позволяет получать проверяемые выводы в рентгенологии.

arxiv arXiv cs.CL · 13 д назад

Совмещение LLM с использованием скрытой обратной связи пользователя

Новый набор данных IFLLM собирает данные о перемещении мыши и взгляде пользователя при взаимодействии с LLM. Он показывает, что скрытая обратная связь значительно улучшает выравнивание LLM, повышая точность текстовых моделей вознаграждения с 55% до 64% и почти утрачивая качество ответов после обучения DPO на восьми LLM.

arxiv arXiv cs.CL · 13 д назад

H-RePlan: иерархическое восстановление для систем агентов на разных устройствах

H-RePlan вводит иерархическую систему перепланирования, которая разделяет восстановление стратегии на уровне устройства и перепланирование на глобальном уровне. Оно превосходит существующие базовые варианты, достигая более высокого уровня завершения и соблюдения инструкций, при снижении затрат на токены, за счёт восстановления с учётом области в системах агентов на нескольких устройствах.

arxiv arXiv cs.CL · 13 д назад

StylisticBias: Визуальные подсказки определяют большинство социальных предвзятостей в МЛЛМ

StylisticBias представляет контролируемую метрику для оценки социальных предвзятостей на уровне атрибутов в мультимодальных больших языковых моделях. Исследование показывает, что возраст и тип тела доминируют в эффектах на уровне идентичности, в то время как стиль моды и 15 ключевых визуальных атрибутов определяют большинство предвзятостей, что объясняет почти 80% вариации. Метрика подчеркивает, что суждения моделей наиболее чувствительны к визуальным подсказкам, особенно в контекстах, связанных с экономическим положением и стилем.

arxiv arXiv cs.CL · 13 д назад

LedgerAgent: структурированный статус для агентов вызова инструментов, соблюдающих политику

LedgerAgent вводит структурированный журнал для поддержания состояний задач отдельно в агентах вызова инструментов. Он превращает эти состояния в промпты и обеспечивает соблюдение политических ограничений до выполнения инструмента, что снижает нарушения политики и улучшает производительность в областях обслуживания клиентов.

media r/LocalLLaMA · 13 д назад

Исследование возможности использования Tesla P40 с улучшенным системой охлаждения

Пользователь продемонстрировал, что видеокарты Tesla P40 можно модифицировать в конфигурацию 8+6pin и использовать совместно с стандартными охладителями 1080 TI. Они разработали обтекатель с воздушным потоком 2-1-2, который обеспечивает стабильную производительность в диапазоне 120–130 Вт, предотвращает перегрев и снижает шум до примерно 42 дБ, что значительно превосходит существующие решения по охлаждению.

github llama.cpp · 13 д назад

llama.cpp release b9711: new binaries and updates

llama.cpp выпускает версию b9711 с обновленными бинарниками для macOS, Linux, Android, Windows и openEuler. В релизе включена поддержка ARM64, x64, Vulkan, ROCm, OpenVINO, SYCL и HIP, с отдельными бинарниками для ускорения на CPU и GPU. Также доступен новый пакет интерфейса.

github llama.cpp · 13 д назад

llama.cpp release b9712 исправляет сборку интерфейса при наличии файлов только для чтения

Версия llama.cpp b9712 включает исправление проблем с сборкой интерфейса, вызванных файлами исходного кода только для чтения. Релиз предоставляет предварительно скомпилированные бинарники для macOS, Linux, Android, Windows и openEuler на разных архитектурах и вариантах ускорения аппаратного обеспечения, включая Vulkan, CUDA, OpenVINO и SYCL.

media r/LocalLLaMA · 13 д назад

SETI @ Home как распределённая система инференса LLM?

Проект SETI @ Home использует распределённые вычисления для анализа данных радиотелескопов. Нет известной существующей системы, функционирующей как распределённая система инференса LLM под таким названием. Предлагается построить такую систему, но она остаётся спекулятивной и не реализованной.

arxiv arXiv cs.AI · 13 д назад

AI Экономист-агент: Кадровая аналитическая платформа в области экономики

AI Экономист-агент использует RAG, графы знаний и ЛЛМ для генерации экономических историй, основанных на теории и данных. Он обеспечивает аналитику на основе моделей, извлечение доказательств и генерацию отчетов, гарантируя экономическую согласованность и отслеживаемость через явные вычисления моделей.

arxiv arXiv cs.AI · 13 д назад

See-and-Reach: Vision-Language Navigation for UAVs in Field of View

UAV-VLN-FOV isolates the see-and-reach stage for precise evaluation of UAV navigation. 3DG-VLN enhances visual grounding and spatial alignment using dynamic 3D direction cues, achieving a 13.82% success rate improvement over baselines and validated in real-world trials.

arxiv arXiv cs.AI · 13 д назад

Управление задачами снижает задержку очереди на 14-75% на масштабе предприятия

Управление задачами вводит инференс приоритета, объединение связанных событий и прерывание, чтобы обеспечить непрерывную работу в корпоративной ИИ. Оно снижает задержку высокоприоритетных очередей на 14-77% и улучшает точность связанных событий более чем на 20 процентных пунктов на масштабе предприятия, решая шум при открытии агентов как основной барьер.

arxiv arXiv cs.AI · 13 д назад

Лёгкий как процесс-верифицированный оракул вознаграждения в RL для доказательства теорем

Эта работа показывает, что Lean может служить симметрическим оракулом процесса, предоставляя детализированные, верифицированные сигналы обратной связи во время обучения с усилением. Разбивая попытки доказательства на последовательности тактик и используя элаборацию Lean для выделения корректных шагов и первых сбоев, система генерирует плотные сигналы вознаграждения, основанные на типовой теории. Эксперименты демонстрируют, что надзор на уровне тактик превосходит методы, основанные только на результатах, на бенчмарках, таких как MiniF2F и ProofNet, что подчёркивает роль Lean как оценщика и источника вознаграждения для обучения.

arxiv arXiv cs.AI · 13 д назад

EEG Foundation Models для обнаружения всплесков-подавления в отделении интенсивной терапии

Исследование оценивает использование EEG Foundation Models для обнаружения всплесков-подавления на основе событий в условиях отделения интенсивной терапии без калибровки, специфичной для пациента. REVE-base достиг высшего значения F1-с코ра на основе событий — 0,868, и сократил ошибку всплесков в минуту на 52,1% по сравнению с EEGNet и на 36,2% по сравнению с адаптивным порогом, что демонстрирует превосходную производительность. Результаты аблации показывают, что полная мелкая настройка превосходит другие стратегии, а предобученный REVE-base превосходит случайную инициализацию на 0,723 пункта F1 при 25% обучающих данных, что подчеркивает ценность предобучения для ограниченных наборов данных.

arxiv arXiv cs.AI · 13 д назад

Изучаемое глобальное слияние для переменной длины токенизации в трансформерах диффузии

Новый токенизатор с переменной длиной использует изучаемое глобальное слияние для обеспечения сопоставления представлений разной длины в моделях диффузии. Этот подход, независимый от данных, преодолевает позиционные семантики и улучшает соотношение качества и вычислительных затрат при генерации изображений ImageNet 256×25-6 по сравнению с предыдущими методами.

arxiv arXiv cs.AI · 13 д назад

Скрытая эволюция скрытого визуального контекста в моделях с визуальным языком

Визуальные токены поступают в большие языковые модели в виде первичных, неструктурированных сигналов. Их внутреннее преобразование и интеграция зависят от архитектуры — либо как встроенные контекстные запросы, либо как вводимые в промежуточные слои — что приводит к различным путям эволюции визуальных представлений и характеристик частоты. Мы обнаруживаем, что внимание само по себе недостаточно; производительность определяется качеством визуальных представлений на каждом слое в различных схемах интеграции.