Все статьи — korshunov.ai

Все статьи Страница 1 / 116

STAITUS: Разделение внешнего вида и позы для отслеживания объектов на видео

В статье представлен STAITUS — унифицированная система для обучения без учителя при отслеживании объектов на видео, которая устраняет ограничения существующих слотовых представлений за счёт явного разделения внешнего вида и геометрической позы. Применяя временное выравнивание только в пространстве признаков (appearance space) и обеспечивая пространственное разделение внутри кадров, метод предотвращает «застревание» слотов на статичном фоне при движении.

arxiv arXiv cs.LG · 4 ч назад

Что знает химическая языковая модель о молекулах?

В данном исследовании применяются разреженные автоэнкодеры к MolFormer для механистического изучения того, как строятся представления молекул на разных слоях, что ставит под сомнение предположение о том, что химические языковые модели изучают только поверхностный синтаксис.

arxiv arXiv cs.LG · 4 ч назад

SkyJEPA: Обучение долгосрочных моделей мира для бесконтактного переноса из симуляции в реальность при управлении квадрокоптерами

В данной работе представлена SkyJEPA — модель в стиле JEPA, разработанная для управления квадрокоптерами в реальном времени и решающая проблемы усиления ошибок, присущие авторегрессионному долгосрочному прогнозированию. Подход объединяет модель латентной динамики с физически мотивированным пробером для отображения замороженных латентных переменных в интерпретируемые состояния, что обеспечивает предсказания, основанные на физических принципах.

arxiv arXiv cs.LG · 4 ч назад

Свёрнутые эффективные операторы для структур высшего порядка

Авторы представляют метод Свёрнутых эффективных операторов (Collapsed Effective Operators), который сжимает степени свободы высшего порядка в единый вершинный оператор с помощью дополнения Шура градуированного лапласиана. Этот подход даёт плотный оператор, кодирующий дальнодействующие взаимодействия, опосредованные топологией, и применим к произвольным конструкциям высшего порядка.

media r/LocalLLaMA · 4 ч назад

Официальная версия DeepSeek V4 будет выпущена в середине июля

Электронное письмо, отправленное от DeepSeek, указывает на то, что официальная версия DeepSeek V4 запланирована к выпуску в середине июля. Эта информация была распространена через переведенное изображение, изначально доступное только для пользователей из Китая.

media r/LocalLLaMA · 4 ч назад

Медленная работа Unsloth Gemma 12B Q8

Пользователь сообщает о значительном падении скорости инференса при переключении с GPT-OSS 20B Q4 на Gemma 4 12B Q8 с использованием llama.cpp, при этом пропускная способность упала примерно с 70 токенов в секунду до 10 токенов в секунду. Проблема сохраняется даже при тестировании варианта модели Q5 и отключении функции мышления, что дало лишь незначительный прирост в два дополнительных токена в секунду.

github llama.cpp · 4 ч назад

Выпуск llama.cpp b9839 с исправлением сканирования Tailwind и мультиплатформенными бинарниками

Проект llama.cpp выпустил версию b9839, которая включает исправление для восстановления сканирования Tailwind в игнорируемых worktrees. Это обновление предоставляет предварительно собранные бинарные файлы для macOS, Linux, Android, Windows и openEuler для различных архитектур и бэкендов аппаратного ускорения.

lab OpenAI News · 4 ч назад

Картирование возможностей для рабочей силы ЕС в сфере ИИ

Исследовательская группа OpenAI по экономике расширила свою «Рамочную модель перехода рабочих мест на базе ИИ» на Европейский Союз, используя таксономию ESCO и данные Евростата для анализа того, как возможности ИИ могут изменить рынки труда в государствах-членах.

arxiv arXiv cs.LG · 5 ч назад

Селективное прогнозирование временных рядов с помощью метабучения

В данной статье представлен фреймворк селективного прогнозирования, который позволяет моделям воздерживаться от высокорисковых предсказаний путем моделирования эмпирического перцентиля ошибок прогнозирования через метабучение. Используя инвариантные к масштабу статистики, полученные из недавних лагов, метод разделяет решения об отказе от прогноза и сами прогнозы, что обеспечивает перенос между гетерогенными временными рядами.

arxiv arXiv cs.LG · 5 ч назад

Улавливают ли кодировщики локаций пространственные эффекты? Бенчмарк GeoShapley на разных масштабах

В данном исследовании проводится бенчмарк того, может ли GeoShapley, объяснитель на основе теории игр, восстанавливать пространственно изменяющиеся коэффициенты из моделей машинного обучения с использованием эмбеддингов кодировщиков локаций. Одиннадцать кодировщиков из фреймворка TorchSpatial были оценены на синтетическом процессе с известными коэффициентами в масштабах сетки, округа и глобальном.

arxiv arXiv cs.LG · 5 ч назад

Классификация временных рядов с помощью диффеоморфного выравнивания времени (DiffTW)

В статье представлен диффеоморфное выравнивание времени (DiffTW), теоретическая основа для классификации временных рядов, которая учит отображения между вещественнозначными функциями, чтобы преодолеть ограничения дискретного сопоставления точек динамического выравнивания времени (DTW). DiffTW аппроксимирует диффеоморфные преобразования с помощью метода характеристик для решения линейных уравнений переноса, обеспечивая теоретически обоснованную меру несовпадения.

arxiv arXiv cs.LG · 5 ч назад

Глубокие нейронные сети с сублинейной структурой обеспечивают согласованность обучения признаков для композиционных функций

В данном исследовании установлены гарантии согласованности обучения признаков для широкого подкласса глубоких нейронных сетей, характеризующихся сублинейным ростом входных/выходных размерностей и количества скрытых нейронов относительно размера выборки. Авторы доказывают, что такие архитектуры обеспечивают универсальную аппроксимацию для иерархически композиционных функций, даже в рамках традиционного режима избыточной параметризации, где количество параметров превышает количество обучающих примеров.

arxiv arXiv cs.LG · 5 ч назад

TROPT: Открытая платформа для унификации и развития дискретной оптимизации текста

TROPT представлен как первая открытая платформа, объединяющая оптимизацию текстовых триггеров путем стандартизации выполнения и разработки в едином интерфейсе. Она решает проблему фрагментации, позволяя пользователям настраивать сквозные рецепты оптимизации с помощью взаимозаменяемых моделей, целевых функций и оптимизаторов.

arxiv arXiv cs.LG · 5 ч назад

FLKit: структурированный инструмент онбординга для федеративного обучения в здравоохранении

FLKit — это открытый, поддерживаемый сообществом инструмент онбординга, предназначенный для помощи междисциплинарным командам в прохождении жизненного цикла федеративного обучения в исследованиях в области здравоохранения и наук о жизни. Он предоставляет ориентированные на роли точки входа для клинических специалистов, юристов, экспертов по управлению и технических участников, устраняя практические барьеры, связанные с разрозненными фреймворками и обязательствами по управлению.

arxiv arXiv cs.LG · 5 ч назад

FairBED: Байесовский подход к экспериментальному дизайну для сбора более справедливых данных

В статье представлен FairBED — фреймворк, который изменяет сам процесс сбора данных, чтобы получать изначально более справедливые данные, устраняя предвзятость, присутствующую в существующих наборах данных. Он предлагает новые формулировки для количественной оценки справедливости наборов данных на основе принципа, согласно которому справедливые наборы данных не должны содержать информации о чувствительных атрибутах.

media r/LocalLLaMA · 5 ч назад

DeepSeek V4 от am17an · Pull Request #24162 · ggml-org/llama.cpp

Запрос на слияние, отправленный в репозиторий ggml-org/llama.cpp, позволяет локально запускать модель DeepSeek V4.

arxiv arXiv cs.CL · 5 ч назад

DMV-Bench: Диагностика визуальной памяти мультимодальных агентов с длинным горизонтом через инъекцию инцидентальных подсказок

Исследователи представляют DMV-Bench, первый интерактивный бенчмарк, разработанный для оценки визуальной памяти мультимодальных агентов в контролируемых условиях. В исследовании предлагается DualMem — архитектура параллельной визуальной и вербальной памяти, которая значительно превосходит существующие системы на этом новом диагностическом инструменте.

arxiv arXiv cs.LG · 6 ч назад

Concordia: JIT-компилируемая постоянная ядро-ориентированная контрольная точка для отказоустойчивого вывода LLM

В данной статье представлена Concordia, среда выполнения, предназначенная для обеспечения отказоустойчивости долгоживущих агентов LLM за счет сохранения ценного состояния на GPU без перезапуска стека обслуживания. Система использует постоянное ядро, residing на устройстве, которое перехватывает загрузку модулей GPU для поддержки инструментирования на уровне PTX и SASS.

media r/LocalLLaMA · 6 ч назад

GLM 5.2 Q1_S против Qwen 27B Q8: локальное сравнение LLM

Любительское сравнение на потребительском оборудовании показывает, что сильно квантованная GLM-5.2 (Q1_S) превосходит модель более высокого бита Qwen 3.6 27B (Q8) в сложной задаче программирования, несмотря на значительно более низкую скорость вывода.

media r/LocalLLaMA · 6 ч назад

Пользователь Reddit ищет яркий, функционально насыщенный интерфейс чата с ИИ вместо минималистичных вариантов

Пользователь Reddit просит рекомендации по «ярким» и насыщенным функциями интерфейсам чата, конкретно сравнивая LibreChat и OpenWebUI, для технически подкованного, но не разбирающегося в ИИ друга.