Все статьи — korshunov.ai

Все статьи Страница 1 / 118

GRINQH: Иерархия квантования на основе градации входных данных для эффективной генерации LLM

Исследователи предлагают GRINQH, фреймворк постобучающего квантования только весов, который ускоряет декодирование больших языковых моделей за счёт объединения квантования и разреженности. Метод динамически назначает каналы весов разным уровням точности на основе величин активаций, решая проблему ограниченности памяти на этапе декодирования.

media r/LocalLLaMA · 6 ч назад

Есть ли хорошие варианты использования сервера с 192 ГБ DDR3 в мире LLM?

Пользователь Reddit спрашивает о вариантах использования старого сервера IBM System X V4, оснащённого двумя процессорами Xeon E5-2640 и 192 ГБ ОЗУ DDR3 ECC для больших языковых моделей.

media r/LocalLLaMA · 6 ч назад

Как улучшить время отклика, кэшируя системный промпт?

Пользователь на r/LocalLLaMA спрашивает, как сократить примерно 10-секундное время обработки системного промпта длиной в 7.1k токенов для каждой новой сессии при использовании Ornith 35b с llama.cpp.

media r/LocalLLaMA · 6 ч назад

Возможно ли создание вредоносной LLM с бэкдором

Пользователь Reddit предлагает возможность обучения больших языковых моделей распознаванию конкретного секретного предложения, которое активирует вредоносное поведение, что вызывает опасения относительно рисков безопасности как для закрытых, так и для моделей с открытым исходным кодом.

media r/LocalLLaMA · 6 ч назад

Официальный запуск Deepseek V4 состоится в середине июля с изменениями цен на API

Пост в сообществе r/LocalLLaMA на Reddit обсуждает изображение, предполагающее, что официальный запуск Deepseek V4 состоится в середине июля и будет сопровождаться изменениями в структуре ценообразования API.

media r/LocalLLaMA · 6 ч назад

Пропуск блоков трансформера во время выполнения с помощью llama.cpp

Форк llama.cpp внедряет флаг --skip-layers, который позволяет пользователям пропускать целые блоки трансформера на этапе загрузки, предлагая альтернативу или дополнение к квантованию для размещения моделей в условиях ограниченного оборудования.

media r/LocalLLaMA · 6 ч назад

Лучший способ тестирования моделей с разными уровнями квантования перед покупкой GPU

Пользователь Reddit ищет советы о наиболее эффективном методе тестирования производительности моделей на различных уровнях квантования перед покупкой нового оборудования.

github llama.cpp · 6 ч назад

Выпуск llama.cpp b9840 добавляет поддержку DeepSeek V4 и мультиплатформенные бинарники

Выпуск llama.cpp b9840 вводит поддержку конвертации для модели DeepSeek V4, включая специальную обработку варианта Pro. Это обновление интегрирует новую архитектуру в библиотеку наряду с различными внутренними оптимизациями и исправлениями ошибок.

arxiv arXiv cs.LG · 7 ч назад

LoadKAN: Интерпретируемая сеть Колмогорова-Арнольда для прогнозирования нагрузки на электроэнергию

В данном исследовании представлена LoadKAN, новая гибридная архитектура, сочетающая механизм временного внимания с изоляцией признаков и сеть Колмогорова-Арнольда (KAN) для решения проблемы недостаточной интерпретируемости в прогнозировании нагрузки на электроэнергию на основе глубокого обучения.

arxiv arXiv cs.LG · 7 ч назад

STAITUS: Разделение внешнего вида и позы для отслеживания объектов на видео

В статье представлен STAITUS — унифицированная система для обучения без учителя при отслеживании объектов на видео, которая устраняет ограничения существующих слотовых представлений за счёт явного разделения внешнего вида и геометрической позы. Применяя временное выравнивание только в пространстве признаков (appearance space) и обеспечивая пространственное разделение внутри кадров, метод предотвращает «застревание» слотов на статичном фоне при движении.

arxiv arXiv cs.LG · 7 ч назад

Что знает химическая языковая модель о молекулах?

В данном исследовании применяются разреженные автоэнкодеры к MolFormer для механистического изучения того, как строятся представления молекул на разных слоях, что ставит под сомнение предположение о том, что химические языковые модели изучают только поверхностный синтаксис.

arxiv arXiv cs.LG · 7 ч назад

SkyJEPA: Обучение долгосрочных моделей мира для бесконтактного переноса из симуляции в реальность при управлении квадрокоптерами

В данной работе представлена SkyJEPA — модель в стиле JEPA, разработанная для управления квадрокоптерами в реальном времени и решающая проблемы усиления ошибок, присущие авторегрессионному долгосрочному прогнозированию. Подход объединяет модель латентной динамики с физически мотивированным пробером для отображения замороженных латентных переменных в интерпретируемые состояния, что обеспечивает предсказания, основанные на физических принципах.

arxiv arXiv cs.LG · 7 ч назад

Свёрнутые эффективные операторы для структур высшего порядка

Авторы представляют метод Свёрнутых эффективных операторов (Collapsed Effective Operators), который сжимает степени свободы высшего порядка в единый вершинный оператор с помощью дополнения Шура градуированного лапласиана. Этот подход даёт плотный оператор, кодирующий дальнодействующие взаимодействия, опосредованные топологией, и применим к произвольным конструкциям высшего порядка.

media r/LocalLLaMA · 7 ч назад

Официальная версия DeepSeek V4 будет выпущена в середине июля

Электронное письмо, отправленное от DeepSeek, указывает на то, что официальная версия DeepSeek V4 запланирована к выпуску в середине июля. Эта информация была распространена через переведенное изображение, изначально доступное только для пользователей из Китая.

media r/LocalLLaMA · 7 ч назад

Медленная работа Unsloth Gemma 12B Q8

Пользователь сообщает о значительном падении скорости инференса при переключении с GPT-OSS 20B Q4 на Gemma 4 12B Q8 с использованием llama.cpp, при этом пропускная способность упала примерно с 70 токенов в секунду до 10 токенов в секунду. Проблема сохраняется даже при тестировании варианта модели Q5 и отключении функции мышления, что дало лишь незначительный прирост в два дополнительных токена в секунду.

github llama.cpp · 7 ч назад

Выпуск llama.cpp b9839 с исправлением сканирования Tailwind и мультиплатформенными бинарниками

Проект llama.cpp выпустил версию b9839, которая включает исправление для восстановления сканирования Tailwind в игнорируемых worktrees. Это обновление предоставляет предварительно собранные бинарные файлы для macOS, Linux, Android, Windows и openEuler для различных архитектур и бэкендов аппаратного ускорения.

lab OpenAI News · 7 ч назад

Картирование возможностей для рабочей силы ЕС в сфере ИИ

Исследовательская группа OpenAI по экономике расширила свою «Рамочную модель перехода рабочих мест на базе ИИ» на Европейский Союз, используя таксономию ESCO и данные Евростата для анализа того, как возможности ИИ могут изменить рынки труда в государствах-членах.

arxiv arXiv cs.LG · 8 ч назад

Селективное прогнозирование временных рядов с помощью метабучения

В данной статье представлен фреймворк селективного прогнозирования, который позволяет моделям воздерживаться от высокорисковых предсказаний путем моделирования эмпирического перцентиля ошибок прогнозирования через метабучение. Используя инвариантные к масштабу статистики, полученные из недавних лагов, метод разделяет решения об отказе от прогноза и сами прогнозы, что обеспечивает перенос между гетерогенными временными рядами.

arxiv arXiv cs.LG · 8 ч назад

Улавливают ли кодировщики локаций пространственные эффекты? Бенчмарк GeoShapley на разных масштабах

В данном исследовании проводится бенчмарк того, может ли GeoShapley, объяснитель на основе теории игр, восстанавливать пространственно изменяющиеся коэффициенты из моделей машинного обучения с использованием эмбеддингов кодировщиков локаций. Одиннадцать кодировщиков из фреймворка TorchSpatial были оценены на синтетическом процессе с известными коэффициентами в масштабах сетки, округа и глобальном.

arxiv arXiv cs.LG · 8 ч назад

Классификация временных рядов с помощью диффеоморфного выравнивания времени (DiffTW)

В статье представлен диффеоморфное выравнивание времени (DiffTW), теоретическая основа для классификации временных рядов, которая учит отображения между вещественнозначными функциями, чтобы преодолеть ограничения дискретного сопоставления точек динамического выравнивания времени (DTW). DiffTW аппроксимирует диффеоморфные преобразования с помощью метода характеристик для решения линейных уравнений переноса, обеспечивая теоретически обоснованную меру несовпадения.