Все статьи — korshunov.ai

Все статьи Страница 1 / 117

DeepSeek V4 от am17an · Pull Request #24162 · ggml-org/llama.cpp

Запрос на слияние, отправленный в репозиторий ggml-org/llama.cpp, позволяет локально запускать модель DeepSeek V4.

DMV-Bench: Диагностика визуальной памяти мультимодальных агентов с длинным горизонтом через инъекцию инцидентальных подсказок

Исследователи представляют DMV-Bench, первый интерактивный бенчмарк, разработанный для оценки визуальной памяти мультимодальных агентов в контролируемых условиях. В исследовании предлагается DualMem — архитектура параллельной визуальной и вербальной памяти, которая значительно превосходит существующие системы на этом новом диагностическом инструменте.

arxiv arXiv cs.LG · 8 ч назад

Concordia: JIT-компилируемая постоянная ядро-ориентированная контрольная точка для отказоустойчивого вывода LLM

В данной статье представлена Concordia, среда выполнения, предназначенная для обеспечения отказоустойчивости долгоживущих агентов LLM за счет сохранения ценного состояния на GPU без перезапуска стека обслуживания. Система использует постоянное ядро, residing на устройстве, которое перехватывает загрузку модулей GPU для поддержки инструментирования на уровне PTX и SASS.

media r/LocalLLaMA · 8 ч назад

GLM 5.2 Q1_S против Qwen 27B Q8: локальное сравнение LLM

Любительское сравнение на потребительском оборудовании показывает, что сильно квантованная GLM-5.2 (Q1_S) превосходит модель более высокого бита Qwen 3.6 27B (Q8) в сложной задаче программирования, несмотря на значительно более низкую скорость вывода.

media r/LocalLLaMA · 8 ч назад

Пользователь Reddit ищет яркий, функционально насыщенный интерфейс чата с ИИ вместо минималистичных вариантов

Пользователь Reddit просит рекомендации по «ярким» и насыщенным функциями интерфейсам чата, конкретно сравнивая LibreChat и OpenWebUI, для технически подкованного, но не разбирающегося в ИИ друга.

media r/LocalLLaMA · 8 ч назад

MiCA теперь является частью Hugging Face PEFT

Метод MiCA (Minor Component Adaptation) был объединен с основной веткой библиотеки Hugging Face PEFT, что позволяет пользователям устанавливать его непосредственно из исходного кода. Он доступен через существующий интерфейс LoRA путем установки `init_lora_weights="mica"`.

media r/LocalLLaMA · 8 ч назад

AMD MI210 64 ГБ против DCU K100 64 ГБ

Пользователь Reddit сравнивает цены и характеристики GPU AMD Instinct MI210 64 ГБ и китайского DCU K100 64 ГБ, доступных на китайском рынке eBay. Обсуждение подчеркивает, что хотя обе карты предлагают схожую емкость памяти, они значительно различаются по цене, пропускной способности шины памяти и архитектурным особенностям.

media r/LocalLLaMA · 8 ч назад

Обновление: Первые ручные результаты тестирования переноса процедурных навыков в малых моделях

Ручной эксперимент проверил, может ли процедурный каркас, сгенерированный большой моделью, передать дисциплину планирования меньшим моделям без дообучения или раскрытия целевого ответа. Результаты показывают, что этот подход значительно улучшает структурную читаемость и композицию в малых моделях при применении к различным доменам Three.js.

arxiv arXiv cs.CL · 8 ч назад

Развивающий подход раскрывает статистическое обучение нейронных языковых моделей: Трансформеры обобщают наиболее абстрактные статистические паттерны

Это исследование исследует статистическое обучение и ментальные представления нейронных языковых моделей путем обучения генеративных трансформеров на синтетической грамматике и анализа их внутренних представлений на различных этапах.

arxiv arXiv cs.CL · 8 ч назад

Supersede: Диагностика и обучение разрыва обновления памяти в агентах LLM

В данной статье выявлен особый режим отказа в агентах на основе больших языковых моделей, при котором им трудно отказываться от устаревших фактов в пользу актуальных, даже когда понимание текста сохранено. Авторы показывают, что этот «разрыв суперпозиции» сохраняется при различных масштабах моделей и размерах памяти, что указывает на его природу как обучаемого узкого места, а не ограничения контекстного окна или мощности модели.

github llama.cpp · 8 ч назад

Выпуск llama.cpp b9838: сборки для macOS, Linux, Windows, Android

Проект llama.cpp выпустил версию b9838, предоставляя предварительно собранные бинарные файлы для широкого спектра операционных систем и аппаратных ускорителей. Этот выпуск включает поддержку CPU, GPU (CUDA, Vulkan, ROCm, OpenCL) и специализированных AI-ускорителей на macOS, Linux, Windows, Android и openEuler.

arxiv arXiv cs.CL · 9 ч назад

Aloe-Vision: Устойчивые модели для работы с визуальными и языковыми данными в здравоохранении

В данной работе представлена Aloe-Vision — семейство открытых больших моделей для работы с визуальными и языковыми данными (7B и 72B), обученных на недавно выпущенном наборе данных Aloe-Vision-Data для решения проблем нехватки данных и устойчивости в ИИ для здравоохранения. Авторы демонстрируют, что их высококачественная обучающая смесь обеспечивает значительный прирост производительности по сравнению с базовыми моделями, сохраняя при этом общие возможности.

arxiv arXiv cs.CL · 9 ч назад

Проклятие множественных медиаторов: скрытые эффекты взаимодействия при активационном патчинге

Повторный вывод оценочной функции активационного патчинга из каузального медиантного анализа показывает, что естественный косвенный эффект (NIE) захватывает не только каузальный эффект через конкретный компонент, но и эффекты взаимодействия (INT). Эти члены INT измеряют, насколько каузальный эффект компонента зависит от состояния других компонентов в модели, ставя под сомнение предположение о том, что NIE изолирует индивидуальные вклады.

arxiv arXiv cs.CL · 9 ч назад

Контекстно-готовый трансформер

Авторы представляют контекстно-готовый трансформер, архитектуру рекуррентной нейронной сети, которая предварительно контекстуализирует каждый токен перед его входом в D-слойный блок трансформера с помощью корректирующей сети.

arxiv arXiv cs.CL · 9 ч назад

EntMTP: Ускорение вывода LLM с помощью многозадачного предсказания токенов на основе энтропии

Авторы предлагают Entropy-guided Multi-Token Prediction (EntMTP), планировщик без обучения, который динамически регулирует глубину спекуляции во время вывода LLM на основе локальной энтропии генерации. Этот подход решает проблему неэффективности статических топологий внимания на основе деревьев, согласуя вычислительные требования с предсказуемостью контекста.

arxiv arXiv cs.CL · 9 ч назад

Ko-WideSearch: Корейский бенчмарк для широкого поиска и полного перечисления множеств веб-агентами

В статье представлен Ko-WideSearch, новый бенчмарк, разработанный для оценки возможностей широкого поиска веб-агентов на корейском языке, что решает проблему отсутствия метрик полного перечисления множеств вне английского языка.

arxiv arXiv cs.CL · 9 ч назад

Narrative-UFET: Генерация нарративов для ультра-тонкого типирования сущностей

Авторы представляют Narrative-UFET, контролируемое расширение ультра-тонкого типирования сущностей, которое сопоставляет упоминания сущностей с автоматически сгенерированными короткими нарративами для устранения ограничений в разрешении неоднозначности типов с длинным хвостом. Исследование демонстрирует, что контекст нарратива дает последовательные улучшения по сравнению с базовыми уровнями на уровне предложений, особенно когда тип сущности меняется внутри текста.

arxiv arXiv cs.CL · 9 ч назад

Модели потока маскированного языка

Авторы представляют модели потока маскированного языка (MLFMs), которые объединяют маскированную диффузию с непрерывными потоками для обеспечения эффективного многошагового рассуждения при генерации текста. Этот подход сокращает разрыв между эффективностью параллельной генерации и производительностью в сложных задачах, позволяя адаптировать предварительно обученные модели в MLFMs.

arxiv arXiv cs.CL · 9 ч назад

DysLexLens: Низкоресурсная LLM-фреймворк для анализа инсайтов дислексических обучающихся из онлайн-форумов

В данной статье представлен DysLexLens, низкоресурсный LLM-фреймворк, предназначенный для анализа опыта дислексических обучающихся при использовании ИИ-инструментов на основе обсуждений в онлайн-форумах. Система обеспечивает сквозную архитектуру с прослеживаемыми доказательствами, которая преобразует зашумленные посты из социальных сетей в сфокусированные корпусы и генерирует проверяемые ответы на запросы.

arxiv arXiv cs.CL · 9 ч назад

Обнаружение агрессивных комментариев на китайском языке между платформами с помощью метода добычи сложных примеров по двойному порогу

В данной статье рассматривается проблема снижения эффективности моделей обнаружения агрессивных комментариев при их развертывании на различных китайских платформах социальных сетей. Предложен метод добычи сложных примеров по двойному порогу.