DeepSeek V4 от am17an · Pull Request #24162 · ggml-org/llama.cpp
Запрос на слияние, отправленный в репозиторий ggml-org/llama.cpp, позволяет локально запускать модель DeepSeek V4.
Запрос на слияние, отправленный в репозиторий ggml-org/llama.cpp, позволяет локально запускать модель DeepSeek V4.
Исследователи представляют DMV-Bench, первый интерактивный бенчмарк, разработанный для оценки визуальной памяти мультимодальных агентов в контролируемых условиях. В исследовании предлагается DualMem — архитектура параллельной визуальной и вербальной памяти, которая значительно превосходит существующие системы на этом новом диагностическом инструменте.
В данной статье представлена Concordia, среда выполнения, предназначенная для обеспечения отказоустойчивости долгоживущих агентов LLM за счет сохранения ценного состояния на GPU без перезапуска стека обслуживания. Система использует постоянное ядро, residing на устройстве, которое перехватывает загрузку модулей GPU для поддержки инструментирования на уровне PTX и SASS.
Любительское сравнение на потребительском оборудовании показывает, что сильно квантованная GLM-5.2 (Q1_S) превосходит модель более высокого бита Qwen 3.6 27B (Q8) в сложной задаче программирования, несмотря на значительно более низкую скорость вывода.
Пользователь Reddit просит рекомендации по «ярким» и насыщенным функциями интерфейсам чата, конкретно сравнивая LibreChat и OpenWebUI, для технически подкованного, но не разбирающегося в ИИ друга.
Метод MiCA (Minor Component Adaptation) был объединен с основной веткой библиотеки Hugging Face PEFT, что позволяет пользователям устанавливать его непосредственно из исходного кода. Он доступен через существующий интерфейс LoRA путем установки `init_lora_weights="mica"`.
Пользователь Reddit сравнивает цены и характеристики GPU AMD Instinct MI210 64 ГБ и китайского DCU K100 64 ГБ, доступных на китайском рынке eBay. Обсуждение подчеркивает, что хотя обе карты предлагают схожую емкость памяти, они значительно различаются по цене, пропускной способности шины памяти и архитектурным особенностям.
Ручной эксперимент проверил, может ли процедурный каркас, сгенерированный большой моделью, передать дисциплину планирования меньшим моделям без дообучения или раскрытия целевого ответа. Результаты показывают, что этот подход значительно улучшает структурную читаемость и композицию в малых моделях при применении к различным доменам Three.js.
Это исследование исследует статистическое обучение и ментальные представления нейронных языковых моделей путем обучения генеративных трансформеров на синтетической грамматике и анализа их внутренних представлений на различных этапах.
В данной статье выявлен особый режим отказа в агентах на основе больших языковых моделей, при котором им трудно отказываться от устаревших фактов в пользу актуальных, даже когда понимание текста сохранено. Авторы показывают, что этот «разрыв суперпозиции» сохраняется при различных масштабах моделей и размерах памяти, что указывает на его природу как обучаемого узкого места, а не ограничения контекстного окна или мощности модели.
Проект llama.cpp выпустил версию b9838, предоставляя предварительно собранные бинарные файлы для широкого спектра операционных систем и аппаратных ускорителей. Этот выпуск включает поддержку CPU, GPU (CUDA, Vulkan, ROCm, OpenCL) и специализированных AI-ускорителей на macOS, Linux, Windows, Android и openEuler.
В данной работе представлена Aloe-Vision — семейство открытых больших моделей для работы с визуальными и языковыми данными (7B и 72B), обученных на недавно выпущенном наборе данных Aloe-Vision-Data для решения проблем нехватки данных и устойчивости в ИИ для здравоохранения. Авторы демонстрируют, что их высококачественная обучающая смесь обеспечивает значительный прирост производительности по сравнению с базовыми моделями, сохраняя при этом общие возможности.
Повторный вывод оценочной функции активационного патчинга из каузального медиантного анализа показывает, что естественный косвенный эффект (NIE) захватывает не только каузальный эффект через конкретный компонент, но и эффекты взаимодействия (INT). Эти члены INT измеряют, насколько каузальный эффект компонента зависит от состояния других компонентов в модели, ставя под сомнение предположение о том, что NIE изолирует индивидуальные вклады.
Авторы представляют контекстно-готовый трансформер, архитектуру рекуррентной нейронной сети, которая предварительно контекстуализирует каждый токен перед его входом в D-слойный блок трансформера с помощью корректирующей сети.
Авторы предлагают Entropy-guided Multi-Token Prediction (EntMTP), планировщик без обучения, который динамически регулирует глубину спекуляции во время вывода LLM на основе локальной энтропии генерации. Этот подход решает проблему неэффективности статических топологий внимания на основе деревьев, согласуя вычислительные требования с предсказуемостью контекста.
В статье представлен Ko-WideSearch, новый бенчмарк, разработанный для оценки возможностей широкого поиска веб-агентов на корейском языке, что решает проблему отсутствия метрик полного перечисления множеств вне английского языка.
Авторы представляют Narrative-UFET, контролируемое расширение ультра-тонкого типирования сущностей, которое сопоставляет упоминания сущностей с автоматически сгенерированными короткими нарративами для устранения ограничений в разрешении неоднозначности типов с длинным хвостом. Исследование демонстрирует, что контекст нарратива дает последовательные улучшения по сравнению с базовыми уровнями на уровне предложений, особенно когда тип сущности меняется внутри текста.
Авторы представляют модели потока маскированного языка (MLFMs), которые объединяют маскированную диффузию с непрерывными потоками для обеспечения эффективного многошагового рассуждения при генерации текста. Этот подход сокращает разрыв между эффективностью параллельной генерации и производительностью в сложных задачах, позволяя адаптировать предварительно обученные модели в MLFMs.
В данной статье представлен DysLexLens, низкоресурсный LLM-фреймворк, предназначенный для анализа опыта дислексических обучающихся при использовании ИИ-инструментов на основе обсуждений в онлайн-форумах. Система обеспечивает сквозную архитектуру с прослеживаемыми доказательствами, которая преобразует зашумленные посты из социальных сетей в сфокусированные корпусы и генерирует проверяемые ответы на запросы.
В данной статье рассматривается проблема снижения эффективности моделей обнаружения агрессивных комментариев при их развертывании на различных китайских платформах социальных сетей. Предложен метод добычи сложных примеров по двойному порогу.