Все статьи
media r/LocalLLaMA · 6 ч назад

GLM 5.2 на конфигурации с двумя Strix Halo (256 ГБ): стоит ли того?

Пользователь Reddit под именем Intrepid_Rub_3566 опубликовал видеообзор, оценивающий производительность GLM 5.2 в конфигурации с двумя процессорами AMD Strix Halo и 256 ГБ оперативной памяти. Обсуждение сосредоточено на том, обеспечивает ли данная конкретная аппаратная конфигурация достаточную ценность для локального вывода больших языковых моделей. Материал подчеркивает техническую возможность развертывания GLM 5.2 в такой среде, уделяя внимание использованию ресурсов и скорости. Зрителям предлагается перейти по ссылке на YouTube для получения подробных бенчмарков и метрик производительности. В теме также присутствуют комментарии сообщества, обсуждающие практическую применимость и рентабельность такого подхода с использованием двух GPU.

media r/LocalLLaMA · 6 ч назад

Вопрос на Reddit о использовании локальных моделей для самостоятельного взлома

Пользователь сабреддита r/LocalLLaMA спросил, пробовал ли кто-то получать root-доступ к своей собственной системе с помощью локальной большой языковой модели. Этот вопрос был вызван недавними обсуждениями предполагаемой способности Mythos взламывать системы правительств США. Пост призывает сообщество поделиться практическим опытом относительно осуществимости подобных действий. Он конкретно касается применения локальных моделей для самостоятельного пентеста или несанкционированного доступа. Вопрос подчеркивает обеспокоенность по поводу последствий для безопасности, связанных с тем, что мощные инструменты ИИ оказываются в руках отдельных лиц.

media r/LocalLLaMA · 6 ч назад

Пользователи сообщают о снижении качества и эффективности моделей MTP в Qwen 3.6 и Gemma 4

Пользователь, тестирующий самохостинговые модели Qwen 3.6 27B и Gemma 4 на четырех видеокартах RTX 5070 Ti, сообщает, что многозадачное предсказание токенов (MTP) ухудшает качество вывода по сравнению с вариантами без MTP. При задачах рецензирования кода модель без MTP выдавала более детальные результаты с предложениями по исправлению, потребляя меньше токенов, чем её аналог с MTP. Метрики производительности показали, что конфигурация без MTP достигала примерно 2000 обрабатываемых токенов промпта в секунду и скорости генерации 50-60 токенов в секунду. Напротив, конфигурация MTP обеспечивала более высокую скорость генерации 100-120 tg/s, но более низкую скорость обработки промптов около 1300 pp/s. Несмотря на более высокую пропускную способность генерации, реальное время выполнения задач агентами было ускорено с помощью MTP всего на 20% из-за увеличенного потребления контекста. Пользователь использовал llama.cpp со специфичными GGUF-файлами от Unsloth и отметил аналогичный негативный опыт при тестировании Gemma 4.

media r/LocalLLaMA · 6 ч назад

Разработчик просит протестировать поддержку MTP для GLM-4.7-Flash через llama.cpp

Разработчик ищет помощь сообщества для тестирования поддержки многозадачного прогнозирования (MTP) модели GLM-4.7-Flash в рамках фреймворка llama.cpp. Автор признаёт, что предыдущие модели, такие как GLM Air и GLM Flash, устарели, но выражает личный интерес к включению MTP для них. Запрос ориентирован на пользователей, обладающих необходимым оборудованием для запуска GLM-4.7-Flash и техническими навыками компиляции llama.cpp из исходного кода. Участникам предлагается оценить функциональность предоставленной модели GGUF и сообщить о любых возникших проблемах. Кроме того, тестировщикам поручено измерить и поделиться показателями прироста скорости производительности, достигнутого благодаря внедрению MTP. Разработчик загрузил тестовую модель в репозиторий Hugging Face для немедленного доступа. Пользователям, нуждающимся в меньших вариантах квантования, предлагается связаться с автором напрямую для получения альтернативных версий.

media r/LocalLLaMA · 6 ч назад

Вопрос о том, почему стеки ROCm и Intel отстают от CUDA в зрелости программной экосистемы

Автор задаётся вопросом, почему программные экосистемы для AMD ROCm и Intel не смогли быстро развиться до уровня NVIDIA CUDA. Утверждается, что пока программное обеспечение конкурирующих вендоров не догонит CUDA, NVIDIA будет продолжать взимать огромную премию за свои удобные продукты. Автор идентифицирует себя как пользователь оборудования NVIDIA и Apple Silicon для разработки ИИ. Он выражает желание видеть более доступные цены на рынке. Аргумент предполагает, что снижение цен произойдёт только при наличии реальной конкуренции. Эта точка зрения подчеркивает текущее доминирование CUDA в ландшафте аппаратного обеспечения для ИИ.

media r/LocalLLaMA · 6 ч назад

Обсуждение в сообществе по запуску DeepSeek V4 Flash с выгрузкой MoE

Пользователь Reddit спросил о возможности запуска модели DeepSeek V4 Flash с использованием техник выгрузки Mixture of Experts. Автор поста отметил, что предыдущие попытки разместить нужную модель и её KV-кэш в VRAM требовали дополнительного запаса памяти в 5–10 ГБ. Он выделил несколько ресурсов сообщества, включая GGUF-версию модели, доступную на Hugging Face от команды huihui-ai. Кроме того, пользователь указал на форк репозитория antirez, который вводит тензорный параллелизм и улучшения для сокетов с целью повышения производительности. В обсуждении также упоминалась специфическая реализация Fringe, предназначенная для поддержки CUDA в DeepSeek V4 Flash. В результате пользователь решил скомпилировать модель и скачать почти 100 ГБ файлов, чтобы протестировать возможности выгрузки.

media r/LocalLLaMA · 6 ч назад

Anthropic обвиняет Alibaba в незаконной кампании по извлечению возможностей ИИ

Anthropic официально обвинила Alibaba в проведении кампании по откровенному и незаконному извлечению возможностей из своих моделей искусственного интеллекта. Компания утверждает, что эта деятельность включала несанкционированные методы доступа, предназначенные для обхода стандартных протоколов безопасности. Эти обвинения подчеркивают растущие опасения относительно защиты проприетарных технологий машинного обучения в конкурентной сфере ИИ. Сообщается, что предполагаемые усилия по извлечению носили систематический, а не случайный характер. Этот спор подчеркивает усиливающееся соперничество между крупными технологическими компаниями в области разработки передовых моделей. Конкретные технические детали методов извлечения остаются предметом расследования обеих сторон.

media r/LocalLLaMA · 6 ч назад

SupraWeather-Nano-Preview: небольшой FT-Transformer для классификации погоды

Компания SupraLabs выпустила модель SupraWeather-Nano, предварительную версию, предназначенную для классификации погодных явлений по сырым табличным метеорологическим данным. Архитектура использует выделенный Feature Tokenizer и Transformer Encoder, где каждому входному признаку присваивается свой обучаемый токен, который агрегируется токеном CLS перед обработкой через небольшой стек трансформеров. Такой подход устраняет необходимость в текстовых вводах или системных подсказках, позволяя пользователям напрямую вводить числовые значения для получения результата классификации. Модель принимает девять конкретных входных параметров: температуру, влажность, давление, тренд давления, скорость ветра, направление ветра, высоту, месяц и воздушную массу. Она обучена исключительно на синтетическом наборе данных, сгенерированном методами, основанными на правилах, содержащем 120 000 образцов. SupraLabs отмечает, что это эксперимент с архитектурой, а не инструмент для реального прогнозирования, при этом успешно пройдено пять из шести внутренних стресс-тестов.

arxiv arXiv cs.CL · 6 ч назад

HIPE-2026: Извлечение отношений «персона — место» из многоязычных исторических текстов

Кампания HIPE-2026 решает задачу извлечения отношений между персонами и местами из зашумленных многоязычных исторических документов. В отличие от предыдущих выпусков, ориентированных на распознавание именованных сущностей, эта третья итерация нацелена на отношения, привязанные ко времени и помеченные как 'at' (в) и 'isAt' (находится в). В оценке участвовали 17 команд, обрабатывавших данные на французском, немецком и английском языках в рамках трех различных наборов данных. Эти наборы данных включали тексты газет XIX и XX веков, а также неожиданный доменный набор ранних современных французских литературных произведений. Важной особенностью кампании стала трехуровневая система оценки, измеряющая предсказательную точность, вычислительную эффективность и обобщающую способность в разных доменах. Результаты более 40 отправленных запусков продемонстрировали широкое разнообразие стратегий — от больших языковых моделей до легких классификаторов. Полученные выводы подчеркивают присущие компромиссы между точностью, эффективностью и устойчивостью при извлечении отношений в масштабных исторических текстах.

arxiv arXiv cs.CL · 7 ч назад

Ткань формального мышления: Объединение строгого синтаксического валидирования с обученными структурными представлениями

Авторы представляют Weave of Formal Thought (WoFT), парадигму, сочетающую строгое синтаксическое валидирование с обученными структурными представлениями для генерации кода. Подход использует формальный движок и ограниченный декодер, которые являются корректными и полными относительно полной спецификации Tree-sitter. За счет дополнения обобщенного LR-разбора спекулятивным лексическим анализом система поддерживает гипотезы состояний лексера параллельно, допуская валидные префиксы программ и отклоняя невалидные. Кроме того, WoFT применяет тонкую настройку с латентными переменными для обучения моделей напрямую вплетать нетерминальные символы грамматики в процесс генерации. Этот метод использует алгоритм переобвешенного wake-sleep для оптимизации важностно-взвешенной нижней границы доказательства (ELBO) поверхностного текста. Модель учится избирательно сохранять формальные выводы в качестве адаптивной структурной черновиковой памяти во время вывода. Эксперименты на Python показывают, что тонкая настройка StarCoder2-3B с данной целевой функцией снижает перетоковую кросс-энтропию на 14,3% по сравнению с базовой линией, использующей только текст.

github llama.cpp · 7 ч назад

llama.cpp b9788 добавляет параллелизм тензоров по SYCL для конфигураций с двумя GPU

В релизе llama.cpp b9788 добавлена поддержка параллелизма тензоров через флаг --split-mode tensor в бэкенде SYCL. Эта реализация обеспечивает взаимодействие между двумя GPU путём добавления функций comm_init, comm_free и comm_allreduce_tensor в мета-бэкенд. Для двух устройств используется стратегия ring all-reduce, которая переключается между прямым копированием FP32 для малых тензоров и сжатием BF16 для больших. Код избегает использования OneCCL из-за его ограничения на один процесс на устройство, вместо этого применяя постоянные буферы для сохранения инвариантов пула SYCL. Тесты производительности на двух GPU Intel Arc Pro B70 показали значительное ускорение по сравнению с режимом слоёв для моделей Llama-3.3-70B и Qwen3-Coder-Next-80B-A3B. Обновление включает новые бинарные файлы для macOS, Linux, Windows, Android и openEuler для целевых платформ CPU, CUDA, ROCm, Vulkan и SYCL.

github llama.cpp · 7 ч назад

Выпуск llama.cpp b9789 исправляет квантование MoE и предоставляет бинарные файлы для нескольких платформ

Проект llama.cpp выпустил версию b9789, которая включает критическое исправление для квантования моделей Mixture of Experts (MoE) с многозадачным предсказанием. Это обновление устраняет проблемы, выявленные в pull request #24986, чтобы обеспечить корректную обработку этих специфических архитектур моделей. Выпуск предоставляет предварительно собранные бинарные файлы для macOS на базе Apple Silicon и Intel, а также iOS XCFramework. Пользователи Linux могут загрузить сборки для Ubuntu с поддержкой бэкендов CPU, Vulkan, ROCm 7.2, OpenVINO и SYCL. Поддержка Windows включает варианты для CPU, CUDA 12.4 и 13.3, Vulkan, OpenVINO, SYCL и HIP. Дополнительные платформы, такие как Android arm64 и openEuler, также поддерживаются при наличии конкретных аппаратных конфигураций.

arxiv arXiv cs.CL · 7 ч назад

SpeechEQ: Оценка эмоционального интеллекта в социально-ориентированных голосовых диалоговых моделях

Авторы представляют SpeechEQ — комплексную рамку для оценки социолингвистического мышления моделей обработки речи и языка. Существующие методы оценки часто упускают из виду сложное кросс-модальное рассуждение, необходимое для активного диалога, полагаясь на изолированный текст или пассивное акустическое восприятие. Фреймворк включает валидированный набор данных из 2265 диалогов по 15 подшкалам эмоционального интеллекта (EQ), основанным на теории EQ-i 2.0. Он также содержит протокол многошаговой оценки, измеряемый с помощью предложенного показателя Spoken EQ, вдохновленного оценками человеческого EQ. Эксперименты выявляют ограничения в том, как системы распознавания эмоций по речи и сквозные (end-to-end) модели понимают паралингвистические признаки через речь. Хотя сквозные архитектуры превосходят каскадные системы, современные мультимодальные модели остаются ограниченными рядом специфических проблем. Эти барьеры включают модальное укорочение, зависящее от текста, ловушку безопасности, индуцированную выравниванием, и контекстную амнезию.

arxiv arXiv cs.CL · 7 ч назад

Autodata: Агентный дата-сайентист для создания высококачественных синтетических данных

Авторы представляют Autodata — общий метод, позволяющий ИИ-агентам функционировать в роли дата-сайентистов для построения высококачественных обучающих и оценочных наборов данных. Подход включает метаоптимизацию этих агентов, чтобы они учились генерировать всё более сильные данные посредством процесса под названием Agentic Self-Instruct. Эксперименты проводились в задачах компьютерных наук, юридическом рассуждении и рассуждении о математических объектах. Результаты демонстрируют, что этот метод создания данных на основе агентов обеспечивает улучшенную производительность по сравнению с классическими методами создания синтетических наборов данных. Кроме того, метаоптимизация самого агента-дата-сайентиста даёт ещё более значительный прирост производительности. Эта работа иллюстрирует, как увеличение вычислительных ресурсов на этапе вывода (inference) может быть преобразовано в данные для обучения моделей более высокого качества. Авторы предполагают, что это направление имеет потенциал фундаментально изменить подход к созданию ИИ-данных.

arxiv arXiv cs.CL · 7 ч назад

Dziri Voicebot: система преобразования речи в речь от начала до конца для алжирского диалекта

В статье представлен Dziri Voicebot, сквозная разговорная система преобразования речи в речь, разработанная для малоресурсного алжирского диалекта. Эта работа расширяет предыдущие усилия по моделированию диалогов на основе текста, предпринятые Бешери и Ланасри, до полноценного речевого взаимодействия. Предложенный модульный конвейер объединяет автоматическое распознавание речи, понимание естественного языка, генерацию с дополнением извлечениями (retrieval-augmented generation) и синтез речи из текста. Были созданы специализированные наборы данных для телекоммуникационной области для дообучения предобученных моделей для каждого компонента. Система ASR использует адаптацию на основе Whisper, а модуль NLU объединяет трансформерные эмбеддинги с фреймворком ориентированных на задачу диалогов. Нейросеть TTS была обучена на новом собранном корпусе диалектных данных для обеспечения генерации речевых ответов. Экспериментальные результаты демонстрируют высокую производительность всех компонентов, включая низкий уровень ошибки слов и высокие показатели классификации намерений.

lab OpenAI News · 7 ч назад

Исследование OpenAI: ИИ-агенты трансформируют работу

Новый исследовательский документ от OpenAI демонстрирует, как агенты искусственного интеллекта фундаментально меняют характер труда. В исследовании подчеркивается способность этих агентов выполнять более длительные и сложные задачи по сравнению с тем, что было возможно ранее. Этот технологический прорыв способствует росту производительности в самых разных профессиональных ролях. Результаты указывают на существенный сдвиг в организации и выполнении работы благодаря автоматизации. Обрабатывая сложные рабочие процессы, ИИ-агенты позволяют пользователям достигать большей эффективности. Документ служит доказательством растущего влияния автономных систем на современную занятость.

arxiv arXiv cs.CL · 7 ч назад

Tatoxa: новая система детоксикации текстов для малоресурсного татарского языка

В статье представлена Tatoxa — современная система, предназначенная для автоматической детоксикации текстов на малоресурсном татарском языке. Эта работа решает проблему недостатка исследовательского внимания к смягчению последствий оскорбительного контента в языках с ограниченными цифровыми ресурсами. Авторы представляют новый набор данных, специально созданный для тонкой настройки и оценки моделей детоксикации в условиях таких ограничений. Сравнительные эксперименты показывают, что Tatoxa превосходит как существующие модели больших языковых моделей с открытым исходным кодом, так и проприетарные коммерческие решения по ключевым метрикам качества. Кроме того, исследование изучает возможности кросс-язычного переноса для оценки целесообразности использования данных из других языков. Результаты указывают на то, что обучение на родных татарских данных значительно эффективнее, чем перенос знаний из культурно близких языков, таких как русский. Даже при наличии большого корпуса русских текстов кросс-язычные подходы показывают худшие результаты по сравнению с моделями, обученными исключительно на нативных татарских текстах.

arxiv arXiv cs.CL · 7 ч назад

Коллапс многошагового использования инструментов в RL и надзорные исправления

Недавние методы агентного обучения с подкреплением для больших языковых моделей часто страдают от нестабильности или ограниченного прироста в задачах использования инструментов. Эксперименты показывают, что некоторые модели испытывают катастрофический коллапс, при котором производительность резко падает, а структуры вызова инструментов перестают работать. Анализ показывает, что эти сбои возникают из-за неожиданных скачков вероятности для определенных управляющих токенов, которые нарушают структурированное выполнение. Несмотря на это нарушение, базовая способность использовать инструменты сохраняется, но маскируется специфическими проблемами форматирования. Для решения этой проблемы исследование изучает разнообразные сигналы надзора, включая внеполитический надзор и руководство на основе подсказок в различных схемах обучения. Авторы обнаруживают, что чередование контролируемой тонкой настройки с обучением с подкреплением существенно улучшает стабильность во время обучения. Однако этот подход демонстрирует ухудшение производительности при оценке на данных формата и содержания вне распределения (out-of-distribution). Результаты подчеркивают важность понимания сбоев в RL для обеспечения надежного обучения сложных задач многошагового использования инструментов.

arxiv arXiv cs.CL · 8 ч назад

Обнаружение, отмена обучения и восстановление: защита моделей суммаризации текста от отравления данных

Исследование рассматривает угрозу отравления данных на этапе обучения при тонкой настройке моделей абстрактной суммаризации текста. Злоумышленники манипулируют небольшими специфичными для задачи наборами данных, чтобы вызвать устойчивые ошибки суммаризации, сохраняя при этом стандартные показатели оценки. Предлагается единая пост-гочная (post-hoc) защитная рамка для обнаружения и устранения отравления во всей цепочке поставок машинного обучения. В условиях white-box обнаружение опирается на анализ функций влияния, выявляющий аномально высокое влияние обучения в отравленных парах. Защитные механизмы black-box используют поведенческий аудит, основанный на повышенной чувствительности к возмущениям, сохраняющим семантику. Авторы представляют новые атаки, направленные на искажение фактов и репрезентативное смещение, которые обходят традиционные системы оповещения. Эксперименты с девятью архитектурами и шестью бенчмарками показывают точность обнаружения 85-92% для предложенных защитных механизмов. Отмена обучения методом градиентного восхождения восстанавливает до 96% исходного поведения при снижении показателя ROUGE менее чем на 0,6%.

arxiv arXiv cs.CL · 8 ч назад

Исследование выявило: читатели предпочитают человеческие литературные переводы машинным, несмотря на адекватное качество последних

Недавнее исследование изучило предпочтения читателей относительно ИИ- и человеческих переводов литературных произведений, отметив, что, хотя автоматические метрики часто отдают предпочтение машинному выводу, они не способны уловить иммерсивные и литературные эффекты. Исследователи попросили 15 заядлых читателей сравнить человеческие переводы с переводами, сгенерированными агентной конвейерной системой LLM (agentic LLM pipeline), для 15 романов на французском, польском и японском языках. Оценка проводилась по отрывкам объемом около 8 тысяч слов как при иммерсивном чтении целых текстов, так и при детальном чтении выровненных пар фрагментов. Результаты показали, что, хотя читатели считали машинные переводы адекватными, они значительно предпочли человеческие версии благодаря их ясности и легкости погружения в текст. Примечательно, что участники не могли надежно различать два типа переводов и склонялись к той версии, которую считали созданной человеком. В поддержку будущих исследований авторы опубликовали LAIT — ориентированный на читателей датасет, содержащий 1K комментариев, 2K оценок и 7,2K аннотаций на уровне фрагментов.