Источник · r/LocalLLaMA
media r/LocalLLaMA · 2 д назад

Закон ЕС о искусственном интеллекте требует водяных знаков текста, сгенерированного ИИ, с августа 2024 года

Закон ЕС о искусственном интеллекте требует, чтобы все системы искусственного интеллекта, генерирующие синтетический текст, включали водяные знаки, доступные для машинного чтения и обнаружения, используя устойчивые, взаимодействующие технические решения с двумя слоями. Это касается всех моделей ИИ, включая открытые, и распространяется на любые услуги, доступные гражданам ЕС, независимо от их местоположения. Несоблюдение требований может привести к штрафам в размере до 35 миллионов евро или доли годового дохода, при этом поставщики моделей ИИ, представляющих системную угрозу, подвергаются повышенной ответственности.

media r/LocalLLaMA · 6 д назад

GLM-5.2 превосходит GPT-5.5 в оценке AA-Briefcase

Новая оценка агентных задач искусственного анализа, AA-Briefcase, показывает, что GLM-5.2 превосходит GPT-5.5 по производительности. Оценка оценивает выполнение реальных задач и способность к логическому мышлению в сценариях работы с знаниями.

media r/LocalLLaMA · 8 д назад

GLM-5.2 превышает 80% на Terminal-Bench

GLM-5.2 — первый открытый модель с весами, достигший точности 80% на Terminal-Bench и превосходящий все другие доступные открытые модели. Он также превосходит Gemini, что делает его моделью передовой категории при значительно более низкой стоимости.

media r/LocalLLaMA · 9 д назад

HalBench проверяет 29 открытых моделей на сикофантизм и халлюцинации

HalBench оценивает 29 открытых моделей языковых моделей на специальном бенчмарке для сикофантизма и халлюцинаций. Qwen 3.6 и Gemma 4 превосходят более крупные модели, при этом Qwen 3.6 достигает 36,6% отклонения — выше, чем у GPT-5.4 и Gemini 3.1 Pro. Размер модели не коррелирует с честными ответами, что указывает на то, что архитектура и обучающие данные важнее, чем количество параметров.

media r/LocalLLaMA · 12 ч назад

OpenAI и Broadcom презентуют чип для инференса на основе больших языковых моделей

Предварительные испытания показывают, что первый поколение чипа обеспечивает значительно лучшую производительность на ватт по сравнению с текущими решениями на переднем крае. Спроектированный с нуля для текущих и будущих больших языковых моделей, чип расширяет полную платформу OpenAI и будет внедрён на гигаваттном уровне в сотрудничестве с партнерами по центрам обработки данных на нескольких поколениях.

media r/LocalLLaMA · 16 ч назад

Qwen-AgentWorld-35B-A3B для программирования?

Модель Qwen-AgentWorld-35B-A3B демонстрирует высокую производительность в задачах программирования, с результатом 65,63% по оценке написания программного обеспечения и 65,92% по общему бенчмарку. Она превосходит Qwen3.5-35B-A3B и соперничает с более крупными моделями в задачах, связанных с агентами, при первом впечатлении отмечается превосходная точность в долгосрочных рабочих процессах агентов.

media r/LocalLLaMA · 16 ч назад

Gemma 4 26BA4B странно полезен при IQ3_S

Пользователь сообщает, что Gemma 4 26B, квантованная до Q3, работает со скоростью 25 токенов в секунду на MacBook Air и выполняет почти так же хорошо, как bf16 для задач, не связанных с кодированием и вызовом инструментов. Они спрашивают, отражает ли эта производительность искажение суждения или действительно ли малые квантованные модели могут быть полезны.

media r/LocalLLaMA · 17 ч назад

Модель Unlimited-OCR от Байду переводит десятки страниц за один проход

Байду выпустил модель Unlimited-OCR, которая переводит десятки страниц за один проход с использованием механизма Reference Sliding Window Attention (R-SWA). Модель основана на DeepSeek-OCR, наследуя его кодировщик, сжатие изображений и архитектуру MoE, при этом у неё всего 500 млн активных параметров на токен. Модель достигает точности 93,92% на OmniDocBench v1.6, превосходя результаты DeepSeek-OCR на v1.5 (87,01%), хотя результаты, предоставленные поставщиком, требуют независимой проверки.

media r/LocalLLaMA · 17 ч назад

Qwen3.6 27B в vLLM дumber, чем в llama.cpp

Пользователь сообщает, что Qwen3.6-27B работает значительно менее интеллектуально в vLLM, чем в llama.cpp, демонстрируя проблемы, такие как игнорирование сообщений, халлюцинации инструментальных вызовов и неспособность распознавать контекст предыдущих диалогов. Несмотря на правильную настройку и шаблоны промптов, модель кажется потерять связность и неправильно интерпретировать собственные инструментальные вызовы, при этом ошибки возникают систематически, а не случайно.

media r/LocalLLaMA · 17 ч назад

KaLM-Reranker-V1: Быстрый и эффективный переупорядочиватель документов

KaLM-Reranker-V1 — это быстрый, но не последовательный переупорядочиватель, который разделяет вычисление запроса и прохода, при этом сохраняя сильную модель соответствия через перекрестное внимание. Он достигает наилучших результатов на BEIR, превосходит промышленные модели, такие как Qwen3-Reranker, и показывает отличные результаты на MIRACL и LMEB, при этом нано-модель 0.27B остаётся конкурентоспособной по отношению к моделям на 7-12 миллиардов параметров.

media r/LocalLLaMA · 21 ч назад

Qwen выпустил MoE на 35 миллиардов параметров для имитации среды агента

Qwen представил модель Qwen-AgentWorld-35B-A3B, MoE на 35 миллиардов параметров, при этом у неё около 3 миллиардов активных параметров на токен. Модель обучена на имитации ответов от MCP, терминала, программирования, Android, веб-интерфейсов и графических интерфейсов операционных систем путем предсказания следующих наблюдений после действий агента, что позволяет эффективно обучать агентов и имитировать среду без выполнения реальных инструментов.

media r/LocalLLaMA · 1 д назад

Mimo 2.5 работает быстро при больших контекстах на двух картах RTX Pro 6000

Mimo 2.5 обеспечивает быструю производительность при больших длинах контекста на двух картах RTX Pro 6000, используя механизм скользящего окна с локальным и глобальным окнами в соотношении 5:1, аналогичный Gemma 3. Задачи выполняются примерно за 4 минуты, что значительно быстрее, чем у MiniMax M3, который занимает около 40 минут, несмотря на то, что оба модели имеют схожее качество при ограничениях VRAM.

media r/LocalLLaMA · 1 д назад

650+ моделей NER/дезидентификации на основе биомедицинских данных под лицензией Apache-2.0 работают в 30-40 раз быстрее на платформе Apple Silicon

Новый открытый проект предлагает 650+ моделей NER и дезидентификации на основе биомедицинских данных под лицензией Apache-2.0, работающих на устройстве через MLX. На MacBook Pro с M3 Max, приобретённый три года назад, модели клинического NER обеспечивают ускорение в 30-40 раз по сравнению с PyTorch на CPU, при одинаковых результатах в формате fp32 и идентичных результатах по сущностям, благодаря архитектурной эффективности на платформе Apple Silicon. Модели, включая 434 млн параметров для NER и дезидентификации PII, доступны в открытом доступе на Hugging Face и GitHub, с полной воспроизводимостью, обеспечиваемой кодом и методологией.

media r/LocalLLaMA · 1 д назад

MiniMax 2.7 работает на 47 ТГ 1200PP с 96 ГБ VRAM

MiniMax 2.7, модель с 47 терапараметрами, работает на системе с 96 ГБ VRAM и 192 ГБ DDR5 ОЗУ, используя плату MSI B840 и процессор 9900X. Модель функционирует как модель класса агента с сильным следованием инструкций и вызовом инструментов, поддерживаемая циклической обработкой с тремя агентами последовательности на основе процессора и плотной моделью 12B, которая отслеживает ошибки.

media r/LocalLLaMA · 1 д назад

Агент Tmax-27B для малых видеокарт с обучением DPPO

Tmax-27B — это терминальный агент, основанный на Qwen3.6-27B, обученный с использованием DPPO (RL), достигающий 43% на Terminal Bench 2.0 и 69% на TB Lite. Для работы на потребительских видеокартах он квантируется с использованием калиброванных матриц важности GGUF моделей с 2 до 5 бит на вес, с встроенной головой MTP, обеспечивающей спекулятивное декодирование. Модель IQ2_XS размером 8,5 ГиБ достигает 70% в задачах агентного программирования, превосходя простую квантизацию и демонстрируя стабильность генерации инструментальных вызовов.

media r/LocalLLaMA · 1 д назад

GLM 5.2 на Mac Studio ускорение PR

GLM 5.2 обеспечивает улучшенные скорости предварительной загрузки, превышающие 100 t/s при больших длинах контекста. Обновление снижает использование памяти, позволяя 4-битным квантованным моделям эффективно обрабатывать более 100 тысяч токенов контекста. Это улучшение подробно описано в PR от создателя oMLX.

media r/LocalLLaMA · 1 д назад

Бенчмарк LLM в медицинской синтаксисе: пропуски превосходят выдумки

Бенчмарк 8 LLM на 300 синтетических диалогов врачи-пациенты выявил 12 высококритичных выдумок и 520 клинически значимых пропусков. Пропуски были значительно чаще, чем выдумки: DeepSeek показал отличные качества в стилистике и стоимости, но упустил множество фактов о безопасности, в то время как Claude Opus имел наименьшее количество пропусков, но худшую стилистическую оценку.

media r/LocalLLaMA · 1 д назад

7 китайских компаний поставляют чипы класса H100/H200, большинство из которых были запущены в течение последних 6 месяцев

По крайней мере семь китайских компаний уже поставляют ускорители AI класса H100/H200, при этом большинство из них стали публичными в течение последних шести месяцев. Университет Ву в одиночку поставил 812 000 чипов AI в прошлом году, что составляет 49% от внутреннего спроса Китая, и его Ascend 950, по сообщениям, ориентирован на производительность класса H200. Несколько из этих компаний основаны бывшими лидерами NVIDIA и AMD в области чипов GPU, включая MetaX, чья выручка выросла в три раза за три года, и Alibaba, которая запустила сервер с объемом VRAM в 1,5 ТБ для развертывания передовых моделей на месте.

media r/LocalLLaMA · 1 д назад

VibeThinker: модель с 3 миллиардами параметров побеждает Opus 4.5 в задачах логического мышления

Модель VibeThinker с 3 миллиардами параметров превосходит Opus 4.5 в задачах логического мышления с использованием новой методики обучения SFT+GRPO. Модель была представлена в статье, доступной на arXiv, с подробностями, размещёнными в посте на Reddit.

media r/LocalLLaMA · 1 д назад

Анализ KLD квантования кэша KV для моделей Qwen3.6-35B-A3B и Gemma4-E2B QAT

Подробный анализ показывает KLD (разделение Кульбака-Лейбера) квантования кэша KV для моделей Qwen3.6-35B-A3B и Gemma4-E2B. Результаты показывают, что квантование q8/q8 практически без потерь на обеих моделях, в то время как q4/q4 работает хорошо на Qwen, но приводит к серьезной деградации на Gemma. Варианты турбо-квантования показывают разнородную производительность: турбо3 и турбо2 обеспечивают экстремальную сжатие кэша, но при значительной потере точности.