Источник · r/LocalLLaMA
media r/LocalLLaMA · 2 д назад

Закон ЕС о искусственном интеллекте требует водяных знаков текста, сгенерированного ИИ, с августа 2024 года

Закон ЕС о искусственном интеллекте требует, чтобы все системы искусственного интеллекта, генерирующие синтетический текст, включали водяные знаки, доступные для машинного чтения и обнаружения, используя устойчивые, взаимодействующие технические решения с двумя слоями. Это касается всех моделей ИИ, включая открытые, и распространяется на любые услуги, доступные гражданам ЕС, независимо от их местоположения. Несоблюдение требований может привести к штрафам в размере до 35 миллионов евро или доли годового дохода, при этом поставщики моделей ИИ, представляющих системную угрозу, подвергаются повышенной ответственности.

media r/LocalLLaMA · 6 д назад

GLM-5.2 превосходит GPT-5.5 в оценке AA-Briefcase

Новая оценка агентных задач искусственного анализа, AA-Briefcase, показывает, что GLM-5.2 превосходит GPT-5.5 по производительности. Оценка оценивает выполнение реальных задач и способность к логическому мышлению в сценариях работы с знаниями.

media r/LocalLLaMA · 9 д назад

GLM-5.2 превышает 80% на Terminal-Bench

GLM-5.2 — первый открытый модель с весами, достигший точности 80% на Terminal-Bench и превосходящий все другие доступные открытые модели. Он также превосходит Gemini, что делает его моделью передовой категории при значительно более низкой стоимости.

media r/LocalLLaMA · 9 д назад

HalBench проверяет 29 открытых моделей на сикофантизм и халлюцинации

HalBench оценивает 29 открытых моделей языковых моделей на специальном бенчмарке для сикофантизма и халлюцинаций. Qwen 3.6 и Gemma 4 превосходят более крупные модели, при этом Qwen 3.6 достигает 36,6% отклонения — выше, чем у GPT-5.4 и Gemini 3.1 Pro. Размер модели не коррелирует с честными ответами, что указывает на то, что архитектура и обучающие данные важнее, чем количество параметров.

media r/LocalLLaMA · 2 д назад

Баиду выпустил модель одношагового долгосрочного парсинга

Баиду представил новую модель парсинга, называемую одношаговым долгосрочным парсингом. Модель позволяет эффективно понимать текст на долгосрочной основе с минимальными объемами обучающих данных, как это продемонстрировано в репозитории GitHub.

media r/LocalLLaMA · 2 д назад

Мой новый бенчмарк: насколько хорошо LLM могут имитировать поведение смачивания?

Новый микробенчмарк LLM оценивает, насколько хорошо большие языковые модели могут моделировать границы твердого и жидкого вещества с использованием Surface Evolver, инструмента 1992 года для моделирования поверхностей жидкости. Бенчмарк требует от LLM написать файлы данных SE, определяющие геометрию и ограничения, через итеративный агентский процесс с объективной оценкой, предлагая специфическую задачу с реальной научной значимостью и редкими обучающими данными.

media r/LocalLLaMA · 2 д назад

Оценка TTS без использования CPU: Kokoro 82M против Supertonic 3 против Inflect-Nano-v1

Оценка TTS без использования CPU сравнивает Kokoro-82M, Supertonic-3 и Inflect-Nano-v1 на процессоре Intel Xeon с 4 ядрами и 15,6 ГБ ОЗУ. Kokoro обеспечивает наиболее естественный звук (MOS 4,44-4,45), несмотря на более медленную скорость, при этом версия ONNX превосходит версию PyTorch по показателю реального времени, сохраняя идентичное качество. Supertonic-5-step достигает сбалансированного результата при скорости 3,2x и MOS 4,37, что делает его наиболее практичным выбором с точки зрения удобства использования и качества.

media r/LocalLLaMA · 2 д назад

Используемые рабочие процессы для длительных локальных моделей языковой обработки

Hayden разработал удерживающий механизм knot для управления длительными локальными задачами моделей языковой обработки. Он обеспечивает повторно используемые рабочие процессы с профилями агентов, мониторингом событий файловой системы и автоматическими триггерами, используя Pi.dev как стандартного агента.

media r/LocalLLaMA · 2 д назад

Лучшие локальные модели для рассуждений в агентной ИИ

Создатель EverFern спрашивает, какие локальные модели лучше всего подходят для агентных рабочих процессов и использования в браузере или на компьютере. Он отмечает, что интеллект модели редко является ограничивающим фактором, и что надежность и системы восстановления важнее, чем выбор модели.

media r/LocalLLaMA · 2 д назад

Человеческая оценка показывает, что GLM-5.2 конкурирует с лучшими моделями

Человеческая оценка на лидерборде Design Arena показывает, что GLM-5.2 демонстрирует почти такое же качество, как Fable 5 в задачах разработки игр, занимая лишь одну ступень ниже. Модель, основанная на открытых весах и лицензии MIT, оценивается как равнозначная по возможностям лучшим доступным моделям Claude, что указывает на то, что стандартизированные бенчмарки могут уже не отражать реальную производительность.

media r/LocalLLaMA · 2 д назад

SFT или RL-первый для обучения агента Qwen 3.5 с использованием инструментов?

Пользователь спрашивает, рекомендуется ли все еще последовательное применение надзирательного мелкого настройки (SFT) за которым следует обучение с помощью реверсной связи (RL), для обучения агентов Qwen 3.5 4B или 9B для многократного использования инструментов, или же более эффективны подходы на основе только RL. В посте также ищется руководство по проектированию вознаграждения и обработке параллельного выполнения инструментов в рабочих процессах агентов.

media r/LocalLLaMA · 2 д назад

Boogu-Image-0.1: Серия открытых источников универсальных моделей генерации и редактирования изображений

Boogu-Image-0.1 — это семейство открытых источников универсальных моделей генерации и редактирования изображений, лицензированное под Apache-2.0, включающее варианты Base, Turbo и Edit. Модель обеспечивает высокое качество генерации текста в изображения, быструю генерацию, редактирование изображений и сильную отрисовку текста на китайском и английском языках, при этом объем обучающих данных примерно на порядок меньше, чем у закрытых систем, и при этом достигает конкурентоспособных результатов благодаря улучшенному пониманию модели и качеству данных.

media r/LocalLLaMA · 2 д назад

Кто нуждается в GPU? 64 т/с ген, 285 ПП на процессорах, возрастом 6 лет

Модель gemma-4-26B-A4B, работающая на CPU с двумя процессорами Xeon 6248R, достигает скорости генерации 64 токена в секунду и 285 параллельных процессов, демонстрируя приемлемую производительность на оборудовании, возрастом 6 лет. Пользователь подчеркивает потенциал локальных моделей на CPU, которые могут конкурировать с системами, основанными на GPU, акцентируя внимание на экономичности и доступности.

media r/LocalLLaMA · 2 д назад

Серверы MCP расходуют окно контекста через определения инструментов

Каждый сервер MCP экспортирует полный список инструментов в контекст модели до появления запроса, используя до 24 000 токенов для 62 инструментов. Локальный гейтвей, реализующий ленивое открытие, снижает издержки на определения инструментов на 97%, снижая использование токенов с ~24 тыс. до ~660 на запрос, что приводит к 90% меньшему общему количеству токенов за задание, без влияния на успешность выполнения задачи.

media r/LocalLLaMA · 2 д назад

Microsoft выпустил открытый исходный код FastContext для агентов кодирования на основе LLM

Microsoft выпустил FastContext-1.0, легкий подагент для исследования репозиториев кода, который отделяет исследование репозиториев кода от решения задач в агентах кодирования на основе LLM. Он использует параллельные только для чтения вызовы инструментов для возврата компактных путей к файлам и диапазонов строк, что улучшает общую точность и снижает использование токенов на 60,3%, при этом модель 4B-RL превосходит модель 30B-SFT по SWE-bench Pro.

media r/LocalLLaMA · 2 д назад

Потенциал Gemma 4 превзойти Mistral и Qwen3.6 за счёт тонкой настройки

Gemma 4 демонстрирует сильную базовую производительность и уникальные функции, такие как поддержка глобального MTP, QAT и встроенные визуальные возможности. Хотя на данный момент у модели отсутствуют широкие тонкие настройки, модели, такие как MeroMero, Equinox и Gembrain, уже продемонстрировали высокое качество, что указывает на то, что при совместных усилиях Gemma 4 может превзойти Mistral или Qwen3.6 в определённых задачах, таких как программирование и креативное письмо.

media r/LocalLLaMA · 2 д назад

DeepSeek привлекает 7,4 млрд долларов при оценке в 60 млрд долларов, Лян Вэньфэн вкладывает 3 млрд долларов

DeepSeek привлек 7,4 миллиарда долларов в капитале при оценке в 60 миллиардов долларов. Лян Вэньфэн, основатель компании, лично вложил 3 миллиарда долларов в этот раунд, что подчеркивает его значительную долю и приверженность росту компании.

media r/LocalLLaMA · 3 д назад

TMax: Простой рецепт для агентов в терминале

TMax представляет TMax-15k, набор из 14 600 сред RL, превышающий на более чем 2,5 раза самый большой открытый набор сред в терминале. Также предлагается простой рецепт RL, который обучает открытые модели от 2 миллиардов до 27 миллиардов параметров, при этом TMax-9B достигает 27,2% на Terminal Bench 2.0, а TMax-27B — 42,7%.

media r/LocalLLaMA · 4 д назад

Результаты и рекомендации по обновленному бенчмарку визуальных моделей

Обновленный бенчмарк локальных визуально-языковых моделей оценивает 23 модели по 30 изображениям с 3 тестами каждое, что в сумме составляет 2070 тестов и 60 до 70 часов инференса. Самой эффективной моделью является Qwen3.6 27B (nothink) на Q4 с оценкой 79.6, за ней следует Qwen3.5 4B (nothink) на Q4, а затем Qwen3-VL 8B на Q8. Ключевые выводы включают снижение производительности визуальных моделей при использовании режима мышления, низкую эффективность моделей с архитектурой MoE по сравнению с плотными моделями, а также отсутствие универсального улучшения результатов при квантовании на Q8.

media r/LocalLLaMA · 4 д назад

GLM-5.2 побеждает Гемини и GPT-5.4 в программировании, но является неэффективным

GLM-5.2 превосходит GPT-5.4 и всю линейку Гемини по производительности в программировании на бенчмарке DeepSWE. Однако он требует значительно большего количества токенов вывода, что делает его существенно менее эффективным с точки зрения затрат на задачу по сравнению с моделями, такими как GPT-5.5 и Claude Opus 4.8.