Code generation
media r/LocalLLaMA · 6 д назад

Запуск GLM-5.2 только на CPU с локальной установкой

Пользователь запускает GLM-5.2 локально на сервере Dell PowerEdge R740 с двумя процессорами Xeon 6248R и 768 ГБ ОЗУ, используя ik_llama.cpp для улучшения инференса на CPU. После изоляции одного узла NUMA для оптимальной производительности, они достигают скорости 4–5,5 токена в секунду в чате и около 3 токена в секунду в задачах по кодированию, отмечая, что модель демонстрирует 'фронтирующие настроения' при генерации кода, несмотря на ограниченную применимость на этом оборудовании.

media r/LocalLLaMA · 6 д назад

Переиспользование старого узла с несколькими GPU для локальной инференции

Узел оснащен 8 NVIDIA Quadro RTX 6000 GPU с 192 ГБ ОЗУ и 512 ГБ ОЗУ, что позволяет выполнять масштабную локальную инференцию моделей ИИ. Модели, такие как LLaMA-3 или Mistral с 8–13 миллиардами параметров, могут здесь эффективно работать, обеспечивая более быструю, приватную и низкозадержку производительность по сравнению с настройками на одном GPU, что делает его ценным для внутреннего использования.

media r/LocalLLaMA · 6 д назад

Калибровка 2-битных GGUF для задач агентного программирования

2-битные квантованные версии Qwopus3.6-27B-Coder, калиброванные на реальных журналах агентного программирования, достигают 63% успешного прохождения на SWE-rebench. Версия IQ2_M превосходит некалиброванные версии и соперничает с Q5_K_M по показателю успешного прохождения, несмотря на то, что она вдвое меньше, с улучшенной устойчивостью к циклам и более быстрой декодировкой благодаря объединенному MTP.

media r/LocalLLaMA · 6 д назад

North Mini Code: 4-битная квантование, поддержка Ollama и OpenRouter

Cohere Labs выпустил версию North Mini Code с квантованием на 4 бита на Hugging Face, что сократило её размер до примерно 20 ГБ для локальной работы на устройствах, таких как Mac. Модель теперь поддерживается в Ollama, локальных средах выполнения на базе llama.cpp, и через API OpenRouter, что улучшает доступность для разработчиков.

media r/LocalLLaMA · 7 д назад

Снижение затрат на токены в реальных условиях за счёт headroom, rtk и caveman

Реальный анализ нагрузки показывает, что headroom, rtk и caveman снижают затраты на токены на 2,8%, 0,5% и 0.4% соответственно, что в сумме составляет 3,7% от базовых расходов. Однако сокращения ограничены разнообразием нагрузки, поскольку большая часть трафика состоит из простого текста или исходного кода, а инструменты сжимают только структурированные выводы. Большинство сокращений происходит в наиболее дешёвом потоке токенов — при чтении кэша, при этом инструменты не влияют на кэширование промптов или затраты на выводы, и существуют пробелы в охвате, особенно в отношении rtk.

media r/LocalLLaMA · 7 д назад

Laguna M.1: 225B параметр модель MoE для агентного кодирования

Laguna M.1 — это модель с 225B параметрами и 23B активными параметрами на каждый токен, разработанная для агентного кодирования и задач с длинным горизонтом. Она достигает конкурентоспособных результатов на SWE-bench Verified (74,6%), SWE-bench Multilingual (63,1%) и Terminal-Bench 2.0 (45,8%), превосходя модели, такие как Devstral 2 и GLM-4.7, на ключевых тестах.

media r/LocalLLaMA · 7 д назад

SLMs и диффузии: Будущее малых, специализированных моделей?

Пользователи обсуждают, может ли задачеспецифичная малая языковая модель (SLM) превосходить более крупные модели в определённых задачах, приводя примеры бенчмарков, где модели на 9 миллиардов параметров достигают или превосходят более крупные. Они предлагают последовательный агентский поток, использующий несколько специализированных моделей, при этом одна координирует, а другие проверяют ответы, предполагая, что диффузионные модели могут ускорять такие потоки, несмотря на снижение интеллекта.

media r/LocalLLaMA · 7 д назад

Llama Bench vs Реальное отклонение производительности

Пользователь сообщает о значительной разнице между результатами Llama benchmark и реальной производительностью модели. Бенчмарки показывают 754 токен/с при предварительной загрузке и 36 токен/с при генерации, однако в реальных условиях наблюдается только 7,98 токена в секунду, с высокой задержкой и плохим пропускным расходом. Отклонение объясняется реальными условиями использования, а не настройками бенчмарка, что указывает на то, что реальная производительность модели значительно ниже скорости, указанной в бенчмарке.

github llama.cpp · 7 д назад

LLaMA.cpp Release b9698 Добавляет поддержку самоподписки и бинарники для нескольких платформ

Версия LLaMA.cpp b9698 позволяет включать самоподписку только при сборке с помощью llama-install.sh. В этом выпуске представлены бинарники для macOS, Linux, Android, Windows и openEuler на разных архитектурах и вариантах ускорения, включая Vulkan, CUDA, OpenVINO и SYCL.

github AutoGPT · 7 д назад

Релиз autogpt-platform-beta-v0.6.64

Релиз autogpt-platform-beta-v0.6.64, датированной 18 июня 2026 года, вводит новые функции, такие как панель AutoPilot и глобальный поиск, а также улучшения в сохранении графов, кэшировании и производительности конструктора. В нём также содержатся меры по усилению безопасности, устранение ошибок в работе поставщиков LLM и улучшения интерфейса, включая высокоразрешающую иконку для сенсорного управления.

github CrewAI · 7 д назад

CrewAI v1.14.8a выпустил новые функции FlowDefinition

CrewAI v1.14.8a вводит скрипты и действия команды в FlowDefinition, добавляет поддержку режима DMN и позволяет выполнять потоки без кода на Python. Также включены экспериментальные возможности для команд на основе JSON и отказоустойчивое развертывание через ZIP, а также улучшена работа с памятью и отслеживание использования токенов.

media r/LocalLLaMA · 7 д назад

LocalLLaMA предлагает датасет для программирования, созданный сообществом

Инициатива сообщества предлагает создать датасет для программирования, собранный в ходе совместной работы, чтобы позволить разработке локальных моделей языковой обработки. Предложение направлено на то, чтобы позволить любому пользователю с оборудованием внести данные, при этом более мощные пользователи могут помогать в тонкой настройке или квантовании моделей, тем самым снижая зависимость от моделей, выпускаемых компаниями.

media r/LocalLLaMA · 7 д назад

Обзор GLM-5.2 и реакция на цензуру

GLM-5.2 демонстрирует исключительную согласованность в длинных контекстах и живое общение, превосходя Gemini-3.1-Pro по текстовым задачам и соответствующий GPT-5.5 по качеству логического мышления. Модель отвечает фактами на чувствительные темы, такие как Тайвань и площадь Тяньаньмен, предоставляя подробный исторический контекст без явной цензуры, хотя и следует китайским правительственным правилам содержания.

arxiv arXiv cs.AI · 7 д назад

LLM-как-интерфейс, ML-как-прогнозатор для детской аппендицита

ClaMPAPP, гибридная система, использует LLM для извлечения структурированных клинических признаков из свободного текста и передает их в XGBoost-классификатор для диагностики. Она превосходила конечные LLM в обеих внутренних и внешних валидациях, демонстрируя лучшую диагностическую производительность и меньшее количество пропущенных случаев, что свидетельствует об улучшенной стабильности и безопасности при дифференцировании детской аппендицита.

arxiv arXiv cs.AI · 7 д назад

Противоречия в адаптации медицинских LLM: исследование по вопросам в области французского языка

Исследование сравнивает непрерывное предобучение (CPT), надзорную настройку (SFT) и их комбинацию для медицинских вопросов в области французского языка. CPT+SFT показывает лучшие результаты в тестах на выбор одного из вариантов, хотя прирост по сравнению с SFT является незначительным и часто несущественным, что делает SFT эффективным и экономически выгодным решением по умолчанию. В случае открытых вопросов CPT улучшает метрики, в то время как SFT снижает качество, при этом настройка по инструкциям и CPT+SFT предпочитаются оценками на основе LLM. Результаты по межязыковой передаче показывают эффективную трансферность с французского на английский стандарты.

arxiv arXiv cs.AI · 7 д назад

Разбор внимания трансформера с помощью исполняемых программ

Новый метод использует синтез программ для генерации программ на языке Python, которые воспроизводят паттерны внимания в моделях трансформеров. Более 999 таких программ достигают более чем 75% схожести по пересечению-объединению на TinyStories, и замена 25% голов внимания этими программами приводит к росту перплексности на 16%, при этом сохраняется производительность на задачах ответа на вопросы.

arxiv arXiv cs.AI · 7 д назад

Агенты интеллектуального анализа данных обеспечивают автономный запрос данных

Агенты интеллектуального анализа данных (DIA) развертывают автономных агентов программирования для оптимизации рабочих процессов с данными в корпоративной среде. Генератор запросов достигает или превосходит лучшие публикуемые результаты на семи бенчмарках SQL по четырём синтаксисам, демонстрируя обобщение через естественные инструкции и архитектуру выполнения запросов.

media r/LocalLLaMA · 7 д назад

Оценка малых моделей LLM на сложных данных из HTML

Пользователь протестировал модели от 2B до 35B параметров на 29 сложных страницах извлечения данных из HTML и обнаружил, что более малые модели, такие как gemma4 e2b и e4b, превосходят более крупные. Qwen3.6 27B показал лучшую производительность, в то время как все MOE-модели получили низкие оценки, что подчёркивает важность задачоспецифической оценки.