Code generation
arxiv arXiv cs.CL · 7 д назад

IHUBERT: Монолингвальный предобученный модель на персидском языке с семантической дедупликацией

IHUBERT — это монолингвальный предобученный языковой модель на персидском языке, обученная на отобранных подмножестве объемом 45 ГБ из коллекции Sepahr-Danesh. Модель использует векторную семантическую дедупликацию и пайплайн предобучения с балансировкой по доменам для улучшения качества корпуса и снижения дублирования, достигая лучших результатов в извлечении ответов на вопросы и хороших результатов в распознавании сущностей и классификации тем, хотя распознавание связей остается сложной задачей.

arxiv arXiv cs.CL · 7 д назад

Адаптивное обучение с помощью LLM повышает вовлеченность и эффективность

Новая адаптивная система обучения с помощью LLM использует поддержку тематических запросов для повышения вовлеченности студентов. Она превосходит статические модели в симуляциях и реальных тестах A/B, снижая количество взаимодействий на 3 шага и увеличивая конверсию упражнений, особенно при использовании стохастического роутера, достигая 28,1%.

arxiv arXiv cs.CL · 7 д назад

PsyScore: Фреймворк, ориентированный на психометрические аспекты, для оценки эссе с адаптацией по характеристикам и сопровождения на основе зоны развития

PsyScore интегрирует диагностическую оценку и инструктивную обратную связь с использованием общей модели скрытой способности. В нём реализован адаптивный нейронный оценщик на основе GPCM, генератор обратной связи на основе зоны развития, который настраивает инструкции в зависимости от уровня компетентности, и стратегия многоплановой оценки. Эксперименты на ASAP++ показывают конкурентоспособную оценку и более педагогически обоснованную обратную связь по сравнению с существующими методами.

blog Simon Willison · 7 д назад

Datasette представляет плагин Apps для пользовательских приложений на HTML

Datasette выпустил новый плагин datasette-apps, который позволяет запускать автономные приложения на HTML+JavaScript в защищённой веб-рамке. Такие приложения могут выполнять только чтение или запись SQL-запросов к базам данных Datasette, при этом встроенные механизмы безопасности, такие как заголовки CSP и ограничения виртуальной среды, предотвращают утечку данных или незаконный доступ.

media r/LocalLLaMA · 7 д назад

GLM-5.2 (744B, 2-бит) достигает 7,3 ток/с на 4×3090 с 192 ГБ ОЗУ

GLM-5.2 UD-IQ2_M работает со скоростью около 7,3 токенов в секунду на 4×RTX 3090 с 192 ГБ DDR5 ОЗУ при использовании llama.cpp с экспертным выгрузкой. Снижение квантования с IQ2 до IQ1 не привело к увеличению скорости, в то время как увеличение числа потоков на ЦП от 6 до 12 повысило производительность на 22%. Декодирование ограничено вычислительной мощностью ЦП, а не пропускной способностью памяти, и эксперты, выгруженные на GPU, должны быть явно распределены между GPU, чтобы избежать ошибок переполнения памяти.

media r/LocalLLaMA · 7 д назад

DiffusionGemma 26B на 4090 достигает 475t/s с ограничениями

DiffusionGemma 26B работает до 475t/s на 4090 через vLLM с квантованием INT4 AWQ, достигая скоростей от 290t/s до 700t/s в зависимости от длины вывода. Однако, он страдает от односессионной работы, снижения точности ответов, быстрого потери контекста и более медленного времени до первого токена по сравнению с стандартными моделями 26B.

media r/LocalLLaMA · 7 д назад

Запуск GLM-5.2 только на CPU с локальной установкой

Пользователь запускает GLM-5.2 локально на сервере Dell PowerEdge R740 с двумя процессорами Xeon 6248R и 768 ГБ ОЗУ, используя ik_llama.cpp для улучшения инференса на CPU. После изоляции одного узла NUMA для оптимальной производительности, они достигают скорости 4–5,5 токена в секунду в чате и около 3 токена в секунду в задачах по кодированию, отмечая, что модель демонстрирует 'фронтирующие настроения' при генерации кода, несмотря на ограниченную применимость на этом оборудовании.

media r/LocalLLaMA · 7 д назад

Переиспользование старого узла с несколькими GPU для локальной инференции

Узел оснащен 8 NVIDIA Quadro RTX 6000 GPU с 192 ГБ ОЗУ и 512 ГБ ОЗУ, что позволяет выполнять масштабную локальную инференцию моделей ИИ. Модели, такие как LLaMA-3 или Mistral с 8–13 миллиардами параметров, могут здесь эффективно работать, обеспечивая более быструю, приватную и низкозадержку производительность по сравнению с настройками на одном GPU, что делает его ценным для внутреннего использования.

media r/LocalLLaMA · 7 д назад

Калибровка 2-битных GGUF для задач агентного программирования

2-битные квантованные версии Qwopus3.6-27B-Coder, калиброванные на реальных журналах агентного программирования, достигают 63% успешного прохождения на SWE-rebench. Версия IQ2_M превосходит некалиброванные версии и соперничает с Q5_K_M по показателю успешного прохождения, несмотря на то, что она вдвое меньше, с улучшенной устойчивостью к циклам и более быстрой декодировкой благодаря объединенному MTP.

media r/LocalLLaMA · 7 д назад

North Mini Code: 4-битная квантование, поддержка Ollama и OpenRouter

Cohere Labs выпустил версию North Mini Code с квантованием на 4 бита на Hugging Face, что сократило её размер до примерно 20 ГБ для локальной работы на устройствах, таких как Mac. Модель теперь поддерживается в Ollama, локальных средах выполнения на базе llama.cpp, и через API OpenRouter, что улучшает доступность для разработчиков.

media r/LocalLLaMA · 7 д назад

Снижение затрат на токены в реальных условиях за счёт headroom, rtk и caveman

Реальный анализ нагрузки показывает, что headroom, rtk и caveman снижают затраты на токены на 2,8%, 0,5% и 0.4% соответственно, что в сумме составляет 3,7% от базовых расходов. Однако сокращения ограничены разнообразием нагрузки, поскольку большая часть трафика состоит из простого текста или исходного кода, а инструменты сжимают только структурированные выводы. Большинство сокращений происходит в наиболее дешёвом потоке токенов — при чтении кэша, при этом инструменты не влияют на кэширование промптов или затраты на выводы, и существуют пробелы в охвате, особенно в отношении rtk.

media r/LocalLLaMA · 7 д назад

Laguna M.1: 225B параметр модель MoE для агентного кодирования

Laguna M.1 — это модель с 225B параметрами и 23B активными параметрами на каждый токен, разработанная для агентного кодирования и задач с длинным горизонтом. Она достигает конкурентоспособных результатов на SWE-bench Verified (74,6%), SWE-bench Multilingual (63,1%) и Terminal-Bench 2.0 (45,8%), превосходя модели, такие как Devstral 2 и GLM-4.7, на ключевых тестах.

media r/LocalLLaMA · 8 д назад

SLMs и диффузии: Будущее малых, специализированных моделей?

Пользователи обсуждают, может ли задачеспецифичная малая языковая модель (SLM) превосходить более крупные модели в определённых задачах, приводя примеры бенчмарков, где модели на 9 миллиардов параметров достигают или превосходят более крупные. Они предлагают последовательный агентский поток, использующий несколько специализированных моделей, при этом одна координирует, а другие проверяют ответы, предполагая, что диффузионные модели могут ускорять такие потоки, несмотря на снижение интеллекта.

media r/LocalLLaMA · 8 д назад

Llama Bench vs Реальное отклонение производительности

Пользователь сообщает о значительной разнице между результатами Llama benchmark и реальной производительностью модели. Бенчмарки показывают 754 токен/с при предварительной загрузке и 36 токен/с при генерации, однако в реальных условиях наблюдается только 7,98 токена в секунду, с высокой задержкой и плохим пропускным расходом. Отклонение объясняется реальными условиями использования, а не настройками бенчмарка, что указывает на то, что реальная производительность модели значительно ниже скорости, указанной в бенчмарке.

github llama.cpp · 8 д назад

LLaMA.cpp Release b9698 Добавляет поддержку самоподписки и бинарники для нескольких платформ

Версия LLaMA.cpp b9698 позволяет включать самоподписку только при сборке с помощью llama-install.sh. В этом выпуске представлены бинарники для macOS, Linux, Android, Windows и openEuler на разных архитектурах и вариантах ускорения, включая Vulkan, CUDA, OpenVINO и SYCL.

github AutoGPT · 8 д назад

Релиз autogpt-platform-beta-v0.6.64

Релиз autogpt-platform-beta-v0.6.64, датированной 18 июня 2026 года, вводит новые функции, такие как панель AutoPilot и глобальный поиск, а также улучшения в сохранении графов, кэшировании и производительности конструктора. В нём также содержатся меры по усилению безопасности, устранение ошибок в работе поставщиков LLM и улучшения интерфейса, включая высокоразрешающую иконку для сенсорного управления.

github CrewAI · 8 д назад

CrewAI v1.14.8a выпустил новые функции FlowDefinition

CrewAI v1.14.8a вводит скрипты и действия команды в FlowDefinition, добавляет поддержку режима DMN и позволяет выполнять потоки без кода на Python. Также включены экспериментальные возможности для команд на основе JSON и отказоустойчивое развертывание через ZIP, а также улучшена работа с памятью и отслеживание использования токенов.

media r/LocalLLaMA · 8 д назад

LocalLLaMA предлагает датасет для программирования, созданный сообществом

Инициатива сообщества предлагает создать датасет для программирования, собранный в ходе совместной работы, чтобы позволить разработке локальных моделей языковой обработки. Предложение направлено на то, чтобы позволить любому пользователю с оборудованием внести данные, при этом более мощные пользователи могут помогать в тонкой настройке или квантовании моделей, тем самым снижая зависимость от моделей, выпускаемых компаниями.