Code generation
media r/LocalLLaMA · 6 д назад

Как я могу самостоятельно развернуть инструменты проверки кода?

Пользователь спрашивает о развертывании инструментов проверки кода на собственном сервере из-за прекращения поддержки консумерской версии Gemini Code Assist и перехода на только корпоративную версию. Они исследуют GitHub apps или действия для решений, развернутых локально или в облаке.

github llama.cpp · 6 д назад

Релиз LLaMA.cpp b9715 добавляет поддержку CUDA Col2Im 1D и бинарные файлы для нескольких платформ

Версия LLaMA.cpp b9715 вводит поддержку CUDA для GGML_OP_COL2IM_1D, основанную на реализации на процессоре. В релизе представлены бинарные файлы для macOS, Linux, Android, Windows и openEuler на нескольких архитектурах и ускорениях, включая Vulkan, ROCm, OpenVINO и SYCL.

arxiv arXiv cs.AI · 6 д назад

Multi-LCB: Расширение LiveCodeBench до 12 языков программирования

Multi-LCB расширяет LiveCodeBench до двенадцати языков программирования, сохраняя его меры контроля за загрязнением и протокол оценки. Оно выявляет переобучение Python, языковые предвзятости и значительные разрывы в производительности между LLM на разных языках, устанавливая строгий стандарт для генерации кода на разных языках.

arxiv arXiv cs.AI · 6 д назад

G2Rec: Единая платформа для генеративных рекомендаций

G2Rec представляет масштабируемую платформу, которая объединяет целостную графовую модель совместного взаимодействия пользователей и семантическую токенизацию. Она позволяет генеративным моделям рекомендаций выявлять всесторонние, семантически обоснованные прототипы интересов пользователей без использования истинных интересов пользователей, превосходя существующие методы в масштабных последовательных рекомендациях на промышленном уровне.

arxiv arXiv cs.LG · 6 д назад

Метод probe-and-refine улучшает производительность код-агента

Новый метод, называемый probe-and-refine tuning, использует синтетические пробы исправления ошибок для итеративного улучшения файлов руководства репозитория с помощью одноразовых вызовов LLM, без циклов агентов или использования инструментов. На SWE-bench Verified он достигает среднего коэффициента разрешения 33,0% — на 14,5 процентных пункта выше начального статического базового знания — что свидетельствует о расширении охвата, а не точности исправлений. Метод позволяет агентам эффективно использовать большие бюджеты шагов, и производительность остается стабильной при различных моделях, при наличии достаточного диагностического вывода.

arxiv arXiv cs.AI · 6 д назад

IHUBERT: Монолингвальный персийский предобученный модель с семантической дедупликацией

IHUBERT — это монолингвальный персийский предобученный язык-модель, обученная на отобранных 45 ГБ из коллекции Sepahr-Danesh. Модель использует векторную семантическую дедупликацию и пайплайн предобучения с балансировкой доменов для улучшения качества корпуса и снижения дублирования, достигая лучших результатов в извлечении ответов на вопросы и хороших результатов в распознавании сущностей и классификации тем, хотя распознавание связей остаётся сложной задачей.

arxiv arXiv cs.AI · 6 д назад

Адаптивное обучение с помощью LLM повышает вовлеченность и эффективность

Новая адаптивная система обучения с помощью LLM использует поддержку тематических запросов для повышения вовлеченности студентов. Она превосходит статические модели в симуляции и демонстрирует реальную эффективность, снижая количество взаимодействий на 3 шага и увеличивая коэффициент преобразования упражнений до 28,1% с помощью стохастической стратегии.

arxiv arXiv cs.AI · 6 д назад

SoftSkill: сжатие поведенческих навыков для адаптации в контексте

SoftSkill предлагает метод сжатия естественных языковых навыков в компактные скрытые предпосылки, что улучшает выполнение задач на SearchQA, LiveMath и DocVQA. Метод превосходит SkillOpt на 5,2–12,5 баллов по ключевым метрикам, при этом заменяя сотни или тысячи токенов Markdown на несколько виртуальных токенов.

arxiv arXiv cs.AI · 6 д назад

AutoPass: агенты на основе доказательств для настройки производительности компилятора

AutoPass использует доказательства из работы в реальном времени и компилятора для направления решений по оптимизации, генерируемых ЛЛМ, и превосходит экспертные эвристики и классические методы автоматической настройки. Он достигает геометрических средних ускорений в 1,043 раза на системах x86-64 и в 1,117 раза на системах ARM64 без предварительного обучения или тонкой настройки.

arxiv arXiv cs.LG · 6 д назад

Генерируемые LLM-ядра GPU подвергаются иллюзии корректности

Оценки с использованием проверок фиксированной формы пропускают реальные ошибки в ядрах GPU, генерируемых LLM. Контролируемый корпус из 24 ядер, включающий 9 вариантов с ошибками транскрипции, показывает, что оракул, учитывающий схему операций, обнаруживает все сбои и проходит все корректные проверки, с одинаковыми результатами на пяти архитектурах GPU.

arxiv arXiv cs.LG · 6 д назад

Адаптивное обучение с использованием ЛЛМ повышает вовлеченность и эффективность

Новая система использует поддержку по тематике для адаптации стратегий обучения в зависимости от успеваемости студентов и предмета. Результаты A/B тестирования с 656 разговорами студентов показывают, что модель снижает количество взаимодействий на 3 шага и повышает конверсию стратегий обучения с 19,1% до 28,1% при использовании стохастического роутера.

lab Claude Code Releases · 6 д назад

Примечания к выпуску v2.1.183

v2.1.183 повышает безопасность режима автоматического выполнения, блокируя разрушительные команды git и destroy без явного согласия пользователя. В версии добавлены предупреждения о устаревании для моделей, введена атрибут attribution.sessionUrl для скрытия ссылок на сессии, а также исправлены несколько проблем, включая поведение терминала, производительность подагентов и обработку ввода в веб- и tmux-средах.

arxiv arXiv cs.CL · 6 д назад

AgentFinVQA: аудитируемый, локальный вопрос-ответ по финансовым графикам

AgentFinVQA представляет многоагентную систему для вопросов по финансовым графикам, обеспечивающую аудитируемость и возможность развертывания на локальной инфраструктуре без значительного снижения точности. Она превосходит базовые модели на +7,68 pp при использовании проприетарного ядра и на +4,84 pp с открытыми весами Qwen3.6-27B-FP8, при этом обеспечивая сигнал уверенности через вывод верификатора, что улучшает маршрутизацию ручного обзора.

arxiv arXiv cs.CL · 6 д назад

JAMER: Датасет и бенчмарк проектного уровня кода

JAMER вводит JamSet и JamBench, первый датасет и бенчмарк проектного уровня кода для профессиональной игровой платформы. Созданный на основе 8133 проверенных проектов Game Jam, он обеспечивает детерминированную оценку и выявляет порог способности в моделях ИИ при увеличении масштаба проекта, при этом процент успешных запусков снижается с 80,4% до 5,7%.

arxiv arXiv cs.CL · 6 д назад

Нулевая задача агентных LLM извлекает патологию лёгких из повествований

Нулевая задача агентного потока, использующего открытые LLM, извлекает 13 синоптических полей Колледжа американских патологов из отчетов о патологических исследованиях лёгочной резекции. Наилучшая модель (GPT-OSS-20B) достигла значения Micro-F1 0.893, превосходя базовый уровень воспроизведения и точно отражая сложные патологические отношения без специализированного обучения.

arxiv arXiv cs.CL · 6 д назад

STAGE: Генерация данных с опорой на источник для преобразования текста в JSON

STAGE — это пайплайн, который генерирует обучающие данные текст-в-JSON с использованием языковых моделей для синтеза отчётов и схем JSON, проверенных посредством исходных таблиц. Оценки на STAGE-Eval показывают, что STAGE повышает точность Qwen3-4B с 31,37% до 74,27% и точность значений с 45,46% до 90,69%.

arxiv arXiv cs.CL · 6 д назад

IHUBERT: Монолингвальный предобученный модель на персидском языке с семантической дедупликацией

IHUBERT — это монолингвальный предобученный языковой модель на персидском языке, обученная на отобранных подмножестве объемом 45 ГБ из коллекции Sepahr-Danesh. Модель использует векторную семантическую дедупликацию и пайплайн предобучения с балансировкой по доменам для улучшения качества корпуса и снижения дублирования, достигая лучших результатов в извлечении ответов на вопросы и хороших результатов в распознавании сущностей и классификации тем, хотя распознавание связей остается сложной задачей.

arxiv arXiv cs.CL · 6 д назад

Адаптивное обучение с помощью LLM повышает вовлеченность и эффективность

Новая адаптивная система обучения с помощью LLM использует поддержку тематических запросов для повышения вовлеченности студентов. Она превосходит статические модели в симуляциях и реальных тестах A/B, снижая количество взаимодействий на 3 шага и увеличивая конверсию упражнений, особенно при использовании стохастического роутера, достигая 28,1%.

arxiv arXiv cs.CL · 6 д назад

PsyScore: Фреймворк, ориентированный на психометрические аспекты, для оценки эссе с адаптацией по характеристикам и сопровождения на основе зоны развития

PsyScore интегрирует диагностическую оценку и инструктивную обратную связь с использованием общей модели скрытой способности. В нём реализован адаптивный нейронный оценщик на основе GPCM, генератор обратной связи на основе зоны развития, который настраивает инструкции в зависимости от уровня компетентности, и стратегия многоплановой оценки. Эксперименты на ASAP++ показывают конкурентоспособную оценку и более педагогически обоснованную обратную связь по сравнению с существующими методами.

blog Simon Willison · 7 д назад

Datasette представляет плагин Apps для пользовательских приложений на HTML

Datasette выпустил новый плагин datasette-apps, который позволяет запускать автономные приложения на HTML+JavaScript в защищённой веб-рамке. Такие приложения могут выполнять только чтение или запись SQL-запросов к базам данных Datasette, при этом встроенные механизмы безопасности, такие как заголовки CSP и ограничения виртуальной среды, предотвращают утечку данных или незаконный доступ.