Code generation — korshunov.ai

Code generation Страница 10 / 14

Оценка малых моделей LLM на сложных данных из HTML

Пользователь протестировал модели от 2B до 35B параметров на 29 сложных страницах извлечения данных из HTML и обнаружил, что более малые модели, такие как gemma4 e2b и e4b, превосходят более крупные. Qwen3.6 27B показал лучшую производительность, в то время как все MOE-модели получили низкие оценки, что подчёркивает важность задачоспецифической оценки.

arxiv arXiv cs.CL · 7 д назад

LLM-как-интерфейс, ML-как-прогнозатор для детской аппендицитной болезни

ClaMPAPP, гибридная система, использует LLM для извлечения структурированных клинических признаков из свободно-текстовых записей и передает их в классификатор XGBoost для диагностики. Она превосходила конечные LLM в обеих внутренних и внешних валидациях, демонстрируя лучшую стабильность и меньшее количество пропущенных случаев аппендицита, что свидетельствует о превосходной диагностической эффективности и безопасности в педиатрической дифференциации.

arxiv arXiv cs.CL · 7 д назад

Эмпирическое исследование адаптации медицинских LLM на французском языке для вопросов поиска

Исследование сравнивает непрерывное предобучение (CPT), надзорную настройку (SFT) и их комбинацию для французских медицинских вопросов поиска. CPT+SFT показывает лучшие результаты в тестах на выбор одного из нескольких вариантов, хотя прирост по сравнению с SFT является минимальным и часто несущественным, что делает SFT эффективным и экономически выгодным стандартом. Для открытых вопросов CPT улучшает метрики, в то время как SFT снижает качество генерации, при этом настройка по инструкциям и CPT+SFT предпочитаются оценками, основанными на LLM. Результаты, связанные с межязыковыми переводами, показывают эффективную трансферную способность с французского на английский.

arxiv arXiv cs.LG · 7 д назад

REVES: Усиленное обучение для масштабирования на этапе тестирования

REVES представляет двухэтапную итерационную структуру, которая улучшает логическое мышление больших языковых моделей за счёт последовательного пересмотра и проверки. Метод достигает +6,5 баллов по сравнению с базовыми RL и +4,0 баллов по сравнению с стандартным многократным обучением на LiveCodeBench, используя базовую модель размером 4B и меньшее количество итераций, чем большие эволюционные системы. Метод улучшает исправление ошибок и обобщается на задачи за пределами распределения, такие как n_queens и mini_sudoku.

arxiv arXiv cs.LG · 7 д назад

Неподготовленная оптимизация вознаграждения для языковых моделей белков

Новый фреймворк позволяет языковым моделям белков генерировать управляемые последовательности белков без обучающих данных или проверки в лаборатории. Он использует вознаграждения, не зависящие от задачи, основанные на неопределённости модели и семантической согласованности, для направления генерации, при этом Soft и бинаризованная оптимизация вознаграждения превосходят базовые методы по охвату и управляемости в различных условиях.

arxiv arXiv cs.LG · 7 д назад

Sumi: Открытая унифицированная модель распределенной генерации языка, построенная с нуля

Sumi — это модель распределенной генерации языка с 7 миллиардами параметров, предобученная с нуля на 1,5 трлн токенов. Она конкурирует с автокоррекционными моделями на задачах знаний, логики и программирования, но демонстрирует ухудшение на тестах по общеобразовательным знаниям, вероятно, из-за доминирования в обучающих данных образовательного контента. Веса модели, контрольные точки и полная схема обучения были опубликованы.

arxiv arXiv cs.LG · 7 д назад

JourneyFormer: Моделирование последовательностей для путешествий гостей Airbnb

JourneyFormer — это решение по моделированию последовательностей, внедренное в Airbnb для улучшения ранжирования поиска. Оно решает производственные проблемы, такие как длинные и исследовательские последовательности гостей и редкие метки бронирования, за счёт специальных решений в выборе данных, векторных представлений и присвоении меток. Модель продемонстрировала улучшение метрик в оффлайне и значительные бизнес-выгоды в онлайн-экспериментах A/B на нескольких производственных поверхностях.

arxiv arXiv cs.LG · 7 д назад

OpenAnt: Система обнаружения уязвимостей на основе ЛЛМ

OpenAnt использует разбиение кода, противоположную проверку и динамическое тестирование для обнаружения уязвимостей в больших кодовых базах. Он снижает поверхность анализа на 97% и уменьшает количество ложноположительных результатов, при этом подтверждает находки с помощью автоматизированного, изолированного выполнения. Оценка на OpenSSL, WordPress и Flowise показывает, что OpenAnt обнаруживает ранее неизвестные уязвимости с приемлемыми затратами и масштабируемостью.

arxiv arXiv cs.CL · 7 д назад

HandwritingAgent: синтез ручного почерка на основе языка в SVG

HandwritingAgent синтезирует естественный ручной почерк в формате SVG без специфического обучения стилю. Он использует большой модельный рациональный процесс для генерации последовательностей линий на сетке холста, с учетом текстового ввода и образца стиля, обеспечивая эффективное, управляемое и обобщаемое генерирование почерка.

arxiv arXiv cs.CL · 7 д назад

Приближенная структурированная диффузия для последовательной метки

Новый метод использует диффузию для обучения CRF на полных последовательностях меток, с учетом шумных меток. При комбинации с приближенным выводом ошибка POS-метки снижается на 16,5%.

arxiv arXiv cs.CL · 7 д назад

Дистилляция с синтетическими данными для анализа финансового настроения

Фреймворк передает знания от крупных инструкционно настроенных моделей к компактным моделям с помощью синтетических данных, сгенерированных с помощью структурированного малошагового запроса. Выбор семян на основе кластеризации обеспечивает более репрезентативные синтетические примеры по сравнению с случайным выбором, позволяя компактным моделям достигать высокой производительности при минимальном количестве ручной метки. На сложных, шумных финансовых текстах учащая модель превосходит учителя, при этом оставаясь конкурентоспособной на официальных текстах.

arxiv arXiv cs.CL · 7 д назад

REVES: Усиленное обучение для масштабирования на этапе тестирования

REVES представляет двухэтапную итерационную структуру, которая улучшает логическое мышление больших языковых моделей за счёт последовательного редактирования и проверки. Метод достигает +6,5 баллов по сравнению с базовыми RL и +4,0 балла по сравнению с стандартным многократным обучением на LiveCodeBench, используя базовую модель размером 4B и меньшее количество итераций по сравнению с более крупными системами. Метод улучшает исправление ошибок и обобщается на задачи вне распределения, такие как n_queens и mini_sudoku.

arxiv arXiv cs.CL · 7 д назад

Sumi: Открытая унифицированная модель распределенной генерации языка, построенная с нуля

Sumi — это модель распределенной генерации языка с 7 миллиардами параметров, предобученная с нуля на 1,5 трлн токенов. Она конкурирует с автокоррекционными моделями на задачах знаний, логики и программирования, но демонстрирует ухудшение на тестах по общей логике, вероятно, из-за преобладания в данных образовательного контента. Веса модели, точки сохранения и полная схема обучения доступны для публичного использования.

arxiv arXiv cs.AI · 7 д назад

ProfiLLM: профилирование пользователей с ориентацией на полезность для распределения заказов в промышленных сервисах такси

ProfiLLM представляет агентную систему обработки больших моделей, которая извлекает поведенческие сигналы из журналов таксопарков для формирования профилей пользователей. Она обеспечивает увеличение относительного AUC до +6,14% и рост GMV до +4,35% в симуляциях распределения заказов, при этом в реальных онлайн-экспериментах A/B наблюдается стабильное улучшение на +0,47% GMV, +0,33% показателя выполнения заказа и снижение показателя отмены заказа до +0,82%.

arxiv arXiv cs.AI · 7 д назад

SAERec: Частотные предпосылки намерений через разреженные автоэнкодеры

SAERec строит частотные, интерпретируемые предпосылки намерений из текстовых корпусов с помощью разреженных автоэнкодеров для разъединения семантики, связанной с намерениями. Он извлекает как личные, так и публичные намерения пользователей, направляя рекомендации с человеко-понятными объяснениями и превосходит современные модели на публичных датасетах.

arxiv arXiv cs.AI · 7 д назад

CAPRA: Многоагентная система LLM для обратной связи по архитектуре программного обеспечения

CAPRA — это многоагентная система LLM, которая генерирует персонализированную, шаблонную обратную связь на LaTeX по доставляемым архитектурным материалам. Она использует специализированные агенты, PyMuPDF и gpt-4o для извлечения и анализа текста и диаграмм UML, при этом обеспечивается надежность за счёт фиксации доказательств и управления согласованностью. Предварительная оценка 10 отчётов студентов показала, что CAPRA выполнил 88,8% из восьми критериев и достиг среднего уровня согласия между оценщиками (kappa = 0,582), при этом каждый отчёт обрабатывался менее чем за 4 минуты.

arxiv arXiv cs.AI · 7 д назад

Изменчивость в программном обеспечении, созданном с помощью ИИ: Новый подход к разработке линейки продуктов

Экспериментальный анализ 10 проектов на языках C/C++, кодированных по принципу vibe, показывает практически нулевую изменчивость в артефактах, при этом все решения принимаются на этапе генерации. В статье предлагается подход Variability by Regeneration (VbR), в котором LLM выступает в роли двигателя дифференциации, генерируя настраиваемые бинарные файлы из декларативных спецификаций, при этом диспетчер вариантов направляет запросы пользователя на соответствующий бинарный файл. Vb-Р переносит изменчивость в спецификации, а не в код, предлагая новый парадигм для инженерии систем с переменными параметрами.

blog Simon Willison · 7 д назад

GLM-5.2 — ведущая модель открытых весов на Индексе искусственного аналитического интеллекта

GLM-5.2, текстовая модель из 753 миллиона параметров от Z.ai, теперь является ведущей моделью открытых весов на Индексе искусственного аналитического интеллекта, превосходя MiniMax-M3, DeepSeek V4 Pro и Kimi K2.6. У неё контекстное окно в 1 миллион токенов и занимает второе место на лидерборде Code Arena WebDev, несмотря на отсутствие возможностей обработки изображений.

media r/LocalLLaMA · 7 д назад

Лучшие модели для видеопамяти 12 ГБ

Пользователь с видеопамятью 12 ГБ на GPU спрашивает о рекомендациях моделей для общих бесед, ролевых игр и программирования. Он предпочитает нецензурные модели для бесед и ролевых игр, и имеет процессор Ryzen 5600 и 32 ГБ ОЗУ.

lab Claude Code Releases · 7 д назад

Официальные заметки по выпуску Claude Code v2.1.181

Claude Code v2.1.181 вводит поддержку настройки параметров конфигурации через синтаксис промпта, например /config thinking=false, добавляет поддержку событий Apple в среде macOS и улучшает поведение потокового вывода, автоматического повтора и подагентов. Также исправлены множество ошибок, связанных с запуском, обработкой файлов, копированием и отзывчивостью интерфейса на разных платформах.