Code generation
media r/LocalLLaMA · 8 д назад

Обзор GLM-5.2 и реакция на цензуру

GLM-5.2 демонстрирует исключительную согласованность в длинных контекстах и живое общение, превосходя Gemini-3.1-Pro по текстовым задачам и соответствующий GPT-5.5 по качеству логического мышления. Модель отвечает фактами на чувствительные темы, такие как Тайвань и площадь Тяньаньмен, предоставляя подробный исторический контекст без явной цензуры, хотя и следует китайским правительственным правилам содержания.

arxiv arXiv cs.AI · 8 д назад

LLM-как-интерфейс, ML-как-прогнозатор для детской аппендицита

ClaMPAPP, гибридная система, использует LLM для извлечения структурированных клинических признаков из свободного текста и передает их в XGBoost-классификатор для диагностики. Она превосходила конечные LLM в обеих внутренних и внешних валидациях, демонстрируя лучшую диагностическую производительность и меньшее количество пропущенных случаев, что свидетельствует об улучшенной стабильности и безопасности при дифференцировании детской аппендицита.

arxiv arXiv cs.AI · 8 д назад

Противоречия в адаптации медицинских LLM: исследование по вопросам в области французского языка

Исследование сравнивает непрерывное предобучение (CPT), надзорную настройку (SFT) и их комбинацию для медицинских вопросов в области французского языка. CPT+SFT показывает лучшие результаты в тестах на выбор одного из вариантов, хотя прирост по сравнению с SFT является незначительным и часто несущественным, что делает SFT эффективным и экономически выгодным решением по умолчанию. В случае открытых вопросов CPT улучшает метрики, в то время как SFT снижает качество, при этом настройка по инструкциям и CPT+SFT предпочитаются оценками на основе LLM. Результаты по межязыковой передаче показывают эффективную трансферность с французского на английский стандарты.

arxiv arXiv cs.AI · 8 д назад

Разбор внимания трансформера с помощью исполняемых программ

Новый метод использует синтез программ для генерации программ на языке Python, которые воспроизводят паттерны внимания в моделях трансформеров. Более 999 таких программ достигают более чем 75% схожести по пересечению-объединению на TinyStories, и замена 25% голов внимания этими программами приводит к росту перплексности на 16%, при этом сохраняется производительность на задачах ответа на вопросы.

arxiv arXiv cs.AI · 8 д назад

Агенты интеллектуального анализа данных обеспечивают автономный запрос данных

Агенты интеллектуального анализа данных (DIA) развертывают автономных агентов программирования для оптимизации рабочих процессов с данными в корпоративной среде. Генератор запросов достигает или превосходит лучшие публикуемые результаты на семи бенчмарках SQL по четырём синтаксисам, демонстрируя обобщение через естественные инструкции и архитектуру выполнения запросов.

media r/LocalLLaMA · 8 д назад

Оценка малых моделей LLM на сложных данных из HTML

Пользователь протестировал модели от 2B до 35B параметров на 29 сложных страницах извлечения данных из HTML и обнаружил, что более малые модели, такие как gemma4 e2b и e4b, превосходят более крупные. Qwen3.6 27B показал лучшую производительность, в то время как все MOE-модели получили низкие оценки, что подчёркивает важность задачоспецифической оценки.

arxiv arXiv cs.CL · 8 д назад

LLM-как-интерфейс, ML-как-прогнозатор для детской аппендицитной болезни

ClaMPAPP, гибридная система, использует LLM для извлечения структурированных клинических признаков из свободно-текстовых записей и передает их в классификатор XGBoost для диагностики. Она превосходила конечные LLM в обеих внутренних и внешних валидациях, демонстрируя лучшую стабильность и меньшее количество пропущенных случаев аппендицита, что свидетельствует о превосходной диагностической эффективности и безопасности в педиатрической дифференциации.

arxiv arXiv cs.CL · 8 д назад

Эмпирическое исследование адаптации медицинских LLM на французском языке для вопросов поиска

Исследование сравнивает непрерывное предобучение (CPT), надзорную настройку (SFT) и их комбинацию для французских медицинских вопросов поиска. CPT+SFT показывает лучшие результаты в тестах на выбор одного из нескольких вариантов, хотя прирост по сравнению с SFT является минимальным и часто несущественным, что делает SFT эффективным и экономически выгодным стандартом. Для открытых вопросов CPT улучшает метрики, в то время как SFT снижает качество генерации, при этом настройка по инструкциям и CPT+SFT предпочитаются оценками, основанными на LLM. Результаты, связанные с межязыковыми переводами, показывают эффективную трансферную способность с французского на английский.

arxiv arXiv cs.LG · 8 д назад

REVES: Усиленное обучение для масштабирования на этапе тестирования

REVES представляет двухэтапную итерационную структуру, которая улучшает логическое мышление больших языковых моделей за счёт последовательного пересмотра и проверки. Метод достигает +6,5 баллов по сравнению с базовыми RL и +4,0 баллов по сравнению с стандартным многократным обучением на LiveCodeBench, используя базовую модель размером 4B и меньшее количество итераций, чем большие эволюционные системы. Метод улучшает исправление ошибок и обобщается на задачи за пределами распределения, такие как n_queens и mini_sudoku.

arxiv arXiv cs.LG · 8 д назад

Неподготовленная оптимизация вознаграждения для языковых моделей белков

Новый фреймворк позволяет языковым моделям белков генерировать управляемые последовательности белков без обучающих данных или проверки в лаборатории. Он использует вознаграждения, не зависящие от задачи, основанные на неопределённости модели и семантической согласованности, для направления генерации, при этом Soft и бинаризованная оптимизация вознаграждения превосходят базовые методы по охвату и управляемости в различных условиях.

arxiv arXiv cs.LG · 8 д назад

Sumi: Открытая унифицированная модель распределенной генерации языка, построенная с нуля

Sumi — это модель распределенной генерации языка с 7 миллиардами параметров, предобученная с нуля на 1,5 трлн токенов. Она конкурирует с автокоррекционными моделями на задачах знаний, логики и программирования, но демонстрирует ухудшение на тестах по общеобразовательным знаниям, вероятно, из-за доминирования в обучающих данных образовательного контента. Веса модели, контрольные точки и полная схема обучения были опубликованы.

arxiv arXiv cs.LG · 8 д назад

JourneyFormer: Моделирование последовательностей для путешествий гостей Airbnb

JourneyFormer — это решение по моделированию последовательностей, внедренное в Airbnb для улучшения ранжирования поиска. Оно решает производственные проблемы, такие как длинные и исследовательские последовательности гостей и редкие метки бронирования, за счёт специальных решений в выборе данных, векторных представлений и присвоении меток. Модель продемонстрировала улучшение метрик в оффлайне и значительные бизнес-выгоды в онлайн-экспериментах A/B на нескольких производственных поверхностях.

arxiv arXiv cs.LG · 8 д назад

OpenAnt: Система обнаружения уязвимостей на основе ЛЛМ

OpenAnt использует разбиение кода, противоположную проверку и динамическое тестирование для обнаружения уязвимостей в больших кодовых базах. Он снижает поверхность анализа на 97% и уменьшает количество ложноположительных результатов, при этом подтверждает находки с помощью автоматизированного, изолированного выполнения. Оценка на OpenSSL, WordPress и Flowise показывает, что OpenAnt обнаруживает ранее неизвестные уязвимости с приемлемыми затратами и масштабируемостью.

arxiv arXiv cs.CL · 8 д назад

HandwritingAgent: синтез ручного почерка на основе языка в SVG

HandwritingAgent синтезирует естественный ручной почерк в формате SVG без специфического обучения стилю. Он использует большой модельный рациональный процесс для генерации последовательностей линий на сетке холста, с учетом текстового ввода и образца стиля, обеспечивая эффективное, управляемое и обобщаемое генерирование почерка.

arxiv arXiv cs.CL · 8 д назад

Дистилляция с синтетическими данными для анализа финансового настроения

Фреймворк передает знания от крупных инструкционно настроенных моделей к компактным моделям с помощью синтетических данных, сгенерированных с помощью структурированного малошагового запроса. Выбор семян на основе кластеризации обеспечивает более репрезентативные синтетические примеры по сравнению с случайным выбором, позволяя компактным моделям достигать высокой производительности при минимальном количестве ручной метки. На сложных, шумных финансовых текстах учащая модель превосходит учителя, при этом оставаясь конкурентоспособной на официальных текстах.

arxiv arXiv cs.CL · 8 д назад

REVES: Усиленное обучение для масштабирования на этапе тестирования

REVES представляет двухэтапную итерационную структуру, которая улучшает логическое мышление больших языковых моделей за счёт последовательного редактирования и проверки. Метод достигает +6,5 баллов по сравнению с базовыми RL и +4,0 балла по сравнению с стандартным многократным обучением на LiveCodeBench, используя базовую модель размером 4B и меньшее количество итераций по сравнению с более крупными системами. Метод улучшает исправление ошибок и обобщается на задачи вне распределения, такие как n_queens и mini_sudoku.

arxiv arXiv cs.CL · 8 д назад

Sumi: Открытая унифицированная модель распределенной генерации языка, построенная с нуля

Sumi — это модель распределенной генерации языка с 7 миллиардами параметров, предобученная с нуля на 1,5 трлн токенов. Она конкурирует с автокоррекционными моделями на задачах знаний, логики и программирования, но демонстрирует ухудшение на тестах по общей логике, вероятно, из-за преобладания в данных образовательного контента. Веса модели, точки сохранения и полная схема обучения доступны для публичного использования.

arxiv arXiv cs.AI · 8 д назад

ProfiLLM: профилирование пользователей с ориентацией на полезность для распределения заказов в промышленных сервисах такси

ProfiLLM представляет агентную систему обработки больших моделей, которая извлекает поведенческие сигналы из журналов таксопарков для формирования профилей пользователей. Она обеспечивает увеличение относительного AUC до +6,14% и рост GMV до +4,35% в симуляциях распределения заказов, при этом в реальных онлайн-экспериментах A/B наблюдается стабильное улучшение на +0,47% GMV, +0,33% показателя выполнения заказа и снижение показателя отмены заказа до +0,82%.

arxiv arXiv cs.AI · 8 д назад

SAERec: Частотные предпосылки намерений через разреженные автоэнкодеры

SAERec строит частотные, интерпретируемые предпосылки намерений из текстовых корпусов с помощью разреженных автоэнкодеров для разъединения семантики, связанной с намерениями. Он извлекает как личные, так и публичные намерения пользователей, направляя рекомендации с человеко-понятными объяснениями и превосходит современные модели на публичных датасетах.