Code generation — korshunov.ai

Code generation Страница 1 / 14

Поиск локально размещаемого инструмента для создания английских субтитров из видео

Пользователь ищет локально размещаемое, автономное приложение для генерации английских субтитров (в формате .srt или .ass) из видеофайлов. Они рассматривают Qwen-ASR и Whisper как сильные варианты, но отмечают плохое сопоставление временных меток в реализациях ComfyUI и нестабильную работу с более старыми моделями, такими как те, что используются в storytoolkitAI. Они просят рекомендации, которые хорошо работают на Windows и могут обрабатывать несколько языков.

media Latent Space · 8 д назад

GLM-5.2 претендует на первое место в frontend-программировании с использованием спекулятивного декодирования

GLM-5.2, модель из 744B параметров от Z.ai, была оценена как лучшая модель для frontend-программирования в мире, превосходя все версии Opus, включая Opus 4.8. Этот результат подчеркивается третьими сторонами, которые подтверждают официальные оффлайн-тесты, что является значимым достижением для модели такого размера, особенно в конкурентной области frontend-программирования.

arxiv arXiv cs.LG · 8 д назад

LoopCoder-v2 достигает оптимальной производительности при двух циклах

LoopCoder-v2, параллельная модель Transformer для циклов, демонстрирует превосходную производительность по генерации кода и логическому мышлению при двух циклах, повышая результаты SWE-bench Verified с 43,0 до 64,4 баллов и Multi-SWE с 14,0 до 31,0 баллов. Варианты с тремя или более циклами показывают худшую производительность, что указывает на немонотонный эффект количества циклов из-за роста позиционных несоответствий и уменьшения возвратов.

arxiv arXiv cs.LG · 8 д назад

ScaFE: Использование LLM для извлечения клинически значимых признаков шрамов

ScaFE переосмысляет большие языковые модели как инженеров признаков для классификации шрамов, генерируя исполняемый код на языке Python из клинических критериев для извлечения интерпретируемых признаков. Фреймворк достигает превосходной производительности при ограниченном объеме данных, сохраняет приватность, обрабатывая изображения локально, и генерирует клинически обоснованные признаки, соответствующие установленным шкалам, таким как шкала Ванкувера.

arxiv arXiv cs.LG · 8 д назад

Встроенная рабочая среда ML для периферийных устройств на микроконтроллерах

В этой статье представлен системный подход к встраиваемому машинному обучению на устройствах класса микроконтроллера. Описывается ключевые инженерные решения, такие как выбор образцов данных, извлечение признаков, проверка несбалансированности классов, совместный дизайн модели и времени выполнения, а также развертывание в потоке, с использованием задач распознавания инерционных движений и распознавания ключевых слов в качестве примеров. Работа предоставляет практические правила проектирования для надежного выполнения инференса на устройстве, включая кураторство данных, квантование, пороговые значения, планирование и мониторинг в поле.

arxiv arXiv cs.LG · 8 д назад

ReproRepo: масштабируемый аудит воспроизводимости с использованием Issue GitHub

ReproRepo представляет масштабируемую систему, использующую Issue GitHub для оценки воспроизводимости ML статей. Оно показывает, что агенты на основе LLM, такие как Codex с GPT-5.5, выявляют по крайней мере один блокирующий элемент, отмеченный человеком, в 90% из 1149 ML статей, подчеркивая их способность обнаруживать видимые сбои и семантические проблемы, хотя точная локализация остается ограниченной.

media r/LocalLLaMA · 8 д назад

Оценки модифицированного V620 с прошивкой W6800 на eBay

Модифицированный V620 с прошивкой W6800 позволяет получить выход на mini-DisplayPort, но отключает некоторые вычислительные ядра, несмотря на более высокие частоты быстрой загрузки. Оценки показывают, что Vulkan превосходит ROCm в задачах по группам тензоров (TG), в то время как ROCm быстрее в обработке запросов (PP) при больших глубинах контекста, с существенными выигрышами в настройках Q4_K_XL.

media r/LocalLLaMA · 8 д назад

Самый дешевый способ запуска GLM 5.x локально без использования единых памяти

Пользователь исследует экономически обоснованные способы запуска GLM 5.x локально с использованием 4-битной квантования, таких как IQ4_XS, без зависимости от единых памяти. Возможные варианты включают настройки только на процессоре, такие как Sapphire Rapids ES с DDR5, распределение нагрузки между несколькими GPU или использование моделей аналогичного размера. Пользователь использует систему 5900X + 128 ГБ DDR4 + 7900XT 20 ГБ и успешно запускает Minimax 2.7 при Q4_K_S и Qwen 3.6 27B при IQ4_XS.

arxiv arXiv cs.CL · 8 д назад

ReproRepo: масштабирование аудитов воспроизводимости с использованием Issue GitHub

ReproRepo представляет масштабируемую архитектуру, использующую Issues GitHub для оценки воспроизводимости ML-статьй. Оно показывает, что агенты на основе LLM, такие как Codex с GPT-5.5, выявляют хотя бы один семантически связанный барьер в 90% пар статей и репозиториев без выполнения кода.

arxiv arXiv cs.AI · 8 д назад

LoopCoder-v2 достигает оптимальной производительности при двух циклах

LoopCoder-v2, параллельная модель на основе трансформера для циклов, демонстрирует значительное улучшение в генерации кода и логическом мышлении при наличии двух циклов, повышая результаты SWE-bench Verified с 43,0 до 64,4 баллов и Multi-SWE с 14,0 до 31,0 баллов. Варианты с тремя или более циклами показывают худшую производительность, свидетельствуя о снижении эффективности и колебательных обновлениях из-за несоответствий позиций, вызванных перекрёстными смещениями между циклами.

arxiv arXiv cs.AI · 8 д назад

ScaFE: Использование больших языковых моделей для извлечения клинически значимых признаков шрамов

ScaFE предлагает использовать большие языковые модели как инженеров признаков для преобразования медицинских изображений в клинически интерпретируемые представления. Генерируя детерминированный код на языке Python из установленных критериев оценки шрамов, метод извлекает признаки, согласованные с клиническими шкалами, такими как шкала Ванкувера. Метод демонстрирует превосходную производительность при ограниченных данных, обладая преимуществами в эффективности использования данных, сохранении конфиденциальности и интерпретируемости.

arxiv arXiv cs.AI · 8 д назад

ALERCЕ запускает систему текст-в-СУЛЬ с использованием больших языковых моделей

Астрономическая база данных ALeRCE представляет систему текст-в-СУЛЬ, использующую большие языковые модели, позволяющую генерировать исполняемые запросы SQL на естественном языке. Система была оценена на 110 парах естественного языка и SQL, и использует пошаговый подход, превосходящий базовые модели с прямым выводом. Модель Claude Opus 4.6 достигает высокой точности при выполнении простых запросов и показывает лучшую общую производительность среди всех оцененных моделей.

arxiv arXiv cs.AI · 8 д назад

Встроенная рабочая среда ML для периферийных устройств на микроконтроллерах

В этой статье представлен системный подход к встраиваемому машинному обучению на устройствах класса микроконтроллера. В ней подробно описываются ключевые инженерные решения, такие как выбор образцов данных, извлечение признаков, проверка несбалансированности классов, совместный дизайн модели и режима работы, а также развертывание в потоке, используя примеры распознавания инерциальных движений и распознавания ключевых слов. Работа предоставляет практические правила проектирования надежного выполнения инференса на устройстве, включая кураторство данных, квантование, пороговые значения, планирование и мониторинг в полевых условиях.

arxiv arXiv cs.AI · 8 д назад

Сигналы Оракла в коде тестов, написанном агентами

Эмпирическое исследование 86 156 поправок на тестовые файлы из 33 596 запросов на внесение изменений, созданных агентами, показывает, что 80,2% поправок на тестовые файлы содержат слабые или отсутствующие явные сигналы оракла. Тестовые файлы с сильным ораклом значительно повышают вероятность слияния (OR = 1,28, p < 0,001) после корректировки на множество факторов, что указывает на то, что присутствие тестового файла в отдельности переоценивает степень верификации.

arxiv arXiv cs.AI · 8 д назад

ReproRepo: масштабирование аудитов воспроизводимости с помощью Issue GitHub

ReproRepo представляет масштабируемую архитектуру, использующую Issues GitHub для оценки воспроизводимости научных статей в области машинного обучения. Оно показывает, что агенты на основе языковых моделей, такие как Codex с GPT-5.5, выявляют хотя бы один барьер в 90% пар статей и репозиториев без выполнения кода, хотя точная локализация остаётся сложной задачей.

arxiv arXiv cs.CL · 8 д назад

SwiftTrans повышает эффективность перевода кода на основе ЛЛМ

SwiftTrans решает проблемы эффективности во время выполнения в переводе кода на основе ЛЛМ, вводя Multi-Perspective Exploration и Difference-Aware Selection. Фреймворк расширяет CodeNet, F2SBench и вводит SwiftBench для оценки производительности во время выполнения, демонстрируя стабильное улучшение как по правильности, так и по эффективности на различных тестовых наборах.

arxiv arXiv cs.CL · 8 д назад

Несоответствие кодовых стандартов агентной разработке программного обеспечения

Текущие кодовые стандарты были разработаны до появления агентной разработки программного обеспечения и не отражают сложность реальных систем. Они смешивают производительность модели с полным решением, игнорируют допустимые альтернативные решения и не содержат сигналов обратной связи на уровне отдельных компонентов, что делает итеративное улучшение сложным.

arxiv arXiv cs.CL · 8 д назад

GameCraft-Bench: Оценка полного генерирования игр

GameCraft-Bench представляет бенчмарк с 140 задачами Godot в 15 семействах игр для оценки способности код-агентов генерироватьPlayable игры. Оценки показывают, что лучший агент достигает лишь 41,46% успеха, что указывает на значительные трудности в создании полных, интерактивных игр с согласованной игрой и визуальной обратной связью.

arxiv arXiv cs.CL · 8 д назад

Настройка ЛЛМ для оценки степени пассивной депрессии

Модель, настроенная на Qwen3.5-27B, предсказывает оценки PHQ-9 на основе транскриптов диалогов с ИИ, достигая MAE=2.6 и AUC=0.91 при пороге PHQ-9 >= 10. Она сохраняет AUC > 0-87 на всех уровнях степени PHQ-9, демонстрируя точную оценку степени депрессии в реальных диалогах без самопротоколирования.

arxiv arXiv cs.CL · 8 д назад

VoidPadding: Разделение [EOS] завершения и заполнения в MDLMs

VoidPadding вводит [VOID] как токен заполнения для разделения семантического завершения и моделирования длины ответа. Он повышает производительность при решении математических задач и генерации кода на 17,84 пункта по сравнению с исходной моделью и снижает среднее количество ошибок декодирования на 55,7%.