Все статьи
media r/LocalLLaMA · 15 д назад

GLM-5.2 Max является текущим третьим по величине моделью

GLM-5.2 Max занимает третье место среди доступных моделей, как среди открытых, так и среди проприетарных моделей. Оценка основана на показателях производительности и текущих оценках в области больших языковых моделей.

blog Simon Willison · 15 д назад

Datasette 1.0a34 добавляет инструменты редактирования и удаления строк

Datasette 1.0a34 вводит инструменты для вставки, редактирования и удаления строк в интерфейсе. Эти функции доступны на страницах таблиц и как действия на страницах строк, решая долгожданную возможность в интерфейсе.

media r/LocalLLaMA · 15 д назад

Поиск локально размещаемого инструмента для создания английских субтитров из видео

Пользователь ищет локально размещаемое, автономное приложение для генерации английских субтитров (в формате .srt или .ass) из видеофайлов. Они рассматривают Qwen-ASR и Whisper как сильные варианты, но отмечают плохое сопоставление временных меток в реализациях ComfyUI и нестабильную работу с более старыми моделями, такими как те, что используются в storytoolkitAI. Они просят рекомендации, которые хорошо работают на Windows и могут обрабатывать несколько языков.

blog Simon Willison · 15 д назад

click-to-play — изображение, которое воспроизводится при клике

Веб-компонент click-to-play отображает статичное изображение с кнопкой «воспроизвести», которая загружает анимацию в формате GIF по запросу. Он поддерживает постепенное улучшение, позволяя загружать анимации только при взаимодействии пользователя с изображением.

media Latent Space · 15 д назад

GLM-5.2 претендует на первое место в frontend-программировании с использованием спекулятивного декодирования

GLM-5.2, модель из 744B параметров от Z.ai, была оценена как лучшая модель для frontend-программирования в мире, превосходя все версии Opus, включая Opus 4.8. Этот результат подчеркивается третьими сторонами, которые подтверждают официальные оффлайн-тесты, что является значимым достижением для модели такого размера, особенно в конкурентной области frontend-программирования.

media r/LocalLLaMA · 15 д назад

Сравнение производительности RTX 5060 Ti 16GB и RX 9060 XT 16GB

Сравнительный тест показывает, что NVIDIA RTX 5060 Ti 16GB превосходит AMD RX 9060 XT 16GB по нескольким моделям языковых моделей, обеспечивая более высокие скорости обработки ответов и токенов запроса. Повышение производительности сохраняется во всех моделях, таких как Gemma3, Llama3.2 и Qwen3, при этом RTX 5060 Ti демонстрирует значительно более быструю обработку запросов, особенно при работе с большими моделями.

media r/LocalLLaMA · 15 д назад

Элиас в фонаре: диагностика низкой разнообразности в историях больших языковых моделей

Новое исследование изучает ограниченную разнообразность в историях, генерируемых большими языковыми моделями, используя персонажа Элиаса в фонаре как пример. Исследование подчеркивает, как такие паттерны указывают на системные предвзятости в обучающих данных и выводах моделей.

arxiv arXiv cs.LG · 15 д назад

LegalHalluLens: аудит халлюцинаций в правовых ИИ

LegalHalluLens представляет рамку для аудита халлюцинаций ИИ в правовых контекстах, анализируя профили халлюцинаций при вводе по четырём категориям утверждений. Оно выявляет разрыв в 38-40 баллов между утверждениями о обязательствах/числовых и временных утверждениях, и показывает, что два системы с одинаковыми показателями 52% халлюцинаций могут иметь противоположные направления риска. Рамка использует индекс направления риска и калиброванные дебатные потоки для снижения выявленных халлюцинаций на 45%, предоставляя практические диагностики для надежного внедрения правового ИИ.

arxiv arXiv cs.LG · 15 д назад

Рекурсивные скрытые модели диффузии вводят новый осевой масштаб

Рекурсивные скрытые модели диффузии (R-MDMs) вводят рекурсивную глубину как третий осевой масштаб, применяя внутри каждого шага диффузии дезинтегрирующий трансформер. Эта рекурсия позволяет итеративно улучшать выход без увеличения количества параметров, достигая производительности, сравнимой с не-рекурсивными моделями, при наличии до L раз больше параметров, где L — количество итераций. R-MDMs также снижают вычислительные затраты на инференс, частично заменяя шаги дезинтеграции на рекурсивное уточнение.

arxiv arXiv cs.LG · 15 д назад

LoopCoder-v2 достигает оптимальной производительности при двух циклах

LoopCoder-v2, параллельная модель Transformer для циклов, демонстрирует превосходную производительность по генерации кода и логическому мышлению при двух циклах, повышая результаты SWE-bench Verified с 43,0 до 64,4 баллов и Multi-SWE с 14,0 до 31,0 баллов. Варианты с тремя или более циклами показывают худшую производительность, что указывает на немонотонный эффект количества циклов из-за роста позиционных несоответствий и уменьшения возвратов.

arxiv arXiv cs.LG · 15 д назад

Катастрофическое забвение — это низкий ранг: теория функционального пространства

Теория функционального пространства показывает, что катастрофическое забвение при непрерывной адаптации концентрируется в небольшом числе старых задач NTK-эйдженмодов. В случае линейного заголовка PEFT-CL с замороженной основой, вектор забвения точно предсказуем до численной точности, с правилом Кронекера для уязвимого ранга.

arxiv arXiv cs.LG · 15 д назад

INI-VPINN: нейронная сеть с физическими условиями, с упрощённым обработкой границ

INI-VPINN — это вариационная физически обусловленная нейронная сеть, которая неявно обеспечивает условия Неймана и условия на границах с помощью весовых функций с компактной поддержкой и интегрированием по частям. Она обеспечивает более высокую точность и быстрый сходимость по сравнению с существующими методами PINN при решении задач с несколькими материалами и геометрическими особенностями, а также с смешанными условиями на границах, и доступна на GitHub.

arxiv arXiv cs.LG · 15 д назад

Оценка базовых открытых моделей языковой модели для многозначной классификации ATT&CK

Создан и отображенный набор данных с 2076 предложениями, аннотированных людьми из 83 сложных отчетов по киберугрозам, с уровнем согласия между аннотаторами \k{appa} = 0.68. Оценены семь открытых моделей языковых моделей от 8B до 236B параметров, достигнув максимального значения F1 по микро-среднему среднему 0.22. Размер параметров показал статистически значимую положительную корреляцию с F1, в то время как стратегия запроса и температура не привели к значительным улучшениям, что указывает на недостаточность текущих открытых моделей языковых моделей для классификации ATT&CK на производственном уровне.

arxiv arXiv cs.LG · 15 д назад

Оценка неопределенности для моделей на основе потоков визуально-языковых-действий

Мы предлагаем метод, использующий несогласие потоков для оценки эпистемической неопределенности в моделях на основе потоков визуально-языковых-действий. Эта оценка неопределенности позволяет обнаруживать сбои во время развертывания и активного тонкого настройки через рамку SAVE, что снижает количество демонстраций экспертов на 22% по сравнению с базовыми методами, при этом обеспечивая более калиброванные предсказания на бенчмарке LIBERO.

arxiv arXiv cs.LG · 15 д назад

ConTex: Глобальное генерирование контрапротивных сценариев для прогнозирования временных рядов

ConTex переформулирует генерацию контрапротивных сценариев для прогнозирования временных рядов как задачу глобально согласованного вмешательства. Оно достигает уровня валидности, соответствующего самым современным достижениям, с редкими, интерпретируемыми вмешательствами, снижает вычислительные затраты в 12-36 раз и позволяет проводить реальное включение за примерно 0,007 секунд.

arxiv arXiv cs.LG · 15 д назад

ScaFE: Использование LLM для извлечения клинически значимых признаков шрамов

ScaFE переосмысляет большие языковые модели как инженеров признаков для классификации шрамов, генерируя исполняемый код на языке Python из клинических критериев для извлечения интерпретируемых признаков. Фреймворк достигает превосходной производительности при ограниченном объеме данных, сохраняет приватность, обрабатывая изображения локально, и генерирует клинически обоснованные признаки, соответствующие установленным шкалам, таким как шкала Ванкувера.

arxiv arXiv cs.LG · 15 д назад

NoiseTilt: Noise-Tilted Reverse Kernels для выравнивания вознаграждения в диффузионных моделях

NoiseTilt вводит NTRK, диффузионный образовательный сэмплер, который вводит градиенты вознаграждения через компонент шума без изменения обратного ядра. Используя оператор белого шума, NTRK безопасно смещает шум в сторону высоких вознаграждений, сохраняя качество образцов при обеспечении сильного направления. В задаче эстетического генерирования NTRK достигает превосходной производительности по вознаграждению при 25 NFE, снижая вычислительные затраты на 20× по сравнению с существующими базовыми моделями.

arxiv arXiv cs.LG · 15 д назад

Модели Вольтерры вводят дробную шум для генерации на основе счёта

Модели Вольтерры предлагают непрерывный временной подход на основе счёта, используя дробные ядра для введения шума, зависящего от пути, что избегает памяти-независимого шумирования в традиционных моделях диффузии. Подход вводит конечномерные марковские подъемы и доказывает оценки квадратичной ошибки, демонстрируя улучшенную генерацию на MNIST и потенциал для естественных изображений, при этом бридж-сэмплер повышает стабильность для более крупных моделей.

arxiv arXiv cs.LG · 15 д назад

Алгоритм второго порядка поиска причинности на основе тензоров

TSCD использует ковариационные матрицы из наблюдаемых и интервенционных данных для определения причинных структур в линейных структурных уравнениях на графах ДАГ. Он требует только несвязанных шумов и обеспечивает идентифицируемые порядки и параметры причинности с логарифмическим количеством интервенций, масштабируясь до сотен переменных, при этом сохраняя устойчивость к шуму и конкурируя с существующими методами.

arxiv arXiv cs.LG · 15 д назад

Edge Flow: Трехмерная модель для градиентного спуска на границе стабильности

Edge Flow — это разрешимая, предсказуемая модель непрерывного времени, которая описывает динамику градиентного спуска на границе стабильности. Она разбивает динамику на центральную, направление колебаний и их амплитуду, при этом самоподдерживающаяся осточность возникает из синхронного обратного действия. Модель требует лишь двух оценок градиента и одного произведения гессиана с вектором на итерацию, и превосходит предыдущие модели по отслеживанию колебаний и объяснению нестабильностей на границе стабильности.