Все статьи
media r/LocalLLaMA · 14 д назад

Локальные модели перешли от в основном бесполезных до действительно полезных за один год

Локальные модели перешли от того, что они были в основном ориентированы на приватность и служили игрушками, до практических инструментов для программирования, управления частными документами и локальных рабочих процессов за один год. Хотя они всё ещё не могут заменить лучшие закрытые модели при выполнении сложных задач, требующих планирования и исправления ошибок, общий рост в удобстве и производительности очевиден.

media r/LocalLLaMA · 14 д назад

Год разработки полностью локального голосового помощника для дома

Разработчик потратил 12 месяцев на создание локального, открытого голосового помощника, вдохновленного Alexa, документируя возникающие трудности и прогресс. Проект ставил целью создание альтернативы с акцентом на приватность, используя локальные модели, с постоянными улучшениями и исправлениями.

media r/LocalLLaMA · 14 д назад

GLM-5.2: Создан для задач с длительным горизонтом

GLM-5.2 — это языковая модель, разработанная специально для задач с длительным горизонтом. Она направлена на более эффективное выполнение сложных, многошаговых рассуждений и долгосрочного планирования за счёт улучшения способности сохранять контекст на протяжении длительных последовательностей.

media r/LocalLLaMA · 14 д назад

Rio 3.5 397B, вероятно, неудачное преступление по краже средств на развитие ИИ

AI-модель Rio 3.5 397B, по сообщениям, была разработана путем слияния модели Nex N2 Pro без дополнительной тренировки, используя средства, предназначенные для правильной разработки моделей. Официальная документация сначала утверждала наличие продвинутой тренировки, но позже была обновлена и признала поверхностное слияние, при этом все еще утверждала, что произошла дополнительная тренировка, и исходная модель была удалена с Hugging Face.

github llama.cpp · 14 д назад

llama.cpp выпускает b9673 с аллокациями USM системы и бинарниками для разных платформ

Версия llama.cpp b9673 вводит опциональные аллокации USM системы для буферов GPU ≥1GB, позволяя перераспределять VRAM при наличии поддержки устройства. Функция требует переменной среды GGML_SYCL_USM_SYSTEM и по умолчанию отключена, в случае отсутствия поддержки переключается на обычные аллокации.

media r/LocalLLaMA · 14 д назад

GLM-5.2 Max является текущим третьим по величине моделью

GLM-5.2 Max занимает третье место среди доступных моделей, как среди открытых, так и среди проприетарных моделей. Оценка основана на показателях производительности и текущих оценках в области больших языковых моделей.

blog Simon Willison · 14 д назад

Datasette 1.0a34 добавляет инструменты редактирования и удаления строк

Datasette 1.0a34 вводит инструменты для вставки, редактирования и удаления строк в интерфейсе. Эти функции доступны на страницах таблиц и как действия на страницах строк, решая долгожданную возможность в интерфейсе.

media r/LocalLLaMA · 14 д назад

Поиск локально размещаемого инструмента для создания английских субтитров из видео

Пользователь ищет локально размещаемое, автономное приложение для генерации английских субтитров (в формате .srt или .ass) из видеофайлов. Они рассматривают Qwen-ASR и Whisper как сильные варианты, но отмечают плохое сопоставление временных меток в реализациях ComfyUI и нестабильную работу с более старыми моделями, такими как те, что используются в storytoolkitAI. Они просят рекомендации, которые хорошо работают на Windows и могут обрабатывать несколько языков.

blog Simon Willison · 14 д назад

click-to-play — изображение, которое воспроизводится при клике

Веб-компонент click-to-play отображает статичное изображение с кнопкой «воспроизвести», которая загружает анимацию в формате GIF по запросу. Он поддерживает постепенное улучшение, позволяя загружать анимации только при взаимодействии пользователя с изображением.

media Latent Space · 14 д назад

GLM-5.2 претендует на первое место в frontend-программировании с использованием спекулятивного декодирования

GLM-5.2, модель из 744B параметров от Z.ai, была оценена как лучшая модель для frontend-программирования в мире, превосходя все версии Opus, включая Opus 4.8. Этот результат подчеркивается третьими сторонами, которые подтверждают официальные оффлайн-тесты, что является значимым достижением для модели такого размера, особенно в конкурентной области frontend-программирования.

media r/LocalLLaMA · 14 д назад

Сравнение производительности RTX 5060 Ti 16GB и RX 9060 XT 16GB

Сравнительный тест показывает, что NVIDIA RTX 5060 Ti 16GB превосходит AMD RX 9060 XT 16GB по нескольким моделям языковых моделей, обеспечивая более высокие скорости обработки ответов и токенов запроса. Повышение производительности сохраняется во всех моделях, таких как Gemma3, Llama3.2 и Qwen3, при этом RTX 5060 Ti демонстрирует значительно более быструю обработку запросов, особенно при работе с большими моделями.

media r/LocalLLaMA · 14 д назад

Элиас в фонаре: диагностика низкой разнообразности в историях больших языковых моделей

Новое исследование изучает ограниченную разнообразность в историях, генерируемых большими языковыми моделями, используя персонажа Элиаса в фонаре как пример. Исследование подчеркивает, как такие паттерны указывают на системные предвзятости в обучающих данных и выводах моделей.

arxiv arXiv cs.LG · 14 д назад

LegalHalluLens: аудит халлюцинаций в правовых ИИ

LegalHalluLens представляет рамку для аудита халлюцинаций ИИ в правовых контекстах, анализируя профили халлюцинаций при вводе по четырём категориям утверждений. Оно выявляет разрыв в 38-40 баллов между утверждениями о обязательствах/числовых и временных утверждениях, и показывает, что два системы с одинаковыми показателями 52% халлюцинаций могут иметь противоположные направления риска. Рамка использует индекс направления риска и калиброванные дебатные потоки для снижения выявленных халлюцинаций на 45%, предоставляя практические диагностики для надежного внедрения правового ИИ.

arxiv arXiv cs.LG · 14 д назад

Рекурсивные скрытые модели диффузии вводят новый осевой масштаб

Рекурсивные скрытые модели диффузии (R-MDMs) вводят рекурсивную глубину как третий осевой масштаб, применяя внутри каждого шага диффузии дезинтегрирующий трансформер. Эта рекурсия позволяет итеративно улучшать выход без увеличения количества параметров, достигая производительности, сравнимой с не-рекурсивными моделями, при наличии до L раз больше параметров, где L — количество итераций. R-MDMs также снижают вычислительные затраты на инференс, частично заменяя шаги дезинтеграции на рекурсивное уточнение.

arxiv arXiv cs.LG · 14 д назад

LoopCoder-v2 достигает оптимальной производительности при двух циклах

LoopCoder-v2, параллельная модель Transformer для циклов, демонстрирует превосходную производительность по генерации кода и логическому мышлению при двух циклах, повышая результаты SWE-bench Verified с 43,0 до 64,4 баллов и Multi-SWE с 14,0 до 31,0 баллов. Варианты с тремя или более циклами показывают худшую производительность, что указывает на немонотонный эффект количества циклов из-за роста позиционных несоответствий и уменьшения возвратов.

arxiv arXiv cs.LG · 14 д назад

Катастрофическое забвение — это низкий ранг: теория функционального пространства

Теория функционального пространства показывает, что катастрофическое забвение при непрерывной адаптации концентрируется в небольшом числе старых задач NTK-эйдженмодов. В случае линейного заголовка PEFT-CL с замороженной основой, вектор забвения точно предсказуем до численной точности, с правилом Кронекера для уязвимого ранга.

arxiv arXiv cs.LG · 14 д назад

INI-VPINN: нейронная сеть с физическими условиями, с упрощённым обработкой границ

INI-VPINN — это вариационная физически обусловленная нейронная сеть, которая неявно обеспечивает условия Неймана и условия на границах с помощью весовых функций с компактной поддержкой и интегрированием по частям. Она обеспечивает более высокую точность и быстрый сходимость по сравнению с существующими методами PINN при решении задач с несколькими материалами и геометрическими особенностями, а также с смешанными условиями на границах, и доступна на GitHub.

arxiv arXiv cs.LG · 14 д назад

Оценка базовых открытых моделей языковой модели для многозначной классификации ATT&CK

Создан и отображенный набор данных с 2076 предложениями, аннотированных людьми из 83 сложных отчетов по киберугрозам, с уровнем согласия между аннотаторами \k{appa} = 0.68. Оценены семь открытых моделей языковых моделей от 8B до 236B параметров, достигнув максимального значения F1 по микро-среднему среднему 0.22. Размер параметров показал статистически значимую положительную корреляцию с F1, в то время как стратегия запроса и температура не привели к значительным улучшениям, что указывает на недостаточность текущих открытых моделей языковых моделей для классификации ATT&CK на производственном уровне.

arxiv arXiv cs.LG · 14 д назад

Оценка неопределенности для моделей на основе потоков визуально-языковых-действий

Мы предлагаем метод, использующий несогласие потоков для оценки эпистемической неопределенности в моделях на основе потоков визуально-языковых-действий. Эта оценка неопределенности позволяет обнаруживать сбои во время развертывания и активного тонкого настройки через рамку SAVE, что снижает количество демонстраций экспертов на 22% по сравнению с базовыми методами, при этом обеспечивая более калиброванные предсказания на бенчмарке LIBERO.