Все статьи
media r/LocalLLaMA · 2 ч назад

Пост в Reddit: Полностью локальный слой памяти для ИИ-ассистента

Пользователь Reddit из сообщества r/LocalLLaMA опубликовал пост под названием «После 2,5 лет работы по вечерам и в выходные мой полностью локальный ИИ-ассистент наконец стал пригодным к использованию». В публикации подробно объясняется, как функционирует слой памяти этой персональной ИИ-системы. Материал был размещён пользователем /u/PAiERAlabs в сабреддите, посвящённом локальным большим языковым моделям. Пост содержит ссылку на галерею с дополнительными деталями проекта. Читателям предлагается перейти в раздел комментариев для дальнейшего обсуждения и получения технических подробностей. Эта запись подчёркивает долгосрочный личный проект, направленный на создание функционального ИИ-ассистента, размещённого локально.

media r/LocalLLaMA · 2 ч назад

Hugging Face блокирует многопоточные загрузки, влияя на экосистему GGUF

Hugging Face внедрила недавнее изменение, блокирующее ускорение многопоточных загрузок, что приводит к ошибкам 403 для всех потоков, кроме одного, в рамках одного соединения. Это обновление существенно влияет на экосистему GGUF, где распространены большие однофайловые модели, а скорости однопоточных загрузок часто ограничены значением 40 МБ/с. Ранее инструменты, такие как CLI Hugging Face, ускоряли загрузки путем параллельного получения множества меньших файлов, однако этот метод теперь затруднен данным ограничением. Автор отмечает, что загрузка всей ветки репозиториев GGUF неэффективна из-за наличия больших файлов и нескольких квантизаций в одной и той же ветке. Без отмены этой политики скорости загрузки останутся низкими, если только создатели контента не перейдут на разделение моделей на множество меньших файлов в разных ветках. Такой обходной путь потребует от пользователей ручного объединения файлов, что считается менее предпочтительным вариантом по сравнению с восстановлением Hugging Face предыдущих возможностей ускорения.

arxiv arXiv cs.AI · 3 ч назад

CADRE: Стабильная параметрически эффективная адаптация медицинских моделей визуального и языкового анализа с ограниченным забыванием и дрейфом приоров

Авторы представляют CADRE, параметрически эффективную структуру для адаптации медицинских моделей визуального и языкового анализа, предотвращающую катастрофическое забывание и дрейф приоров. Метод сочетает низкоранговую адаптацию с онлайн-членом эластичной консолидации весов с самонастраиваемым масштабом для ограничения потерь удержания компетенции. Он также использует штраф привязки к априорным значениям для ограничения дрейфа вложений от замороженной предварительно обученной модели. Два кратких утверждения относительно массы консолидации и инвариантности к масштабу устраняют хрупкость порядка, присущую базовому EWC. Подход был оценен на данных о раке молочной железы в модальностях гистопатологии, ультразвуковой диагностики и рентгенографии грудной клетки. Обучая приблизительно 0,23% параметров, CADRE достигла наименьшего уровня забывания среди методов адаптации. Это представило собой семикратное снижение по сравнению с наиболее сильным регуляризованным базовым уровнем, уменьшившись с 0,075 до 0,011. Модель также продемонстрировала положительный обратный перенос, тогда как все базовые уровни показали отрицательные результаты.

arxiv arXiv cs.AI · 3 ч назад

DVL-DeepONet: обучение операторам с учетом физических законов для устойчивой подводной навигации

Исследователи предлагают DVL-DeepONet, фреймворк глубокого нейронного оператора, руководствующийся физическими законами и предназначенный для улучшения навигации автономных подводных аппаратов (AUV) в условиях ухудшения работы датчиков. Система решает проблемы, возникающие из-за зашумленных или неполных измерений доплеровских логов скорости (DVL), а также отсутствия инерциальных датчиков на недорогих платформах. Она оценивает векторы скорости в трех рабочих сценариях: оценка, устойчивая к шуму, при использовании связанных датчиков; обучение только по данным DVL; и восстановление лучевых измерений. Сопоставляя временные наблюдения со скоростью аппарата и накладывая ограничения физической согласованности, модель сохраняет устойчивость во время внешних возмущений. Фреймворк был проверен с помощью реальных экспериментов на AUV, охватывающих суммарную длину пути около 10 000 метров. Экспериментальные результаты показывают, что архитектуры DVL-DeepONet превосходят базовые алгоритмы, основанные на моделях и на обучении, на 40%.

media r/LocalLLaMA · 3 ч назад

Разработчик переносит артефакты в стиле Claude в локальные модели с помощью TurboLLM

Пользователь Reddit отмечает отсутствие рендеринга артефактов в локальных AI-установках по сравнению с Claude от Anthropic. Хотя локальные модели могут генерировать код для панелей управления или диаграмм, пользователям обычно приходится копировать вывод в другое место, чтобы просмотреть его. Чтобы устранить этот пробел, разработчик экспериментировал с рендерингом сгенерированного HTML, SVG и Mermaid-кода непосредственно в интерфейсе чата. Результаты показали, что ограничение заключается в пользовательском интерфейсе, а не в возможностях модели. Скриншот из публикации демонстрирует панель управления, отрендеренную Gemma 4 26B по одному запросу на настольном компьютере. Реализация была создана с использованием TurboLLM, который позволяет такую прямую визуализацию результатов кода. Автор приглашает сообщество обсудить их рабочие процессы и не хватает ли им функции артефактов Claude.

media r/LocalLLaMA · 3 ч назад

Пользователь Reddit ищет локальную частную LLM для технической документации

Пользователь Reddit ищет рекомендации по локальной большой языковой модели, способной генерировать высокоуровневые и низкоуровневые проекты программного обеспечения. Рабочий процесс включает использование существующих шаблонов, перекрестную ссылку на код и интеграцию с агентными фреймворками, такими как OpenCode через MCP, для получения данных из Confluence и Jira. В настоящее время пользователь полагается на Opus 3.6 через Kiro-cli, но ему требуется решение, обеспечивающее конфиденциальность данных. Ключевые технические ограничения включают необходимость контекстной длины не менее 256k и сильные способности к рассуждению. Автор поста задается вопросом, необходимо ли такое оборудование, как четыре GPU RTX 3090, для достижения такого уровня производительности локально.

arxiv arXiv cs.AI · 3 ч назад

POTracker оптимизирует большие языковые модели для генерации отчетов об отключениях электроэнергии, соответствующих стандартам

Недавние большие языковые модели испытывают трудности с генерацией предметно-специфичных данных из-за строгих требований к форматированию и структуре. Для решения проблемы совместимости отчетов об отключениях электроэнергии в сфере коммунальных услуг США исследователи предлагают POTracker, оптимизированную модель для генерации машиночитаемых документов соответствия требованиям. Команда выполнила дообучение модели Qwen2.5-7B-Instruct с использованием новой целевой функции под названием POTrackerLoss. Эта новая функция потерь учитывает как текстовое сходство, так и сходство структурных тегов между сгенерированными результатами и эталонными отчетами. Оценка на наборе данных из 1000 отчетов демонстрирует, что POTracker превосходит пять методов дообучения и один подход на основе правил для преобразования в XML. Модель повышает общую точность до 51% и достигает структурной точности 86,47% для сгенерированных отчетов. Кроме того, исследование с участием экспертов-предметников присвоило среднюю оценку качества 4,03 по шкале от 0 до 5 сгенерированным меткам.

arxiv arXiv cs.AI · 3 ч назад

SQLConductor: Обучение политике поиска для пошаговой оркестрации Text-to-SQL

Авторы предлагают SQLConductor, пошаговую обучающуюся систему оркестрации Text-to-SQL, которая устраняет ограничения фиксированных конвейеров и статических методов «план-затем-выполнение». Эта система формулирует подзадачи как специализированные действия и обучает модель политики выбирать следующее действие на основе промежуточных артефактов и обратной связи. Для обучения этой политики фреймворк вводит обучение политике поиска (Search-to-Policy Learning), которое использует поиск по дереву Монте-Карло для исследования кандидатов рабочих процессов и оценку стабильности для выявления надежной обучающей выборки. Модель политики обучается с помощью взвешенного стабилизацией контролируемого тонкого дообучения (Stability-weighted Supervised Fine-tuning) для приоритизации высококачественных паттернов оркестрации и дополнительно улучшается с помощью обучения с подкреплением по программе (Curriculum Reinforcement Learning). Этот подход преобразует оффлайн-поиск рабочих процессов в развертываемую политику для пошаговой оркестрации во время вывода. Эксперименты на наборах данных BIRD-Dev и вне распределения показывают, что SQLConductor достигает точности выполнения 73,2%, превосходя предыдущие методы с сопоставимыми или более крупными базовыми моделями. Результаты демонстрируют превосходную точность выполнения и сильную обобщающую способность при координации замороженных более крупных моделей действий.

arxiv arXiv cs.AI · 3 ч назад

VeriEvol: Масштабирование мультимодального математического рассуждения с помощью верифицируемого Evol-Instruct

Авторы представляют VeriEvol, итеративную структуру, предназначенную для масштабирования мультимодального математического рассуждения путем разделения сложности промпта и надежности ответа. Этот подход решает проблему поддержания надежных меток вознаграждения по мере увеличения объема данных в конвейерах обучения с подкреплением. Система использует модуль эволюции, учитывающий тип данных, для переписывания семян низкой сложности в более сложные промпты, привязанные к изображениям, с помощью операторов, специфичных для маршрута. Верификация ответов выполняется агентом HTV-Agent, который принимает ответы только после того, как контрдоказательства из нескольких источников не смогли их опровергнуть. Масштабирование данных для эволюционного супервизорного тонкого настраивания с 10 тыс. до 250 тыс. примеров увеличило среднюю точность на пяти бенчмарках с 35,42 до 54,73. При интеграции с фиксированным рецептом GRPO VeriEvol обеспечил совокупный прирост +3,88 по сравнению с базовой линией без эволюции. Это улучшение объясняется приростом +1,82 от эволюционированных промптов и +2,06 от верификатора HTV-Agent. Авторы публикуют все промпты, данные, модели, код и полные трассы верификатора для обеспечения последующей аудиторской проверки и масштабирования.

arxiv arXiv cs.AI · 3 ч назад

Потребление энергии при тонкой настройке трансформеров: Масштабируемая модель, вдохновленная концепцией roofline

Авторы представляют фреймворк для моделирования энергопотребления обучения трансформеров на нескольких GPU, отвечая на потребность в устойчивом проектировании систем по мере роста вычислительных затрат. Проводя контролируемые архитектурные исследования на моделях BERT, они связывают измеренное энергопотребление с легковесными прокси-величинами для вычислений, трафика памяти и эффективности оборудования. Подход вдохновлен моделями roofline и включает фактор эффективности оборудования, основанный на ускорении, чтобы учесть тензорный параллелизм и полностью фрагментированный параллелизм данных (fully sharded data parallelism). Эта методология позволяет вывести модель закона масштабирования, которая точно предсказывает энергопотребление обучения в гетерогенных конфигурациях. Работа подчеркивает критическую важность прогнозирования энергопотребления по мере роста размера модели и масштаба параллелизма. Она предоставляет практический инструмент для проектирования с учетом затрат в системах обработки естественного языка крупного масштаба.

media r/LocalLLaMA · 3 ч назад

Пользователь Reddit задаётся вопросом о целесообразности RTX 6000 Pro на фоне роста цен

Пользователь сообщества r/LocalLLaMA на Reddit ищет совет по покупке видеокарты NVIDIA RTX 6000 Pro. Автор поста отмечает, что цена значительно выросла с примерно $8 000 шесть месяцев назад до около $13 000 в настоящее время. Он просит отзывы от владельцев о том, насколько они довольны этим оборудованием. В частности, пользователь спрашивает, стоит ли вкладывать средства в эту карту для запуска моделей, таких как Qwen 2.5 7B. Пост призван помочь покупателю обосновать расходы перед супругой, собрав реальный опыт использования.

lab Hugging Face Blog · 3 ч назад

Анализ точности предсказания токенов в гибридных языковых моделях

Недавнее исследование изучает, какие именно токены гибридные языковые модели предсказывают более точно по сравнению со стандартными плотными архитектурами. Исследование сосредоточено на понимании распределения ошибок предсказания среди различных типов токенов, таких как редкие слова и фрагменты кода. Анализируя ландшафты потерь, авторы выявляют, что гибридные модели превосходят в захвате долгосрочных зависимостей в областях разреженных данных. Результаты указывают на то, что механизм смеси экспертов (mixture of experts) позволяет более эффективно использовать параметры во время вывода (инференса). Эта улучшенная точность особенно заметна для токенов с низкой частотой в обучающей выборке. В статье представлен подробный разбор метрик производительности по различным наборам данных для тестирования (бенчмаркам). Эти результаты подчеркивают потенциал гибридных архитектур для эффективной обработки разнообразных лингвистических структур.

arxiv arXiv cs.AI · 4 ч назад

Самоосознающее планирование обучает порядку размаскирования токенов в диффузионных языковых моделях

Авторы предлагают метод Self-Aware Scheduling (SAS) для оптимизации порядка размаскирования токенов в маскированных диффузионных языковых моделях, что существенно влияет на качество генерации. Они выводят вычислимую верхнюю границу несоответствия последовательного декодирования с использованием расхождения Кульбака-Лейблера и логарифмического правдоподобия по траекториям. Эта граница формирует плотное вознаграждение, основанное на самоосознании, которое представляет выбор порядка как задачу оптимизации политики с замороженным денoiserом (denoiser). SAS обучает легковесную политику порядка с помощью Group Relative Policy Optimization, поддерживая как декодирование в любом порядке, так и полуавторегрессионное декодирование. На задачах судоку с моделью на 1 млрд параметров точность улучшилась с 82,0% до 91,8%, достигнув 97,5% после тонкой настройки второго этапа. Для математических рассуждений с LLaDA-8B метрика pass@1 на GSM8K увеличилась с 64% до 76%. Метод также повысил баллы MBPP с 39,5% до 41%, последовательно соответствуя или превосходя эвристические расписания при различных параметрах.

arxiv arXiv cs.AI · 4 ч назад

KORE: Законы масштабирования, оптимальные по Колмогорову, для сплайн-регрессии

Исследователи предлагают KORE — метод, который решает задачу нахождения оптимального разрешения сплайна в аналитическом виде, вместо того чтобы полагаться на поиск гиперпараметров. Подход опирается на классическую теорию аппроксимации, привязывая квадрат смещения к n-ширине Колмогорова, и использует тождество PRESS для оценки ошибки методом «leave-one-out» (отсутствие одного наблюдения). Балансируя эти известные кривые, алгоритм аналитически определяет минимум без исчерпывающего перебора по сетке. KORE расширяет этот расчет на высокие размерности, заменяя размерность входного пространства порядком взаимодействия в разложении ANOVA. Алгоритм подгоняет два пилотных разрешения и решает систему, калиброванную по показателю влияния (leverage), для оценки плагируемого разрешения при минимальных вычислительных затратах. На аддитивных и разреженных парных целевых переменных вплоть до 80 измерений KORE достигает точности, сопоставимой с исчерпывающей перекрестной проверкой, обучая примерно в восемь раз меньше моделей. На 36 реальных табличных наборах данных он занял первое место среди 21 метода по точности на единицу вычислений.

arxiv arXiv cs.AI · 4 ч назад

Kamera: Обучение не требующий позиционно-инвариантный мультимодальный KV-кэш для эффективного повторного использования

Авторы представляют Kamera, метод, обеспечивающий повторное использование мультимодальных ключ-значительных (KV) кэшей без обучения путем устранения потери межчунковой условной зависимости при наивном префиксном кэшировании. Стандартное слияние состояний восстанавливает прямые выводы, но не сохраняет диффузный остаток низкого ранга в глубоких слоях, необходимый для многошагового рассуждения, что снижает точность вдвое. Для устранения этой проблемы Kamera хранит небольшой тренировочный патч условной зависимости низкого ранга рядом с каждым позиционно-свободным чунком. Этот подход позволяет точно выполнять повторное вращение RoPE и восстанавливать межчунковую привязку в механизмах внимания MLA, GQA и MHA. Система поддерживает дешевые операции перестановки, выживания скользящего окна и поиска без необходимости перекодирования вытесненных чунков. Эксперименты показывают, что патч ранга-m восстанавливает полную точность задачи на бенчмарках межчунковой привязки, таких как MM-NIAH и двухстраничная документальная QA. Решение реконструирует KV для повторного префилла с точностью до округления bf16 в производственном ядре SGLang для шести бэкбонов, сохраняя лишь долю исходного объема KV.

arxiv arXiv cs.AI · 4 ч назад

Децентрализованное автономное управление движением с помощью коридорных сетей

В данном исследовании рассматривается недостаточность централизованного управления для высокоструктурированного трафика автономных летательных аппаратов путем предложения децентрализованного подхода, использующего многоагентное обучение с подкреплением (MARL). Исследователи расширяют эту рамку MARL для управления потоком трафика в сложных сетях воздушных коридоров, включающих слияния и разветвления. Политики, обученные в условиях одного коридора, тестируются в increasingly сложных многокоридорных сценариях нулевым способом (zero-shot) без повторного обучения. Экспериментальные результаты показывают, что изученное поведение эффективно переносится на различные плотности трафика, геометрии сетей и гетерогенные характеристики летательных аппаратов. Оценка измеряет производительность системы на уровне сети через соблюдение границ, показатели завершения, средние скорости, пройденное расстояние и межвоздушное расстояние. Несмотря на то, что требуется только локально скоординированное поведение входа, прохождения и выхода, коллективные действия создают желаемые потоки трафика по всей коридорной сети.

arxiv arXiv cs.AI · 4 ч назад

Enactor: Генеративная модель для замкнутого цикла микросимуляции перекрестков со светофорами

Авторы представляют Enactor, ориентированную на акторов генеративную модель, предназначенную для микросимуляции в замкнутом цикле на перекрестках со светофорами. В отличие от традиционных симуляторов, опирающихся на вручную созданные правила или предсказатели с коротким горизонтом, Enactor фокусируется на динамике транспортных средств, рассматривая пешеходов как контекстные влияния. Архитектура кодирует динамических акторов и полилинии полос в полярных координатах относительно центра перекрестка. Трансформер с отдельными блоками пространственного и временного внимания предсказывает распределение параметров движения каждого актора на следующем шаге. Обучение использует замкнутую учебную программу, подвергая модель ее собственным предсказаниям для обеспечения стабильности во время симуляции. Оценка на двух геометриях перекрестков показывает, что Enactor восстанавливает распределения генератора данных SUMO с значительно меньшей расхождением Кульбака-Лейблера (KL) по сравнению с базовыми моделями на основе трансформеров. Модель также сокращает нарушения правил проезда на красный свет более чем на порядок величины и превосходит базовые модели с постоянной скоростью на реальных полевых данных.

arxiv arXiv cs.AI · 4 ч назад

Персистентная гомология обнаруживает и направляет ответы LLM на некорректно поставленные вопросы

Исследователи предлагают использовать конечную персистентную гомологию нулевой размерности для представления топологии некорректно поставленных вопросов в больших языковых моделях. Метод моделирует контекстные скрытые состояния как точечные облака, суммируя каждый слой трансформера с помощью трех дескрипторов: среднего конечного времени жизни, нормализованной энтропии времени жизни и концентрации наибольшего времени жизни. Эти дескрипторы конкатенируются по слоям для формирования единого топологического представления внутреннего состояния запроса. В исследовании вводится топологически обусловленное управление активацией, которое извлекает похожие примеры для построения вмешательств, стимулирующих уточнение или воздержание от ответа. Оценки на наборах данных AmbigQA, SituatedQA и CLAMBER показывают, что данный подход превосходит базовые методы на основе промптов, улучшая точность классификации с 67,4% до 78,9% на AmbigQA. На SituatedQA точность увеличилась с 79,9% до 88,5%, а на CLAMBER наблюдался рост с 57,6% до 69,6%. Кроме того, механизм управления повысил средний общий уровень приемлемых ответов с 61,4% до 70,6% для трех моделей LLM с открытым весом.

arxiv arXiv cs.AI · 4 ч назад

SPIRAL: Обучение поиску и агрегации

Авторы представляют Sequential-Parallel-Aggregative Reinforcement Learning (SPIRAL) — фреймворк, который обучает языковые модели одновременно использовать последовательные, параллельные и агрегативные примитивы рассуждений. В отличие от стандартных методов постобучения, оптимизирующих только однопоточное последовательное рассуждение, SPIRAL объединяет эти компоненты в единый конвейер вычислений при выводе. Модель сначала генерирует независимые трассы параллельно с использованием цепочки мыслей (chain-of-thought), а затем формирует итоговую агрегативную трассу на основе этих входных данных. Весь этот процесс оптимизируется сквозным образом по отношению к награде итогового агрегированного ответа с помощью методов обучения с подкреплением для множеств и стандартных техник обучения с подкреплением. Эксперименты на задачах рассуждения демонстрируют, что SPIRAL эффективно масштабируется вместе с ресурсами вычислений при выводе. Подход превосходит GRPO по эффективности масштабирования до 11 раз и достигает на 15% более высокой производительности, когда масштабируются все три примитива вычислений.

arxiv arXiv cs.AI · 4 ч назад

Против прокси-оптимизации

Автор обсуждает условия, при которых максимизация функции полезности прокси может привести к вредным последствиям. Этот анализ предполагает, что такие сценарии создают значительные проблемы для применения стандартной теории принятия решений. В тексте выделяются конкретные обстоятельства, при которых оптимизация по отношению к суррогатной цели расходится с предполагаемыми результатами. Эти выводы ставят под сомнение устойчивость текущих теоретических框架, используемых в искусственном интеллекте и экономике. Выявляя эти режимы отказа, работа стремится уточнить подход к проектированию агентов для предотвращения непредвиденных последствий.