Все статьи
arxiv arXiv cs.AI · 3 ч назад

Кросс-архитектурная смесь экспертов с адаптивным мягким маршрутизированием для классификации болезней листьев растений

В данном исследовании предлагается адаптивная мягкая архитектура Смеси Экспертов (MoE), которая объединяет EfficientNet-B0, DenseNet-121 и Swin-Tiny для решения задач классификации болезней листьев растений в условиях сложных фонов и дисбаланса классов.

arxiv arXiv cs.AI · 3 ч назад

Что знает химическая языковая модель о молекулах?

В данном исследовании применяются разреженные автоэнкодеры к модели MolFormer для механистического изучения того, как строятся молекулярные представления на разных слоях, опровергая предположение о том, что химические языковые модели изучают лишь поверхностный синтаксис.

media r/LocalLLaMA · 3 ч назад

LFM2.5 230M работает в браузере со скоростью 1400 токенов/с благодаря пользовательским WebGPU-ядрам

Модель LiquidAI LFM2.5-230M теперь работает локально в браузере с использованием пользовательских WebGPU-ядер. Эти специализированные ядра изначально были разработаны компанией Fable 5 до её закрытия, а также Opus 4.8. Демонстрация была записана на устройстве M4 Max, показав скорость генерации 1400 токенов в секунду. Вся обработка происходит полностью в среде браузера пользователя без внешних серверных зависимостей. Версия модели в формате GGUF доступна для загрузки на Hugging Face вместе со стандартным чекпоинтом. Пользователи могут взаимодействовать с живой демонстрацией, размещённой webml-community на Hugging Face Spaces.

media r/LocalLLaMA · 3 ч назад

Apple пропустит чипы M6 Pro/Max и ускорит выпуск M7 для локального ИИ

Согласно последнему сообщению, Apple планирует пропустить выпуск чипов M6 Pro и M6 Max в своей следующей линейке продуктов. Вместо этого компания намерена ускорить разработку серии чипов M7 для лучшей поддержки локальных задач искусственного интеллекта. Эта стратегическая переориентация указывает на приоритет возможностей ИИ на устройстве над традиционным увеличением производительности для линейки Pro. Решение отражает растущее внимание Apple к интеграции передовых функций машинного обучения непосредственно в архитектуру своего оборудования. Ускорив сроки выхода M7, Apple стремится обеспечить более высокую производительность нейронного движка для запуска больших языковых моделей локально. Этот шаг сигнализирует о значительном сдвиге в дорожной карте разработки Apple Silicon в сторону принципов дизайна, ориентированных на ИИ.

arxiv arXiv cs.AI · 3 ч назад

AOHP: платформа агентов на уровне ОС с открытым исходным кодом для персонализированного, эффективного и безопасного взаимодействия

Проект Android Open Harness Project (AOHP) представляет собой платформу агентов на уровне операционной системы с открытым исходным кодом, созданную на базе проекта Android Open Source Project. Она решает проблему несоответствия между современными операционными системами, ориентированными на приложения, и потребностями автономных ИИ-агентов, рассматривая агентов как полноправных субъектов ОС. В архитектуре предложены три ключевых механизма: персонализированная композиция сервисов, эффективные интерфейсы для агентов и безопасный поток информации. Эти функции обеспечивают адаптивные пользовательские интерфейсы и среду выполнения, удобную для агентов, сохраняя при этом существующую экосистему Android. Предварительные эксперименты на сложных задачах демонстрируют значительное улучшение производительности по сравнению с традиционными системами. В частности, AOHP увеличила долю успешно завершённых задач на 21,12% по сравнению с базовыми методами. Она также снизила затраты на выполнение токенов на 51,55%, что подчёркивает её преимущества в эффективности. Кроме того, система показала улучшенное соответствие политикам безопасности во время взаимодействий, опосредованных агентами.

arxiv arXiv cs.AI · 3 ч назад

Рост милитаризованной лексики в научных аннотациях подрывает доверие

Исследование, проанализировавшее 21,4 миллиона статей из баз OpenAlex и PubMed, показало, что количество военных терминов в научных аннотациях выросло на 48% и 32% соответственно за период с 2010 по 2025 год. Этот рост резко ускорился после 2019 года и сильно коррелирует с данными о глобальных конфликтах как на уровне стран, так и в годовом исчислении. Социальные науки демонстрируют наибольшую распространенность такой лексики, тогда как инженерия и информатика показывают самые высокие темпы роста. Анализ также отмечает, что период пандемии COVID и эпоха больших языковых моделей после 2022 года сократили лингвистический разрыв между авторами-носителями английского языка и не-носителями. Чтобы оценить влияние этой тенденции, исследователи провели внутрипредметный эксперимент с военной рамкой восприятия (war-framing), в котором приняли участие 801 человек и было проведено более 32 000 испытаний. Результаты эксперимента показали, что использование военной рамки значительно снижает воспринимаемую достоверность, готовность к финансированию и поддержку политики среди читателей. Хотя наблюдалась тенденция к росту чувства срочности, общие выводы указывают на то, что милитаризованная лексика может подрывать убедительность научной коммуникации.

media r/LocalLLaMA · 3 ч назад

Пост в Reddit: Полностью локальный слой памяти для ИИ-ассистента

Пользователь Reddit из сообщества r/LocalLLaMA опубликовал пост под названием «После 2,5 лет работы по вечерам и в выходные мой полностью локальный ИИ-ассистент наконец стал пригодным к использованию». В публикации подробно объясняется, как функционирует слой памяти этой персональной ИИ-системы. Материал был размещён пользователем /u/PAiERAlabs в сабреддите, посвящённом локальным большим языковым моделям. Пост содержит ссылку на галерею с дополнительными деталями проекта. Читателям предлагается перейти в раздел комментариев для дальнейшего обсуждения и получения технических подробностей. Эта запись подчёркивает долгосрочный личный проект, направленный на создание функционального ИИ-ассистента, размещённого локально.

media r/LocalLLaMA · 3 ч назад

Hugging Face блокирует многопоточные загрузки, влияя на экосистему GGUF

Hugging Face внедрила недавнее изменение, блокирующее ускорение многопоточных загрузок, что приводит к ошибкам 403 для всех потоков, кроме одного, в рамках одного соединения. Это обновление существенно влияет на экосистему GGUF, где распространены большие однофайловые модели, а скорости однопоточных загрузок часто ограничены значением 40 МБ/с. Ранее инструменты, такие как CLI Hugging Face, ускоряли загрузки путем параллельного получения множества меньших файлов, однако этот метод теперь затруднен данным ограничением. Автор отмечает, что загрузка всей ветки репозиториев GGUF неэффективна из-за наличия больших файлов и нескольких квантизаций в одной и той же ветке. Без отмены этой политики скорости загрузки останутся низкими, если только создатели контента не перейдут на разделение моделей на множество меньших файлов в разных ветках. Такой обходной путь потребует от пользователей ручного объединения файлов, что считается менее предпочтительным вариантом по сравнению с восстановлением Hugging Face предыдущих возможностей ускорения.

arxiv arXiv cs.AI · 3 ч назад

CADRE: Стабильная параметрически эффективная адаптация медицинских моделей визуального и языкового анализа с ограниченным забыванием и дрейфом приоров

Авторы представляют CADRE, параметрически эффективную структуру для адаптации медицинских моделей визуального и языкового анализа, предотвращающую катастрофическое забывание и дрейф приоров. Метод сочетает низкоранговую адаптацию с онлайн-членом эластичной консолидации весов с самонастраиваемым масштабом для ограничения потерь удержания компетенции. Он также использует штраф привязки к априорным значениям для ограничения дрейфа вложений от замороженной предварительно обученной модели. Два кратких утверждения относительно массы консолидации и инвариантности к масштабу устраняют хрупкость порядка, присущую базовому EWC. Подход был оценен на данных о раке молочной железы в модальностях гистопатологии, ультразвуковой диагностики и рентгенографии грудной клетки. Обучая приблизительно 0,23% параметров, CADRE достигла наименьшего уровня забывания среди методов адаптации. Это представило собой семикратное снижение по сравнению с наиболее сильным регуляризованным базовым уровнем, уменьшившись с 0,075 до 0,011. Модель также продемонстрировала положительный обратный перенос, тогда как все базовые уровни показали отрицательные результаты.

arxiv arXiv cs.AI · 3 ч назад

DVL-DeepONet: обучение операторам с учетом физических законов для устойчивой подводной навигации

Исследователи предлагают DVL-DeepONet, фреймворк глубокого нейронного оператора, руководствующийся физическими законами и предназначенный для улучшения навигации автономных подводных аппаратов (AUV) в условиях ухудшения работы датчиков. Система решает проблемы, возникающие из-за зашумленных или неполных измерений доплеровских логов скорости (DVL), а также отсутствия инерциальных датчиков на недорогих платформах. Она оценивает векторы скорости в трех рабочих сценариях: оценка, устойчивая к шуму, при использовании связанных датчиков; обучение только по данным DVL; и восстановление лучевых измерений. Сопоставляя временные наблюдения со скоростью аппарата и накладывая ограничения физической согласованности, модель сохраняет устойчивость во время внешних возмущений. Фреймворк был проверен с помощью реальных экспериментов на AUV, охватывающих суммарную длину пути около 10 000 метров. Экспериментальные результаты показывают, что архитектуры DVL-DeepONet превосходят базовые алгоритмы, основанные на моделях и на обучении, на 40%.

media r/LocalLLaMA · 4 ч назад

Разработчик переносит артефакты в стиле Claude в локальные модели с помощью TurboLLM

Пользователь Reddit отмечает отсутствие рендеринга артефактов в локальных AI-установках по сравнению с Claude от Anthropic. Хотя локальные модели могут генерировать код для панелей управления или диаграмм, пользователям обычно приходится копировать вывод в другое место, чтобы просмотреть его. Чтобы устранить этот пробел, разработчик экспериментировал с рендерингом сгенерированного HTML, SVG и Mermaid-кода непосредственно в интерфейсе чата. Результаты показали, что ограничение заключается в пользовательском интерфейсе, а не в возможностях модели. Скриншот из публикации демонстрирует панель управления, отрендеренную Gemma 4 26B по одному запросу на настольном компьютере. Реализация была создана с использованием TurboLLM, который позволяет такую прямую визуализацию результатов кода. Автор приглашает сообщество обсудить их рабочие процессы и не хватает ли им функции артефактов Claude.

media r/LocalLLaMA · 4 ч назад

Пользователь Reddit ищет локальную частную LLM для технической документации

Пользователь Reddit ищет рекомендации по локальной большой языковой модели, способной генерировать высокоуровневые и низкоуровневые проекты программного обеспечения. Рабочий процесс включает использование существующих шаблонов, перекрестную ссылку на код и интеграцию с агентными фреймворками, такими как OpenCode через MCP, для получения данных из Confluence и Jira. В настоящее время пользователь полагается на Opus 3.6 через Kiro-cli, но ему требуется решение, обеспечивающее конфиденциальность данных. Ключевые технические ограничения включают необходимость контекстной длины не менее 256k и сильные способности к рассуждению. Автор поста задается вопросом, необходимо ли такое оборудование, как четыре GPU RTX 3090, для достижения такого уровня производительности локально.

arxiv arXiv cs.AI · 4 ч назад

POTracker оптимизирует большие языковые модели для генерации отчетов об отключениях электроэнергии, соответствующих стандартам

Недавние большие языковые модели испытывают трудности с генерацией предметно-специфичных данных из-за строгих требований к форматированию и структуре. Для решения проблемы совместимости отчетов об отключениях электроэнергии в сфере коммунальных услуг США исследователи предлагают POTracker, оптимизированную модель для генерации машиночитаемых документов соответствия требованиям. Команда выполнила дообучение модели Qwen2.5-7B-Instruct с использованием новой целевой функции под названием POTrackerLoss. Эта новая функция потерь учитывает как текстовое сходство, так и сходство структурных тегов между сгенерированными результатами и эталонными отчетами. Оценка на наборе данных из 1000 отчетов демонстрирует, что POTracker превосходит пять методов дообучения и один подход на основе правил для преобразования в XML. Модель повышает общую точность до 51% и достигает структурной точности 86,47% для сгенерированных отчетов. Кроме того, исследование с участием экспертов-предметников присвоило среднюю оценку качества 4,03 по шкале от 0 до 5 сгенерированным меткам.

arxiv arXiv cs.AI · 4 ч назад

SQLConductor: Обучение политике поиска для пошаговой оркестрации Text-to-SQL

Авторы предлагают SQLConductor, пошаговую обучающуюся систему оркестрации Text-to-SQL, которая устраняет ограничения фиксированных конвейеров и статических методов «план-затем-выполнение». Эта система формулирует подзадачи как специализированные действия и обучает модель политики выбирать следующее действие на основе промежуточных артефактов и обратной связи. Для обучения этой политики фреймворк вводит обучение политике поиска (Search-to-Policy Learning), которое использует поиск по дереву Монте-Карло для исследования кандидатов рабочих процессов и оценку стабильности для выявления надежной обучающей выборки. Модель политики обучается с помощью взвешенного стабилизацией контролируемого тонкого дообучения (Stability-weighted Supervised Fine-tuning) для приоритизации высококачественных паттернов оркестрации и дополнительно улучшается с помощью обучения с подкреплением по программе (Curriculum Reinforcement Learning). Этот подход преобразует оффлайн-поиск рабочих процессов в развертываемую политику для пошаговой оркестрации во время вывода. Эксперименты на наборах данных BIRD-Dev и вне распределения показывают, что SQLConductor достигает точности выполнения 73,2%, превосходя предыдущие методы с сопоставимыми или более крупными базовыми моделями. Результаты демонстрируют превосходную точность выполнения и сильную обобщающую способность при координации замороженных более крупных моделей действий.

arxiv arXiv cs.AI · 4 ч назад

VeriEvol: Масштабирование мультимодального математического рассуждения с помощью верифицируемого Evol-Instruct

Авторы представляют VeriEvol, итеративную структуру, предназначенную для масштабирования мультимодального математического рассуждения путем разделения сложности промпта и надежности ответа. Этот подход решает проблему поддержания надежных меток вознаграждения по мере увеличения объема данных в конвейерах обучения с подкреплением. Система использует модуль эволюции, учитывающий тип данных, для переписывания семян низкой сложности в более сложные промпты, привязанные к изображениям, с помощью операторов, специфичных для маршрута. Верификация ответов выполняется агентом HTV-Agent, который принимает ответы только после того, как контрдоказательства из нескольких источников не смогли их опровергнуть. Масштабирование данных для эволюционного супервизорного тонкого настраивания с 10 тыс. до 250 тыс. примеров увеличило среднюю точность на пяти бенчмарках с 35,42 до 54,73. При интеграции с фиксированным рецептом GRPO VeriEvol обеспечил совокупный прирост +3,88 по сравнению с базовой линией без эволюции. Это улучшение объясняется приростом +1,82 от эволюционированных промптов и +2,06 от верификатора HTV-Agent. Авторы публикуют все промпты, данные, модели, код и полные трассы верификатора для обеспечения последующей аудиторской проверки и масштабирования.

arxiv arXiv cs.AI · 4 ч назад

Потребление энергии при тонкой настройке трансформеров: Масштабируемая модель, вдохновленная концепцией roofline

Авторы представляют фреймворк для моделирования энергопотребления обучения трансформеров на нескольких GPU, отвечая на потребность в устойчивом проектировании систем по мере роста вычислительных затрат. Проводя контролируемые архитектурные исследования на моделях BERT, они связывают измеренное энергопотребление с легковесными прокси-величинами для вычислений, трафика памяти и эффективности оборудования. Подход вдохновлен моделями roofline и включает фактор эффективности оборудования, основанный на ускорении, чтобы учесть тензорный параллелизм и полностью фрагментированный параллелизм данных (fully sharded data parallelism). Эта методология позволяет вывести модель закона масштабирования, которая точно предсказывает энергопотребление обучения в гетерогенных конфигурациях. Работа подчеркивает критическую важность прогнозирования энергопотребления по мере роста размера модели и масштаба параллелизма. Она предоставляет практический инструмент для проектирования с учетом затрат в системах обработки естественного языка крупного масштаба.

media r/LocalLLaMA · 4 ч назад

Пользователь Reddit задаётся вопросом о целесообразности RTX 6000 Pro на фоне роста цен

Пользователь сообщества r/LocalLLaMA на Reddit ищет совет по покупке видеокарты NVIDIA RTX 6000 Pro. Автор поста отмечает, что цена значительно выросла с примерно $8 000 шесть месяцев назад до около $13 000 в настоящее время. Он просит отзывы от владельцев о том, насколько они довольны этим оборудованием. В частности, пользователь спрашивает, стоит ли вкладывать средства в эту карту для запуска моделей, таких как Qwen 2.5 7B. Пост призван помочь покупателю обосновать расходы перед супругой, собрав реальный опыт использования.

lab Hugging Face Blog · 4 ч назад

Анализ точности предсказания токенов в гибридных языковых моделях

Недавнее исследование изучает, какие именно токены гибридные языковые модели предсказывают более точно по сравнению со стандартными плотными архитектурами. Исследование сосредоточено на понимании распределения ошибок предсказания среди различных типов токенов, таких как редкие слова и фрагменты кода. Анализируя ландшафты потерь, авторы выявляют, что гибридные модели превосходят в захвате долгосрочных зависимостей в областях разреженных данных. Результаты указывают на то, что механизм смеси экспертов (mixture of experts) позволяет более эффективно использовать параметры во время вывода (инференса). Эта улучшенная точность особенно заметна для токенов с низкой частотой в обучающей выборке. В статье представлен подробный разбор метрик производительности по различным наборам данных для тестирования (бенчмаркам). Эти результаты подчеркивают потенциал гибридных архитектур для эффективной обработки разнообразных лингвистических структур.

arxiv arXiv cs.AI · 4 ч назад

Самоосознающее планирование обучает порядку размаскирования токенов в диффузионных языковых моделях

Авторы предлагают метод Self-Aware Scheduling (SAS) для оптимизации порядка размаскирования токенов в маскированных диффузионных языковых моделях, что существенно влияет на качество генерации. Они выводят вычислимую верхнюю границу несоответствия последовательного декодирования с использованием расхождения Кульбака-Лейблера и логарифмического правдоподобия по траекториям. Эта граница формирует плотное вознаграждение, основанное на самоосознании, которое представляет выбор порядка как задачу оптимизации политики с замороженным денoiserом (denoiser). SAS обучает легковесную политику порядка с помощью Group Relative Policy Optimization, поддерживая как декодирование в любом порядке, так и полуавторегрессионное декодирование. На задачах судоку с моделью на 1 млрд параметров точность улучшилась с 82,0% до 91,8%, достигнув 97,5% после тонкой настройки второго этапа. Для математических рассуждений с LLaDA-8B метрика pass@1 на GSM8K увеличилась с 64% до 76%. Метод также повысил баллы MBPP с 39,5% до 41%, последовательно соответствуя или превосходя эвристические расписания при различных параметрах.