Все статьи
arxiv arXiv cs.AI · 9 ч назад

ReasoningLens: Иерархическая визуализация и диагностический аудит для больших моделей рассуждений

Появление больших моделей рассуждений привело к формированию исключительно длинных трасс цепочки рассуждений (Chain-of-Thought), что создало проблему прозрачности, при которой критическая логика часто теряется в массивах процедурного текста. Для решения этой проблемы авторы представляют ReasoningLens — фреймворк с открытым исходным кодом, предназначенный для иерархической визуализации и диагностического аудита сложных цепочек рассуждений.

arxiv arXiv cs.AI · 9 ч назад

HyperQuant: конвейер квантования, оптимизированный по критерию «скорость-искажение», для больших языковых и диффузионных моделей

HyperQuant — это унифицированный конвейер постобучающего квантования, предназначенный для весов и KV-кэша больших языковых и диффузионных трансформеров, сочетающий преобразования Хадамара с оптимальным решетчатым квантованием. Метод превосходит недавние схемы, такие как HIGGS, TurboQuant и OCTOPUS, при различных скоростях битрейта, сохраняя качество, близкое к безпотерьному.

arxiv arXiv cs.AI · 9 ч назад

UnBias-Plus: Обнаружение, объяснение и устранение смещения

UnBias-Plus — это набор инструментов с открытым исходным кодом, предназначенный для решения проблемы устойчивого смещения в естественном языке путем объединения возможностей обнаружения, объяснения и нейтрального перефразирования.

arxiv arXiv cs.AI · 9 ч назад

Обнаружение вредоносных навыков агентов в реальных условиях с использованием механизма внимания

Авторы представляют Locate-and-Judge — двухэтапный детектор, предназначенный для выявления вредоносных навыков на маркетплейсах LLM-агентов, где традиционные защиты от инъекций промптов не работают.

arxiv arXiv cs.AI · 9 ч назад

Цифровой гуманизм и эволюционный дизайн

В данной статье рассматриваются концепции цифрового гуманизма и эволюционного дизайна с целью выявления их общих структур, синергии и вызовов в контексте технологического развития, ориентированного на человека.

arxiv arXiv cs.AI · 9 ч назад

GRINQH: Иерархия квантования на основе градации входных данных для эффективной генерации LLM

Исследователи предлагают GRINQH, фреймворк постобучающего квантования только весов, который ускоряет декодирование больших языковых моделей за счёт объединения квантования и разреженности. Метод использует величины активаций для динамического назначения каналов весов различным уровням точности, что решает проблему ограниченности памяти на этапе декодирования.

arxiv arXiv cs.AI · 9 ч назад

STAITUS: Разделение внешнего вида и позы для отслеживания объектов на видео

В статье представлен STAITUS — унифицированная рамка для обучения без учителя при отслеживании объектов на видео, которая устраняет ограничения существующих методов, основанных на слотах, за счёт явного разделения внешнего вида и геометрической позы. Такой подход разрешает конфликты между временной согласованностью и движением объекта, предотвращая фиксацию слотов на статичном фоне.

arxiv arXiv cs.AI · 10 ч назад

Кросс-архитектурная смесь экспертов с адаптивным мягким маршрутизированием для классификации болезней листьев растений

В данном исследовании предлагается адаптивная мягкая архитектура Смеси Экспертов (MoE), которая объединяет EfficientNet-B0, DenseNet-121 и Swin-Tiny для решения задач классификации болезней листьев растений в условиях сложных фонов и дисбаланса классов.

arxiv arXiv cs.AI · 10 ч назад

Что знает химическая языковая модель о молекулах?

В данном исследовании применяются разреженные автоэнкодеры к модели MolFormer для механистического изучения того, как строятся молекулярные представления на разных слоях, опровергая предположение о том, что химические языковые модели изучают лишь поверхностный синтаксис.

media r/LocalLLaMA · 10 ч назад

LFM2.5 230M работает в браузере со скоростью 1400 токенов/с благодаря пользовательским WebGPU-ядрам

Модель LiquidAI LFM2.5-230M теперь работает локально в браузере с использованием пользовательских WebGPU-ядер. Эти специализированные ядра изначально были разработаны компанией Fable 5 до её закрытия, а также Opus 4.8. Демонстрация была записана на устройстве M4 Max, показав скорость генерации 1400 токенов в секунду. Вся обработка происходит полностью в среде браузера пользователя без внешних серверных зависимостей. Версия модели в формате GGUF доступна для загрузки на Hugging Face вместе со стандартным чекпоинтом. Пользователи могут взаимодействовать с живой демонстрацией, размещённой webml-community на Hugging Face Spaces.

media r/LocalLLaMA · 10 ч назад

Apple пропустит чипы M6 Pro/Max и ускорит выпуск M7 для локального ИИ

Согласно последнему сообщению, Apple планирует пропустить выпуск чипов M6 Pro и M6 Max в своей следующей линейке продуктов. Вместо этого компания намерена ускорить разработку серии чипов M7 для лучшей поддержки локальных задач искусственного интеллекта. Эта стратегическая переориентация указывает на приоритет возможностей ИИ на устройстве над традиционным увеличением производительности для линейки Pro. Решение отражает растущее внимание Apple к интеграции передовых функций машинного обучения непосредственно в архитектуру своего оборудования. Ускорив сроки выхода M7, Apple стремится обеспечить более высокую производительность нейронного движка для запуска больших языковых моделей локально. Этот шаг сигнализирует о значительном сдвиге в дорожной карте разработки Apple Silicon в сторону принципов дизайна, ориентированных на ИИ.

arxiv arXiv cs.AI · 10 ч назад

AOHP: платформа агентов на уровне ОС с открытым исходным кодом для персонализированного, эффективного и безопасного взаимодействия

Проект Android Open Harness Project (AOHP) представляет собой платформу агентов на уровне операционной системы с открытым исходным кодом, созданную на базе проекта Android Open Source Project. Она решает проблему несоответствия между современными операционными системами, ориентированными на приложения, и потребностями автономных ИИ-агентов, рассматривая агентов как полноправных субъектов ОС. В архитектуре предложены три ключевых механизма: персонализированная композиция сервисов, эффективные интерфейсы для агентов и безопасный поток информации. Эти функции обеспечивают адаптивные пользовательские интерфейсы и среду выполнения, удобную для агентов, сохраняя при этом существующую экосистему Android. Предварительные эксперименты на сложных задачах демонстрируют значительное улучшение производительности по сравнению с традиционными системами. В частности, AOHP увеличила долю успешно завершённых задач на 21,12% по сравнению с базовыми методами. Она также снизила затраты на выполнение токенов на 51,55%, что подчёркивает её преимущества в эффективности. Кроме того, система показала улучшенное соответствие политикам безопасности во время взаимодействий, опосредованных агентами.

arxiv arXiv cs.AI · 10 ч назад

Рост милитаризованной лексики в научных аннотациях подрывает доверие

Исследование, проанализировавшее 21,4 миллиона статей из баз OpenAlex и PubMed, показало, что количество военных терминов в научных аннотациях выросло на 48% и 32% соответственно за период с 2010 по 2025 год. Этот рост резко ускорился после 2019 года и сильно коррелирует с данными о глобальных конфликтах как на уровне стран, так и в годовом исчислении. Социальные науки демонстрируют наибольшую распространенность такой лексики, тогда как инженерия и информатика показывают самые высокие темпы роста. Анализ также отмечает, что период пандемии COVID и эпоха больших языковых моделей после 2022 года сократили лингвистический разрыв между авторами-носителями английского языка и не-носителями. Чтобы оценить влияние этой тенденции, исследователи провели внутрипредметный эксперимент с военной рамкой восприятия (war-framing), в котором приняли участие 801 человек и было проведено более 32 000 испытаний. Результаты эксперимента показали, что использование военной рамки значительно снижает воспринимаемую достоверность, готовность к финансированию и поддержку политики среди читателей. Хотя наблюдалась тенденция к росту чувства срочности, общие выводы указывают на то, что милитаризованная лексика может подрывать убедительность научной коммуникации.

media r/LocalLLaMA · 10 ч назад

Пост в Reddit: Полностью локальный слой памяти для ИИ-ассистента

Пользователь Reddit из сообщества r/LocalLLaMA опубликовал пост под названием «После 2,5 лет работы по вечерам и в выходные мой полностью локальный ИИ-ассистент наконец стал пригодным к использованию». В публикации подробно объясняется, как функционирует слой памяти этой персональной ИИ-системы. Материал был размещён пользователем /u/PAiERAlabs в сабреддите, посвящённом локальным большим языковым моделям. Пост содержит ссылку на галерею с дополнительными деталями проекта. Читателям предлагается перейти в раздел комментариев для дальнейшего обсуждения и получения технических подробностей. Эта запись подчёркивает долгосрочный личный проект, направленный на создание функционального ИИ-ассистента, размещённого локально.

media r/LocalLLaMA · 10 ч назад

Hugging Face блокирует многопоточные загрузки, влияя на экосистему GGUF

Hugging Face внедрила недавнее изменение, блокирующее ускорение многопоточных загрузок, что приводит к ошибкам 403 для всех потоков, кроме одного, в рамках одного соединения. Это обновление существенно влияет на экосистему GGUF, где распространены большие однофайловые модели, а скорости однопоточных загрузок часто ограничены значением 40 МБ/с. Ранее инструменты, такие как CLI Hugging Face, ускоряли загрузки путем параллельного получения множества меньших файлов, однако этот метод теперь затруднен данным ограничением. Автор отмечает, что загрузка всей ветки репозиториев GGUF неэффективна из-за наличия больших файлов и нескольких квантизаций в одной и той же ветке. Без отмены этой политики скорости загрузки останутся низкими, если только создатели контента не перейдут на разделение моделей на множество меньших файлов в разных ветках. Такой обходной путь потребует от пользователей ручного объединения файлов, что считается менее предпочтительным вариантом по сравнению с восстановлением Hugging Face предыдущих возможностей ускорения.

arxiv arXiv cs.AI · 11 ч назад

CADRE: Стабильная параметрически эффективная адаптация медицинских моделей визуального и языкового анализа с ограниченным забыванием и дрейфом приоров

Авторы представляют CADRE, параметрически эффективную структуру для адаптации медицинских моделей визуального и языкового анализа, предотвращающую катастрофическое забывание и дрейф приоров. Метод сочетает низкоранговую адаптацию с онлайн-членом эластичной консолидации весов с самонастраиваемым масштабом для ограничения потерь удержания компетенции. Он также использует штраф привязки к априорным значениям для ограничения дрейфа вложений от замороженной предварительно обученной модели. Два кратких утверждения относительно массы консолидации и инвариантности к масштабу устраняют хрупкость порядка, присущую базовому EWC. Подход был оценен на данных о раке молочной железы в модальностях гистопатологии, ультразвуковой диагностики и рентгенографии грудной клетки. Обучая приблизительно 0,23% параметров, CADRE достигла наименьшего уровня забывания среди методов адаптации. Это представило собой семикратное снижение по сравнению с наиболее сильным регуляризованным базовым уровнем, уменьшившись с 0,075 до 0,011. Модель также продемонстрировала положительный обратный перенос, тогда как все базовые уровни показали отрицательные результаты.

arxiv arXiv cs.AI · 11 ч назад

DVL-DeepONet: обучение операторам с учетом физических законов для устойчивой подводной навигации

Исследователи предлагают DVL-DeepONet, фреймворк глубокого нейронного оператора, руководствующийся физическими законами и предназначенный для улучшения навигации автономных подводных аппаратов (AUV) в условиях ухудшения работы датчиков. Система решает проблемы, возникающие из-за зашумленных или неполных измерений доплеровских логов скорости (DVL), а также отсутствия инерциальных датчиков на недорогих платформах. Она оценивает векторы скорости в трех рабочих сценариях: оценка, устойчивая к шуму, при использовании связанных датчиков; обучение только по данным DVL; и восстановление лучевых измерений. Сопоставляя временные наблюдения со скоростью аппарата и накладывая ограничения физической согласованности, модель сохраняет устойчивость во время внешних возмущений. Фреймворк был проверен с помощью реальных экспериментов на AUV, охватывающих суммарную длину пути около 10 000 метров. Экспериментальные результаты показывают, что архитектуры DVL-DeepONet превосходят базовые алгоритмы, основанные на моделях и на обучении, на 40%.

media r/LocalLLaMA · 11 ч назад

Разработчик переносит артефакты в стиле Claude в локальные модели с помощью TurboLLM

Пользователь Reddit отмечает отсутствие рендеринга артефактов в локальных AI-установках по сравнению с Claude от Anthropic. Хотя локальные модели могут генерировать код для панелей управления или диаграмм, пользователям обычно приходится копировать вывод в другое место, чтобы просмотреть его. Чтобы устранить этот пробел, разработчик экспериментировал с рендерингом сгенерированного HTML, SVG и Mermaid-кода непосредственно в интерфейсе чата. Результаты показали, что ограничение заключается в пользовательском интерфейсе, а не в возможностях модели. Скриншот из публикации демонстрирует панель управления, отрендеренную Gemma 4 26B по одному запросу на настольном компьютере. Реализация была создана с использованием TurboLLM, который позволяет такую прямую визуализацию результатов кода. Автор приглашает сообщество обсудить их рабочие процессы и не хватает ли им функции артефактов Claude.

media r/LocalLLaMA · 11 ч назад

Пользователь Reddit ищет локальную частную LLM для технической документации

Пользователь Reddit ищет рекомендации по локальной большой языковой модели, способной генерировать высокоуровневые и низкоуровневые проекты программного обеспечения. Рабочий процесс включает использование существующих шаблонов, перекрестную ссылку на код и интеграцию с агентными фреймворками, такими как OpenCode через MCP, для получения данных из Confluence и Jira. В настоящее время пользователь полагается на Opus 3.6 через Kiro-cli, но ему требуется решение, обеспечивающее конфиденциальность данных. Ключевые технические ограничения включают необходимость контекстной длины не менее 256k и сильные способности к рассуждению. Автор поста задается вопросом, необходимо ли такое оборудование, как четыре GPU RTX 3090, для достижения такого уровня производительности локально.