Reasoning models — korshunov.ai

Reasoning models Страница 10 / 35

Наблюдение за тем, как локальный ИИ-ассистент по голосу становится менее умным

Проверка на RTX 5060 Ti показала, что сокращение размера модели локального ИИ-ассистента по голосу с 9B до 0,8B приводит к резкому падению его способностей. Модель размером 9B хорошо справляется с координацией инструментов, в то время как более маленькие модели демонстрируют растущее количество сбоев: модель размером 4B пропускает вызов инструментов и делает предположения о фактах, модель размером 2B испытывает синтаксическую дрейф, а модель размером 0,8B не может выполнять функции агента, вызывая неправильные API или бесконечные циклы.

media r/LocalLLaMA · 6 д назад

Кто-то использовал VibeThinker-3B вне бенчмарков?

Пользователь Reddit спрашивает о реальной производительности VibeThinker-3B за пределами бенчмарков, обращая внимание на отладку, программирование, логику, задержку и удобство использования. Модель доступна на Hugging Face и описана в статье на arXiv.

arxiv arXiv cs.AI · 6 д назад

DataMagic превращает таблицы данных в интерактивные видео с анализом данных

DataMagic преобразует сырые таблицы данных и естественные запросы на языке природных языков в видео с аналитическими данными. Система использует DVSpec для обеспечения точности данных, связывая визуальные элементы с полями данных через семантические ссылки, и применяет многопрофильную архитектуру для генерации и координации согласованных сцен видео. Система поддерживает интерактивное исследование и вопросы по данным на основе происхождения, позволяя пользователям взаимодействовать с данными за пределами статических представлений.

arxiv arXiv cs.AI · 6 д назад

Многоуровневая децифрация улучшает классификацию вредоносного ПО на основе больших языковых моделей

Оценка доброкачественных и вредоносных бинарных файлов, скомпилированных и децифрованных с помощью Ghidra и RetDec, показывает, что предоставление обеих децифрационных версий крупным языковым моделям улучшает F1 по классу вредоносного ПО, главным образом за счёт увеличения доли обнаружения. Анализ показывает, что Ghidra и RetDec допускают различные ошибки, что указывает на то, что их выводы предоставляют дополняющие данные для классификации вредоносного ПО.

arxiv arXiv cs.AI · 6 д назад

Внимание-ориентированный глубокий анализ для интерпретируемой классификации морфологии сперматозоидов

Новый фреймворк глубокого обучения комбинирует EfficientNet-B0 с CBAM для повышения точности и интерпретируемости в классификации морфологии сперматозоидов. Оценка на наборах данных SMIDS и HuSHem показывает точность 90,2% и 93,9%, а значения макро-F1 — 0,913 и 0,948, что превосходит базовые модели. Визуализации Grad-CAM++ позволяют проводить прозрачный анализ признаков, что поддерживает клиническое внедрение в кабинетах репродуктивной медицины.

arxiv arXiv cs.AI · 6 д назад

Оптимальный порядок в рамке многоагентных систем

Новая рамка анализирует многоагентные системы, моделируя влияние агентов и функции их реакции. Она выводит макроскопические свойства, такие как мощность, энтропия и порядок, и определяет оптимальный уровень синхронизации, который балансирует производительность, стабильность и адаптивность. Исследование показывает, что порядок и свойства системы зависят от задачи и контекста.

arxiv arXiv cs.AI · 6 д назад

Калибровка без понимания в обнаружении уязвимостей в LLM

CWE-Trace оценивает восемь прямых и 15 LoRA-настроенных LLM на обнаружении уязвимостей в ядре Linux. Результаты показывают, что заражение данными не дает преимущества, а настройка только сдвигает пороги вывода без изменения политики принятия решений. Несмотря на улучшение показателей обнаружения, LLM не обладают надежным безопасным мышлением, при этом точность по CWE на первом месте составляет менее 1,3%, а бинарная производительность обнаружения достигает 52,1%.

arxiv arXiv cs.AI · 6 д назад

FreeStyle: масштабируемое генерирование двойных ссылок через извлечение сообщественных LoRAs

FreeStyle предлагает рамку, которая извлекает сообщественные LoRAs для генерации масштабных троек изображений с двумя ссылками — стилем и содержанием. В ней используется двухэтапная куррикулярная система с механизмами разъединения, чтобы подавить утечку стиля, и вводится бенчмарк с оценками, не зависящими от стиля и основанными на ВЛМ, для оценки сохранения содержания и отклонения утечки стиля.

arxiv arXiv cs.AI · 7 д назад

Как безопасные LLM интерпретируют смешанные демонстрации соблюдения

Исследования показывают, что добрые и вредные демонстрации соблюдения не являются взаимозаменяемыми в LLM. Добрые демонстрации могут либо снизить, либо увеличить вредные демонстрации в зависимости от модели, при этом оптимизация предпочтений играет ключевую роль в предотвращении вредных демонстраций. Порядок демонстраций показывает сильную предпочтительность последних элементов, и модели различаются по способности обрабатывать отказ в процессе обучения в контексте.

arxiv arXiv cs.AI · 7 д назад

Multi-LCB: Расширение LiveCodeBench до 12 языков программирования

Multi-LCB расширяет LiveCodeBench до двенадцати языков программирования, сохраняя его меры контроля за загрязнением и протокол оценки. Оно выявляет переобучение Python, языковые предвзятости и значительные разрывы в производительности между LLM на разных языках, устанавливая строгий стандарт для генерации кода на разных языках.

arxiv arXiv cs.AI · 7 д назад

FlowEdit: долгосрочная адаптация произношения в модели Flow-Matching TTS

FlowEdit позволяет адаптировать исправления произношения в замороженных моделях flow-matching TTS с течением времени с помощью скрытых редакций в векторных представлениях текста. Оно хранит исправления в современной сети Хопфилда и извлекает их с помощью мягкой внимательности с воротником схожести, снижая ошибки фонем на 92,7% при 312 многоречевых собственных имен, при этом сохраняя качество общего речевого произношения. Время выполнения исправлений составляет около 15 секунд на одном GPU.

arxiv arXiv cs.AI · 7 д назад

SARLO-80: Высокоразрешающий SAR-оптический-текстовый набор данных выпущен

SARLO-80 — это масштабный набор данных, объединяющий очень высокоразрешающие SAR SLC-изображения, выровненные оптические изображения и естественные языковые описания. В него включены 119 566 троек из 2 500 глобальных сцен в 72 странах, стандартизированных на сетку 80 см в сланцевом диапазоне с пиксельным выравниванием и тремя вариантами описаний. Набор данных доступен в открытом доступе на Hugging Face для многомодальных задач обучения в исходной SAR геометрии.

arxiv arXiv cs.AI · 7 д назад

DeepSWIP: контрфактальное мышление в нейронной вероятностной логике

DeepSWIP вводит односветовое контрфактальное семантическое представление для DeepProbLog, позволяя проводить причинные рассуждения через нейронную материализацию и взвешенное моделирование. Оно обеспечивает точное вычисление при конечной грундинге и предположении о единственном поддерживаемом моделировании, эксперименты показывают ускорение в 2,14 раза и улучшенную калибровку по сравнению с оценщиками DeepTwin и AIPW.

arxiv arXiv cs.AI · 7 д назад

LedgerAgent: структурированный статус для агентов вызова инструментов, соблюдающих политику

LedgerAgent вводит структурированный журнал для поддержания состояний задач отдельно в агентах вызова инструментов. Он превращает состояния в промпты и обеспечивает соблюдение политических ограничений до выполнения инструмента, что снижает нарушения политики и улучшает производительность в областях обслуживания клиентов.

arxiv arXiv cs.AI · 7 д назад

Перекрестное внимание по атрибуции для стиля-описательного текста-к-голосу

Новая методика адаптирует DAAM к моделям диффузии речи, анализируя, как стилизующие подписи влияют на волны ТТС. Она показывает, что стилизующие токены имеют меньшую временну дисперсию, чем содержательные токены, при этом внимание к стилю коррелирует с интонацией и энергией, а пик стилизации происходит на ранних слоях, где энтропия внимания минимизируется, что указывает на максимальную селективность.

arxiv arXiv cs.AI · 7 д назад

Калибровка в моделях на основе смеси экспертов при смещении распределения

Эта статья исследует, как модели на основе смеси экспертов сохраняют калибровку при смещении распределения. Авторы показывают, что калибровка на уровне экспертов обеспечивает общую калибровку в моделях с жестким маршрутизацией, но недостаточна для моделей с мягким маршрутизацией. Авторы предлагают противоречивую пересадку, чтобы штрафовать ошибки калибровки в маршрутизированных агрегатах, улучшая баланс между точностью и калибровкой при различных задачах и смещениях.

arxiv arXiv cs.AI · 7 д назад

G2Rec: Единая платформа для генеративных рекомендаций

G2Rec представляет масштабируемую платформу, которая объединяет целостную графовую модель совместного взаимодействия пользователей и семантическую токенизацию. Она позволяет генеративным моделям рекомендаций выявлять всесторонние, семантически обоснованные прототипы интересов пользователей без использования истинных интересов пользователей, превосходя существующие методы в масштабных последовательных рекомендациях на промышленном уровне.

arxiv arXiv cs.AI · 7 д назад

На сколько прозрачна DiffusionGemma?

DiffusionGemma имеет плохую прозрачность переменных из-за высокой степени прозрачности последовательности, но это может быть уменьшено за счёт интерпретируемого барьера токенов, снижая глубину последовательности до 1,1 раза глубины Gemma 4. Алгоритмическая прозрачность в моделях диффузии является более сложной из-за динамических предсказаний токенов, с ранними доказательствами нехронологического мышления, размытия токенов и мышления в промежуточном контексте. DiffusionGemma показан как сопоставимо прозрачный по сравнению с Gemma 4.

arxiv arXiv cs.LG · 7 д назад

FedMGS: Федеративное модальность-осознанное синтезирование графа для несбалансированного многомодального обучения

FedMGS решает проблемы несбалансированности модальностей на уровне клиентов и узлов в федеративном обучении графов, синтезируя скрытые семантические представления. Оно интегрирует доступность-осознанного граф-энкодера, синтезатор семантики с использованием прототипов и механизм объединения с калибровкой надежности для восстановления отсутствующих модальностей при сохранении семантической синхронизации. Эксперименты показывают, что FedMGS обеспечивает рост производительности до 17,41% по сравнению с базовыми методами на четырех задачах.

arxiv arXiv cs.LG · 7 д назад

Разнообразие стиля превосходит разнообразие тем в синтезированных данных без аннотации

Новая система генерирует синтезированные диалоги без использования аннотированных данных от человека, используя только определения намерений. В ней включены атрибуты тем и стиля, а также модели пост-обработки стиля Univ и Exam, и процесс фильтрации с помощью языковой модели как судьи. Результаты показывают достижение до 93,3% эффективности по сравнению с аннотированными данными человека, что подтверждает, что разнообразие стиля является более важным, чем разнообразие тем, для полезности данных.