Все статьи
media r/LocalLLaMA · 3 ч назад

Вызывает ли режим разделения тензоров llama cpp проблемы?

Пользователь сообщает, что использование режима разделения тензоров в llama cpp вызывает зацикливание при вызове инструментов и построении цепочек рассуждений при запуске моделей Qwen 27B и Gemma 4 26B (MoE) на RTX 5080 и двух RTX 5060 Ti.

media r/LocalLLaMA · 3 ч назад

Сколько на самом деле занимает обработка вашего промпта при возобновлении долгой сессии?

Пользователь Reddit просит сообщество предоставить данные о том, сколько времени требуется для возобновления сессий кодинговых агентов с длинным контекстом в 100 тысяч токенов и более. Запрос адресован пользователям, которые запускают этих агентов локально.

arxiv arXiv cs.CL · 3 ч назад

Композициональность и лексикон в эволюционной семантике

В данной статье представлен фреймворк эволюционного моделирования, который интегрирует формальную семантику, позволяя лексическим значениям и композиционным функциям совместно эволюционировать под давлением стремления к концептуальной простоте и коммуникативной точности.

arxiv arXiv cs.CL · 3 ч назад

Преодоление разрыва между речью и мышлением: понимание динамики диалога в контекстах совместного решения задач

В данной статье представлен концептуальный фреймворк для анализа динамики диалога в контекстах совместного решения задач, с особым акцентом на взаимодействия человек-ИИ и многоагентные взаимодействия. Авторы утверждают, что понимание этих диалогических взаимодействий имеет решающее значение для оптимизации партнерства по мере того, как интеллектуальные системы приобретают автономные способности к рассуждению.

arxiv arXiv cs.CL · 3 ч назад

Языковые модели как базы знаний для конкретных задач: анализ интерпретируемости

В данном исследовании изучается, функционируют ли языковые модели как последовательные базы знаний, анализируя, остаются ли факты, полученные в ходе одной задачи, доступными в других. Исследование показывает, что языковые модели кодируют знания специфичным для задачи образом, при этом различные подмножества параметров лежат в основе разных задач для одного и того же факта.

arxiv arXiv cs.CL · 4 ч назад

CARVE: Содержательно-ориентированная рекуррентная модель с эффективностью значений для чанк-параллельного линейного внимания

Архитектура CARVE устраняет три критических недостатка ведущей модели рекуррентной сети GDN-2 на основе правила дельты, ограничивая операции стирания осью ключей, что позволяет выполнять корректное решение треугольных чанков в форме WY и повышать эффективность использования значений. За счёт повторного использования тензора рекуррентного вывода в качестве сигнала содержимого и замены проекций вратарей записи для каждого значения на скаляры CARVE сохраняет битово-идентичную инициализацию по сравнению с GDN-2, одновременно решая проблемы слепой к памяти настройки вратарей.

arxiv arXiv cs.CL · 4 ч назад

Геометрия обновлений: Выравнивание Фишера на уровне словаря

В данной статье рассматривается проблема выбора источника без дообучения для больших языковых моделей с общими словарями в научных областях, таких как SMILES и геномика, где классические метрики либо неинформативны, либо вычислительно затратны. Авторы показывают, что метрики сходства представлений неидентифицируемы для переноса, поскольку модели могут иметь одинаковые представления, но ортогональные обновления заголовков.

arxiv arXiv cs.CL · 4 ч назад

Насколько удивительны исторические итальянские тексты для языковых моделей? Налог на токенизацию, налог на понимание и простое смягчение

В данной статье предлагается диагностическая рамка, разлагающая сложность исторического языка на стоимость токенизации, предиктивную неопределенность, семантическую устойчивость и чувствительность к контексту. Авторы оценивают эту рамку на текстах итальянского языка 17-го века, итальянского языка 19-го века и русского языка 18-го века, чтобы понять, как LLM обрабатывают исторические языки.

arxiv arXiv cs.CL · 4 ч назад

Многоязычные каскады рассуждений требуют больше контекста

Каскады перевода для рассуждений переводят запросы на английский, выполняют рассуждения и переводят обратно, но этот процесс структурно теряет информацию из-за отбрасывания данных на каждом этапе. Авторы предлагают контекстно-ориентированный каскад перевода, который сохраняет исходный вопрос, переведённый запрос и цепочку рассуждений для смягчения этих потерь.

arxiv arXiv cs.CL · 4 ч назад

За пределами поверхностных форм: комплексная таксономия, ориентированная на механизмы, косвенного лингвистического кодирования для обнаружения закодированного языка на основе LLM

Исследователи предлагают таксономию, ориентированную на механизмы, косвенных лингвистических выражений (ILE) для классификации базовых операций, используемых для кодирования и восстановления смысла в закодированном языке. Этот подход абстрагируется от коммуникативных целей, чтобы сосредоточиться на конкретных механизмах кодирования, обнаруживаемых в алгоспике, эвфемизмах и враждебном обфускации.

arxiv arXiv cs.CL · 4 ч назад

Исследование критериев приемлемости на основе LLM в немецком Центробанке

В данной статье представлен первый кейс применения больших языковых моделей к процессу немецкого Центробанка по проверке приемлемости ценных бумаг для обеспечения, с переходом от традиционного распознавания именованных сущностей к генеративному конвейеру извлечения информации. Подход разбивает задачу на извлечение, нормализацию и интерпретацию для более эффективной работы с зашумленным текстом и двуязычным контентом.

arxiv arXiv cs.CL · 4 ч назад

Расширение возможностей GUI-агентов за счёт автономного исследования опыта и использования ретроспективного опыта

Исследователи предлагают метод PEEU (Planning Experience Exploration and Utilization) для улучшения планирования задач в мультимодальных веб-агентах с использованием небольших открытых мультимодальных больших языковых моделей (MLLM). Этот подход автономно исследует окружения для обнаружения опыта и синтезирует высокоуровневые обучающие данные посредством использования ретроспективного опыта.

arxiv arXiv cs.CL · 4 ч назад

Оценка изменений качества раскрытия информации о рисках после реформ с помощью многомерного текстового анализа

В данном исследовании предлагается продольная рамка текстового анализа, сочетающая извлечение метрик NLP на японском языке с парным тестированием и анализом функций сдвига для оценки качественных изменений в корпоративных раскрытиях рисков. Примененная к реформам раскрытия информации 2019 года в Японии, методология анализирует 19 770 наблюдений «фирма-год» за десять лет, чтобы уловить многомерную динамику, часто маскируемую методами с одним индикатором.

arxiv arXiv cs.CL · 5 ч назад

Картирование сетей политических элит в Европе с помощью многоязычного конвейера совместного извлечения сущностей и отношений

Исследователи представляют модульный, полностью открытый по весам конвейер для многоязычного совместного извлечения сущностей и отношений, который строит знаковые временные графы знаний на основе массивных неструктурированных корпусов новостей. Система объединяет распознавание именованных сущностей на основе спанов с каскадом связывания с Wikidata и моделью смеси экспертов, ограниченной онтологией, для извлечения направленных отношений.

arxiv arXiv cs.CL · 5 ч назад

DanceOPD: Дистилляция генеративного поля с использованием on-policy подхода

Авторы представляют DanceOPD, фреймворк дистилляции генеративного поля с использованием on-policy подхода, предназначенный для объединения генерации изображений по тексту с возможностями локального и глобального редактирования в моделях flow-matching. Этот подход маршрутизирует выборки к конкретным полям возможностей и обучается с использованием целевой функции MSE скорости (velocity) для композиции экспертных навыков без взаимных помех.

media r/LocalLLaMA · 5 ч назад

Ornith-1.0: открытые LLM для агентного программирования

Ornith-1.0 — новое семейство открытых больших языковых моделей, специализированных для задач агентного программирования. Семейство моделей включает несколько размеров параметров, в том числе конфигурации 9B Dense, 35B MoE и 397B MoE.

arxiv arXiv cs.CL · 5 ч назад

Nemotron-TwoTower: Диффузионное языковое моделирование с предварительно обученным авторегрессионным контекстом

NVIDIA представляет Nemotron-TwoTower, диффузионную языковую модель, которая разделяет представление контекста и итеративное удаление шума на две отдельные сети для преодоления ограничений пропускной способности существующих подходов. Построенная на основе модели с открытыми весами Nemotron-3-Nano-30B-A3B и обученная на 2,1 трлн токенов, она сохраняет 98,7% качества базовой авторегрессионной модели, достигая при этом в 2,42 раза более высокой пропускной способности генерации по реальному времени.