Интерактивный объяснитель для спекулятивного декодирования и MTP
Пользователь опубликовал интерактивный объяснитель по теме спекулятивного декодирования и многозадачного предсказания (MTP). Ресурс доступен по ссылке, указанной в исходном сообщении.
Пользователь опубликовал интерактивный объяснитель по теме спекулятивного декодирования и многозадачного предсказания (MTP). Ресурс доступен по ссылке, указанной в исходном сообщении.
Пользователь сообщает о запуске Qwen3.6 27B MTP с llama.cpp на рабочей станции RTX PRO 6000 Blackwell, чтобы снизить зависимость от Claude, отмечая, что модель сопоставима с Sonnet, но страдает от проблем со стабильностью во время кодовых сессий.
Пользователь Reddit интересуется, тестировали ли другие модель Ornith-1.0 9B. Пользователь конкретно спрашивает, стоит ли рассмотреть её использование вместо вариантов Qwen2.5-9B.
Пользователь Reddit утверждает, что расхождение Кульбака-Лейблера (KL) является ненадежной метрикой для измерения разницы между аблитерированной моделью и ее базовой версией. Автор отмечает, что KL можно представить множеством способов, она полностью зависит от оценочных промптов и часто манипулируется через first-token KL, чтобы сделать модели более привлекательными.
Пользователь сообщает, что использование режима разделения тензоров в llama cpp вызывает зацикливание при вызове инструментов и построении цепочек рассуждений при запуске моделей Qwen 27B и Gemma 4 26B (MoE) на RTX 5080 и двух RTX 5060 Ti.
Пользователь Reddit просит сообщество предоставить данные о том, сколько времени требуется для возобновления сессий кодинговых агентов с длинным контекстом в 100 тысяч токенов и более. Запрос адресован пользователям, которые запускают этих агентов локально.
Пользователь спрашивает, вызывает ли использование двух GPU в конфигурации PCIe 5.0 x8/x4 вместо x8/x8 значительное падение производительности при инференсе LLM.
В данной статье представлен фреймворк эволюционного моделирования, который интегрирует формальную семантику, позволяя лексическим значениям и композиционным функциям совместно эволюционировать под давлением стремления к концептуальной простоте и коммуникативной точности.
В данной статье представлен концептуальный фреймворк для анализа динамики диалога в контекстах совместного решения задач, с особым акцентом на взаимодействия человек-ИИ и многоагентные взаимодействия. Авторы утверждают, что понимание этих диалогических взаимодействий имеет решающее значение для оптимизации партнерства по мере того, как интеллектуальные системы приобретают автономные способности к рассуждению.
В данном исследовании изучается, функционируют ли языковые модели как последовательные базы знаний, анализируя, остаются ли факты, полученные в ходе одной задачи, доступными в других. Исследование показывает, что языковые модели кодируют знания специфичным для задачи образом, при этом различные подмножества параметров лежат в основе разных задач для одного и того же факта.
Архитектура CARVE устраняет три критических недостатка ведущей модели рекуррентной сети GDN-2 на основе правила дельты, ограничивая операции стирания осью ключей, что позволяет выполнять корректное решение треугольных чанков в форме WY и повышать эффективность использования значений. За счёт повторного использования тензора рекуррентного вывода в качестве сигнала содержимого и замены проекций вратарей записи для каждого значения на скаляры CARVE сохраняет битово-идентичную инициализацию по сравнению с GDN-2, одновременно решая проблемы слепой к памяти настройки вратарей.
В данной статье рассматривается проблема выбора источника без дообучения для больших языковых моделей с общими словарями в научных областях, таких как SMILES и геномика, где классические метрики либо неинформативны, либо вычислительно затратны. Авторы показывают, что метрики сходства представлений неидентифицируемы для переноса, поскольку модели могут иметь одинаковые представления, но ортогональные обновления заголовков.
В данной статье предлагается диагностическая рамка, разлагающая сложность исторического языка на стоимость токенизации, предиктивную неопределенность, семантическую устойчивость и чувствительность к контексту. Авторы оценивают эту рамку на текстах итальянского языка 17-го века, итальянского языка 19-го века и русского языка 18-го века, чтобы понять, как LLM обрабатывают исторические языки.
Каскады перевода для рассуждений переводят запросы на английский, выполняют рассуждения и переводят обратно, но этот процесс структурно теряет информацию из-за отбрасывания данных на каждом этапе. Авторы предлагают контекстно-ориентированный каскад перевода, который сохраняет исходный вопрос, переведённый запрос и цепочку рассуждений для смягчения этих потерь.
Исследователи предлагают таксономию, ориентированную на механизмы, косвенных лингвистических выражений (ILE) для классификации базовых операций, используемых для кодирования и восстановления смысла в закодированном языке. Этот подход абстрагируется от коммуникативных целей, чтобы сосредоточиться на конкретных механизмах кодирования, обнаруживаемых в алгоспике, эвфемизмах и враждебном обфускации.
В данной статье представлен первый кейс применения больших языковых моделей к процессу немецкого Центробанка по проверке приемлемости ценных бумаг для обеспечения, с переходом от традиционного распознавания именованных сущностей к генеративному конвейеру извлечения информации. Подход разбивает задачу на извлечение, нормализацию и интерпретацию для более эффективной работы с зашумленным текстом и двуязычным контентом.
Исследователи предлагают метод PEEU (Planning Experience Exploration and Utilization) для улучшения планирования задач в мультимодальных веб-агентах с использованием небольших открытых мультимодальных больших языковых моделей (MLLM). Этот подход автономно исследует окружения для обнаружения опыта и синтезирует высокоуровневые обучающие данные посредством использования ретроспективного опыта.
В данном исследовании предлагается продольная рамка текстового анализа, сочетающая извлечение метрик NLP на японском языке с парным тестированием и анализом функций сдвига для оценки качественных изменений в корпоративных раскрытиях рисков. Примененная к реформам раскрытия информации 2019 года в Японии, методология анализирует 19 770 наблюдений «фирма-год» за десять лет, чтобы уловить многомерную динамику, часто маскируемую методами с одним индикатором.
Исследователи представляют модульный, полностью открытый по весам конвейер для многоязычного совместного извлечения сущностей и отношений, который строит знаковые временные графы знаний на основе массивных неструктурированных корпусов новостей. Система объединяет распознавание именованных сущностей на основе спанов с каскадом связывания с Wikidata и моделью смеси экспертов, ограниченной онтологией, для извлечения направленных отношений.
Авторы представляют DanceOPD, фреймворк дистилляции генеративного поля с использованием on-policy подхода, предназначенный для объединения генерации изображений по тексту с возможностями локального и глобального редактирования в моделях flow-matching. Этот подход маршрутизирует выборки к конкретным полям возможностей и обучается с использованием целевой функции MSE скорости (velocity) для композиции экспертных навыков без взаимных помех.