Влияние конфигураций PCIe 5.0 x8/x4 против x8/x8 на инференс с двумя GPU
Пользователь спрашивает, вызывает ли использование двух GPU в конфигурации PCIe 5.0 x8/x4 вместо x8/x8 значительное падение производительности при инференсе LLM.
Пользователь спрашивает, вызывает ли использование двух GPU в конфигурации PCIe 5.0 x8/x4 вместо x8/x8 значительное падение производительности при инференсе LLM.
В данной статье представлен фреймворк эволюционного моделирования, который интегрирует формальную семантику, позволяя лексическим значениям и композиционным функциям совместно эволюционировать под давлением стремления к концептуальной простоте и коммуникативной точности.
В данной статье представлен концептуальный фреймворк для анализа динамики диалога в контекстах совместного решения задач, с особым акцентом на взаимодействия человек-ИИ и многоагентные взаимодействия. Авторы утверждают, что понимание этих диалогических взаимодействий имеет решающее значение для оптимизации партнерства по мере того, как интеллектуальные системы приобретают автономные способности к рассуждению.
В данном исследовании изучается, функционируют ли языковые модели как последовательные базы знаний, анализируя, остаются ли факты, полученные в ходе одной задачи, доступными в других. Исследование показывает, что языковые модели кодируют знания специфичным для задачи образом, при этом различные подмножества параметров лежат в основе разных задач для одного и того же факта.
Архитектура CARVE устраняет три критических недостатка ведущей модели рекуррентной сети GDN-2 на основе правила дельты, ограничивая операции стирания осью ключей, что позволяет выполнять корректное решение треугольных чанков в форме WY и повышать эффективность использования значений. За счёт повторного использования тензора рекуррентного вывода в качестве сигнала содержимого и замены проекций вратарей записи для каждого значения на скаляры CARVE сохраняет битово-идентичную инициализацию по сравнению с GDN-2, одновременно решая проблемы слепой к памяти настройки вратарей.
В данной статье рассматривается проблема выбора источника без дообучения для больших языковых моделей с общими словарями в научных областях, таких как SMILES и геномика, где классические метрики либо неинформативны, либо вычислительно затратны. Авторы показывают, что метрики сходства представлений неидентифицируемы для переноса, поскольку модели могут иметь одинаковые представления, но ортогональные обновления заголовков.
В данной статье предлагается диагностическая рамка, разлагающая сложность исторического языка на стоимость токенизации, предиктивную неопределенность, семантическую устойчивость и чувствительность к контексту. Авторы оценивают эту рамку на текстах итальянского языка 17-го века, итальянского языка 19-го века и русского языка 18-го века, чтобы понять, как LLM обрабатывают исторические языки.
Каскады перевода для рассуждений переводят запросы на английский, выполняют рассуждения и переводят обратно, но этот процесс структурно теряет информацию из-за отбрасывания данных на каждом этапе. Авторы предлагают контекстно-ориентированный каскад перевода, который сохраняет исходный вопрос, переведённый запрос и цепочку рассуждений для смягчения этих потерь.
Исследователи предлагают таксономию, ориентированную на механизмы, косвенных лингвистических выражений (ILE) для классификации базовых операций, используемых для кодирования и восстановления смысла в закодированном языке. Этот подход абстрагируется от коммуникативных целей, чтобы сосредоточиться на конкретных механизмах кодирования, обнаруживаемых в алгоспике, эвфемизмах и враждебном обфускации.
В данной статье представлен первый кейс применения больших языковых моделей к процессу немецкого Центробанка по проверке приемлемости ценных бумаг для обеспечения, с переходом от традиционного распознавания именованных сущностей к генеративному конвейеру извлечения информации. Подход разбивает задачу на извлечение, нормализацию и интерпретацию для более эффективной работы с зашумленным текстом и двуязычным контентом.
Исследователи предлагают метод PEEU (Planning Experience Exploration and Utilization) для улучшения планирования задач в мультимодальных веб-агентах с использованием небольших открытых мультимодальных больших языковых моделей (MLLM). Этот подход автономно исследует окружения для обнаружения опыта и синтезирует высокоуровневые обучающие данные посредством использования ретроспективного опыта.
В данном исследовании предлагается продольная рамка текстового анализа, сочетающая извлечение метрик NLP на японском языке с парным тестированием и анализом функций сдвига для оценки качественных изменений в корпоративных раскрытиях рисков. Примененная к реформам раскрытия информации 2019 года в Японии, методология анализирует 19 770 наблюдений «фирма-год» за десять лет, чтобы уловить многомерную динамику, часто маскируемую методами с одним индикатором.
Исследователи представляют модульный, полностью открытый по весам конвейер для многоязычного совместного извлечения сущностей и отношений, который строит знаковые временные графы знаний на основе массивных неструктурированных корпусов новостей. Система объединяет распознавание именованных сущностей на основе спанов с каскадом связывания с Wikidata и моделью смеси экспертов, ограниченной онтологией, для извлечения направленных отношений.
Авторы представляют DanceOPD, фреймворк дистилляции генеративного поля с использованием on-policy подхода, предназначенный для объединения генерации изображений по тексту с возможностями локального и глобального редактирования в моделях flow-matching. Этот подход маршрутизирует выборки к конкретным полям возможностей и обучается с использованием целевой функции MSE скорости (velocity) для композиции экспертных навыков без взаимных помех.
Пользователь Reddit ищет рекомендации по YouTube-каналам, которые предоставляют новости и обновления о разработке локальных больших языковых моделей.
В статье упоминается модель LiquidAI LFM2.5-230M как альтернатива для пользователей без доступа к GPU в дата-центрах.
Ornith-1.0 — новое семейство открытых больших языковых моделей, специализированных для задач агентного программирования. Семейство моделей включает несколько размеров параметров, в том числе конфигурации 9B Dense, 35B MoE и 397B MoE.
NVIDIA представляет Nemotron-TwoTower, диффузионную языковую модель, которая разделяет представление контекста и итеративное удаление шума на две отдельные сети для преодоления ограничений пропускной способности существующих подходов. Построенная на основе модели с открытыми весами Nemotron-3-Nano-30B-A3B и обученная на 2,1 трлн токенов, она сохраняет 98,7% качества базовой авторегрессионной модели, достигая при этом в 2,42 раза более высокой пропускной способности генерации по реальному времени.
Исследование показывает, что хотя большие модели рассуждения (LRM) и люди тратят больше времени на более сложные задачи, они существенно расходятся в том, как распределяют обдумывание внутри конкретных примеров. При совершении ошибок LRM генерируют больше токенов, чем при правильных ответах, тогда как люди делают наоборот, тратя меньше времени на промахи.
В статье представлен MemStrata, система памяти поиска, предназначенная для устранения ошибок устаревших фактов в ИИ-агентах путем поддержания временной валидности в накопленных знаниях. В отличие от стандартного Retrieval-Augmented Generation (RAG), который испытывает трудности с различением дублированных и противоречащих фактов из-за сходства эмбеддингов, MemStrata использует детерминированное правило замещения для вывода устаревшей информации.