Все статьи
github llama.cpp · 10 ч назад

Выпуск llama.cpp b9838: сборки для macOS, Linux, Windows, Android

Проект llama.cpp выпустил версию b9838, предоставляя предварительно собранные бинарные файлы для широкого спектра операционных систем и аппаратных ускорителей. Этот выпуск включает поддержку CPU, GPU (CUDA, Vulkan, ROCm, OpenCL) и специализированных AI-ускорителей на macOS, Linux, Windows, Android и openEuler.

arxiv arXiv cs.CL · 11 ч назад

Aloe-Vision: Устойчивые модели для работы с визуальными и языковыми данными в здравоохранении

В данной работе представлена Aloe-Vision — семейство открытых больших моделей для работы с визуальными и языковыми данными (7B и 72B), обученных на недавно выпущенном наборе данных Aloe-Vision-Data для решения проблем нехватки данных и устойчивости в ИИ для здравоохранения. Авторы демонстрируют, что их высококачественная обучающая смесь обеспечивает значительный прирост производительности по сравнению с базовыми моделями, сохраняя при этом общие возможности.

arxiv arXiv cs.CL · 11 ч назад

Проклятие множественных медиаторов: скрытые эффекты взаимодействия при активационном патчинге

Повторный вывод оценочной функции активационного патчинга из каузального медиантного анализа показывает, что естественный косвенный эффект (NIE) захватывает не только каузальный эффект через конкретный компонент, но и эффекты взаимодействия (INT). Эти члены INT измеряют, насколько каузальный эффект компонента зависит от состояния других компонентов в модели, ставя под сомнение предположение о том, что NIE изолирует индивидуальные вклады.

arxiv arXiv cs.CL · 11 ч назад

Контекстно-готовый трансформер

Авторы представляют контекстно-готовый трансформер, архитектуру рекуррентной нейронной сети, которая предварительно контекстуализирует каждый токен перед его входом в D-слойный блок трансформера с помощью корректирующей сети.

arxiv arXiv cs.CL · 11 ч назад

EntMTP: Ускорение вывода LLM с помощью многозадачного предсказания токенов на основе энтропии

Авторы предлагают Entropy-guided Multi-Token Prediction (EntMTP), планировщик без обучения, который динамически регулирует глубину спекуляции во время вывода LLM на основе локальной энтропии генерации. Этот подход решает проблему неэффективности статических топологий внимания на основе деревьев, согласуя вычислительные требования с предсказуемостью контекста.

arxiv arXiv cs.CL · 11 ч назад

Ko-WideSearch: Корейский бенчмарк для широкого поиска и полного перечисления множеств веб-агентами

В статье представлен Ko-WideSearch, новый бенчмарк, разработанный для оценки возможностей широкого поиска веб-агентов на корейском языке, что решает проблему отсутствия метрик полного перечисления множеств вне английского языка.

arxiv arXiv cs.CL · 11 ч назад

Narrative-UFET: Генерация нарративов для ультра-тонкого типирования сущностей

Авторы представляют Narrative-UFET, контролируемое расширение ультра-тонкого типирования сущностей, которое сопоставляет упоминания сущностей с автоматически сгенерированными короткими нарративами для устранения ограничений в разрешении неоднозначности типов с длинным хвостом. Исследование демонстрирует, что контекст нарратива дает последовательные улучшения по сравнению с базовыми уровнями на уровне предложений, особенно когда тип сущности меняется внутри текста.

arxiv arXiv cs.CL · 11 ч назад

Модели потока маскированного языка

Авторы представляют модели потока маскированного языка (MLFMs), которые объединяют маскированную диффузию с непрерывными потоками для обеспечения эффективного многошагового рассуждения при генерации текста. Этот подход сокращает разрыв между эффективностью параллельной генерации и производительностью в сложных задачах, позволяя адаптировать предварительно обученные модели в MLFMs.

arxiv arXiv cs.CL · 11 ч назад

DysLexLens: Низкоресурсная LLM-фреймворк для анализа инсайтов дислексических обучающихся из онлайн-форумов

В данной статье представлен DysLexLens, низкоресурсный LLM-фреймворк, предназначенный для анализа опыта дислексических обучающихся при использовании ИИ-инструментов на основе обсуждений в онлайн-форумах. Система обеспечивает сквозную архитектуру с прослеживаемыми доказательствами, которая преобразует зашумленные посты из социальных сетей в сфокусированные корпусы и генерирует проверяемые ответы на запросы.

arxiv arXiv cs.CL · 11 ч назад

Обнаружение агрессивных комментариев на китайском языке между платформами с помощью метода добычи сложных примеров по двойному порогу

В данной статье рассматривается проблема снижения эффективности моделей обнаружения агрессивных комментариев при их развертывании на различных китайских платформах социальных сетей. Предложен метод добычи сложных примеров по двойному порогу.

media Hugging Face Forums · 11 ч назад

Архитектура поколенческого контекста: Решение проблемы «закисания» контекста в LLM

Архитектура поколенческого контекста (GCA) предлагает рассматривать окно контекста LLM как конечный срок жизни, а не бесконечное хранилище, чтобы решить проблему «закисания» контекста и размытия внимания в многоагентных системах. Насилие искусственной смертности приводит к тому, что агенты завершаются до деградации производительности, передавая своё состояние новым поколениям через плоский Markdown-хранилище.

arxiv arXiv cs.CL · 12 ч назад

Yuvion LLM: Большая языковая модель, учитывающая противоборствующие атаки, для безопасности контента и ИИ

Yuvion LLM — это новая большая языковая модель, предназначенная для устранения сбоев в области безопасности за счёт рассмотрения устойчивости к противоборствующим атакам и агентных возможностей как первичных целей. Она использует конвейер, сочетающий создание данных с учётом противоборствующих атак, продолженное предобучение с усилением знаний и многозадачное постобучение безопасности на основе политик.

arxiv arXiv cs.CL · 12 ч назад

DiscoBench: бенчмарк для глубокого поиска с учётом уточнений

Авторы представляют DiscoBench — бенчмарк, предназначенный для оценки способности поисковых агентов на базе больших языковых моделей проактивно выявлять неоднозначность и задавать эффективные уточняющие вопросы в ходе задач глубокого поиска. В отличие от существующих бенчмарков, которые предполагают полноту пользовательских запросов, данная фреймворк учитывает реальность нечётких или недостаточно специфицированных запросов в реальных сценариях.

arxiv arXiv cs.CL · 12 ч назад

Факторизованное исследование оценки неопределённости на основе проб в LLM

В данном исследовании проводится факторизованный анализ оценки неопределённости на основе проб для определения того, что определяет производительность при обнаружении галлюцинаций в больших языковых моделях. Исследование изолирует переменные по дизайну признаков, обучающим данным и условиям оценки, чтобы предоставить чёткие выводы об эффективных методологиях.

arxiv arXiv cs.CL · 12 ч назад

Текстуальные состояния убеждений для моделей мира: идентифицируемое обучение представлений при строгой медиации

В данной статье рассматривается проблема неидентифицируемых латентных состояний в моделях мира на основе LLM, вызванная обходом истории, и предлагается строгая медиация латентных состояний для её решения. Авторы вводят текстуальные латентные состояния и факторизованный GRPO (fGRPO) — метод обучения с подкреплением древовидной структуры, обеспечивающий строгую медиацию во время обучения.

media Hugging Face Forums · 12 ч назад

Анализ динамики скрытых состояний в 7 моделях LLM с открытым весом выявляет повторяющиеся функциональные паттерны

Независимый исследователь проанализировал эволюцию скрытых представлений во время инференса на семи моделях с открытым весом, включая GPT-2, OPT-125M и Llama-3.2-1B, чтобы выявить внутренние динамические режимы за пределами стандартных бенчмарков вывода.

media Hugging Face Forums · 12 ч назад

Исследование функциональных режимов внутри малых языковых моделей

Этот независимый исследовательский проект характеризует внутреннюю динамику семи малых и средних языковых моделей, анализируя эволюцию скрытых представлений во время вывода, а не полагаясь на стандартные выходные бенчмарки. Исследование изучает динамическое поведение, функциональную организацию и геометрию представлений для выявления воспроизводимых паттернов в различных архитектурах.

media Hugging Face Forums · 12 ч назад

Предсказатель Чемпионата мира 2026

Разработчик создал инструмент прогнозирования Чемпионата мира 2026, который использует исторические данные для симуляции результатов турнира. Приложение предоставляет вероятности победы и прогнозы счета для любых двух национальных команд на основе паттернов, изученных примерно из 50 000 международных матчей, охватывающих более века.

media Hugging Face Forums · 12 ч назад

Комплексное двуязычное руководство по Трансформерам: от основ до сжатия KV-кэша и динамики внимания

Карлес Марин выпустил открытый двуязычный (английский и испанский) гид, который связывает математические основы архитектур Трансформеров с их практической реализацией. Ресурс фокусируется на низкоуровневой механике, предоставляя воспроизводимый код и интерактивные элементы для объяснения сложных тем.

media Hugging Face Forums · 12 ч назад

Опубликовано двуязычное руководство по механике трансформеров с открытым исходным кодом

Опубликовано двуязычное (английский/испанский) руководство с открытым исходным кодом, подробно описывающее внутреннее устройство трансформеров. Ресурс охватывает точную математику и механику таких концепций, как коллапс внимания и сжатие KV-кэша.