Тема · Open weights
arxiv arXiv cs.CL · 7 д назад

Неправильная синхронизация в больших языковых моделях: количественное исследование

Новое исследование представляет VETO — бенчмарк из 2032 пар контрастных примеров, полученных из BBQ, для количественной оценки неправильной синхронизации в больших языковых моделях. В нем определяется коэффициент неправильной синхронизации (MAR) и показывает, что все проверенные большие языковые модели демонстрируют значения MAR от 4,7% до 18,9%, в то время как люди достигают 0%. Исследование показывает, что сигналы синхронизации могут усиливать эти сбои, и доказательства подавления происходят в поздних слоях моделей и появляются после тренировки по инструкциям.

github llama.cpp · 7 д назад

Бэкенд Metal добавляет поддержку f16 и bf16 для оператора concat

Бэкенд Metal в llama.cpp был расширен для поддержки типов тензоров f16 и bf16 для оператора concat, в дополнение к существующей поддержке f32 и i32. Обновление включает специализированные шаблоны ядер, обновленные получатели трубопровода и улучшенную диспетчеризацию ядер по типам, с участием pi:llama.cpp/Qwen3.6-27B.

arxiv arXiv cs.CL · 8 д назад

RubricsTree: масштабируемая система оценки для персональных агентов здоровья

RubricsTree вводит иерархическую классификацию более 100 клинически подтвержденных булевых рубрик, эволюционировавших из 4000 реальных запросов пользователей при помощи ручной коррекции. Оно обеспечивает масштабируемую оценку персональных агентов здоровья, согласованную с экспертами, путем динамического направления запросов в соответствующие рубрики и превосходит базовые методы по согласованности, чувствительности к контексту и достигает роста производительности моделей до 66% на HealthBench.

arxiv arXiv cs.AI · 8 д назад

RubricsTree: масштабируемая система оценки для персональных агентов здравоохранения

RubricsTree вводит иерархическую классификацию более 100 клинически подтвержденных булевых рубрик, эволюционировавших из 4 000 реальных запросов пользователей при помощи ручной коррекции. Оно позволяет масштабируемо оценивать персональные агенты здравоохранения с учетом экспертных критериев, динамически направляя запросы в соответствующие рубрики и превосходит базовые методы по степени синхронизации, обнаружению деградации контекста и обеспечивает рост производительности моделей до 66% на HealthBench.

media r/LocalLLaMA · 8 д назад

GLM-5.2 превышает 80% на Terminal-Bench

GLM-5.2 — первый открытый модель с весами, достигший точности 80% на Terminal-Bench и превосходящий все другие доступные открытые модели. Он также превосходит Gemini, что делает его моделью передовой категории при значительно более низкой стоимости.

arxiv arXiv cs.CL · 9 д назад

LOGOS: Общее генеративное моделирование для естественных наук

LOGOS — это единая генеративная языковая модель, которая представляет научные объекты и их взаимодействия в виде последовательностей токенов в общей грамматике. Модель достигает стабильной или превосходной производительности на различных задачах естественных наук, демонстрируя возможность использования одной модели для работы в нескольких областях. Производительность модели растёт с увеличением количества параметров, и её конструкция указывает на то, что искусственный интеллект для науки должен тесно интегрироваться с большими языковыми моделями через общие архитектуры и обучение.

arxiv arXiv cs.CL · 7 д назад

TW-LegalBench: Оценка ЛЛМ на тайваньском праве

TW-LegalBench представляет бенчмарк, использующий публичный правовой корпус Тайваня для оценки производительности крупных языковых моделей в области тайваньского права. В нём содержится более 16 000 вопросов с выбором ответа, 117 открытых вопросов с критериями оценки и более 14 000 примеров предсказания решений. Оценка показывает, что лучшие модели превышают порог сдачи аттестации юриста (11%), но не достигают уровня судьи или прокурора (1–2%), и испытывают трудности при точном цитировании правовых статей в предсказаниях наказаний.

arxiv arXiv cs.CL · 7 д назад

G-IdiomAlign: Бенчмарк с использованием глагольного опорного элемента для синхронизации идиом между языками

G-IdiomAlign вводит бенчмарк, основанный на глагольных опорных элементах, используя английские глагольные опоры из Wiktionary для фиксации идиом. В нём содержатся контролируемые многократные варианты эквивалентности и протоколы глагольного контрастного генерирования, что показывает, что глагольные опоры улучшают производительность в семантической синхронизации, хотя результаты остаются скромными, что указывает на значительный потенциал для улучшения синхронизации идиом между языками.

arxiv arXiv cs.AI · 7 д назад

CADE: Прямое встраивание временных шагов для ответов на вопросы по временным рядам

CADE вводит прямое встраивание временных шагов и контрастную синхронизацию для сохранения метрической структуры в данных временных рядов. Сопоставляя каждый временной шаг напрямую в пространство векторных представлений LLM, он избегает барьеров токенизации и превосходит существующие базовые варианты LLM по шести задачам TSQA.

arxiv arXiv cs.AI · 7 д назад

G-IdiomAlign: Бенчмарк с использованием глаголов-пивотов для синхронизации идиом между языками

G-IdiomAlign вводит бенчмарк с использованием глаголов-пивотов, основанных на английских глаголах из Wiktionary, для фиксации идиом. В него включены протоколы контролируемого множественного выбора эквивалентности и глагольно-сравнительного генерирования, что показывает, что глаголы улучшают результаты в семантической синхронизации на основе встраивания, хотя результаты остаются скромными, что указывает на значительный потенциал для улучшения синхронизации идиом между языками.

arxiv arXiv cs.AI · 7 д назад

ARIADNE: Агностичное маршрутизация для выбора адаптеров на этапе инференса

ARIADNE обеспечивает динамический, без обучения выбор адаптера на этапе инференса, используя центроиды из векторных представлений данных обучения адаптеров. Он выбирает наиболее подходящий адаптер на основе близости в латентном пространстве, не требуя доступа к внутренним структурам адаптеров или дополнительного обучения, и достигает средней точности выбора 89,7% по 44 задачам в области NLP.

blog Simon Willison · 7 д назад

GLM-5.2 — ведущая модель открытых весов на Индексе искусственного аналитического интеллекта

GLM-5.2, текстовая модель из 753 миллиона параметров от Z.ai, теперь является ведущей моделью открытых весов на Индексе искусственного аналитического интеллекта, превосходя MiniMax-M3, DeepSeek V4 Pro и Kimi K2.6. У неё контекстное окно в 1 миллион токенов и занимает второе место на лидерборде Code Arena WebDev, несмотря на отсутствие возможностей обработки изображений.

media r/LocalLLaMA · 8 д назад

Локальные модели перешли от в основном бесполезных до действительно полезных за один год

Локальные модели перешли от того, что они были в основном ориентированы на приватность и служили игрушками, до практических инструментов для программирования, управления частными документами и локальных рабочих процессов за один год. Хотя они всё ещё не могут заменить лучшие закрытые модели при выполнении сложных задач, требующих планирования и исправления ошибок, общий рост в удобстве и производительности очевиден.

arxiv arXiv cs.LG · 8 д назад

Оценка базовых открытых моделей языковой модели для многозначной классификации ATT&CK

Создан и отображенный набор данных с 2076 предложениями, аннотированных людьми из 83 сложных отчетов по киберугрозам, с уровнем согласия между аннотаторами \k{appa} = 0.68. Оценены семь открытых моделей языковых моделей от 8B до 236B параметров, достигнув максимального значения F1 по микро-среднему среднему 0.22. Размер параметров показал статистически значимую положительную корреляцию с F1, в то время как стратегия запроса и температура не привели к значительным улучшениям, что указывает на недостаточность текущих открытых моделей языковых моделей для классификации ATT&CK на производственном уровне.

arxiv arXiv cs.CL · 8 д назад

LLMs предсказывают деменцию и депрессию на основе клинической речи

Исследование использует открытые большие языковые модели для оценки степени деменции и депрессии на основе клинических интервью. Модели достигают точного нуля-шот-предсказания депрессии (MAE 0,60) и улучшенной оценки деменции с извлечением признаков (MAE 0,78), снижая ошибки до 35%. Транскрипции с учетом пауз соответствуют ручным транскрипциям, что поддерживает автоматизированные потоки фильтрации для невропсихиатрических расстройств.

arxiv arXiv cs.AI · 8 д назад

IUU+DB: Система на основе больших языковых моделей для отслеживания незаконной, неотчётной и нерегулируемой рыбалки и преступлений в цепочках поставок

IUU+DB — это система, основанная на больших языковых моделях, которая отслеживает незаконную, неотчётную и нерегулируемую рыбалку, мошенничество в сельском хозяйстве и нарушения труда. Она извлекает ключевые элементы данных из разнообразных документов, классифицирует соответствующие инциденты и позволяет проводить анализ тенденций для выявления географических и поведенческих «горячих точек». Система поддерживает научные исследования, оценку рисков и контроль политики в рыболовстве и цепочках поставок.

arxiv arXiv cs.AI · 8 д назад

Внешний выпуск данных по заявкам Стэнфорда

Стэнфорд представляет SEFD, открытую, лаи-точную реконструкцию заявлений SEC в формате MultiMarkdown. Данный набор данных SEFD-v1 объемом 152 миллиарда токенов позволяет проводить финансовые моделирования и включает бенчмарки для прогнозирования и транскрипции таблиц, при этом пересечения с Common Crawl составляют менее 0,1%.

arxiv arXiv cs.CL · 8 д назад

Истории, сгенерированные LLM, показывают низкую разнообразие

Большие языковые модели генерируют рассказы, которые более схожи между собой, чем рассказы, написанные людьми. Передовые модели сходятся к общей, универсальной структуре рассказа, не демонстрируя разнообразия, присутствующего в рассказах, написанных людьми. Общие техники, такие как отрицательное подавление и масштабирование температуры, не значительно снижают эту однородность.

arxiv arXiv cs.CL · 8 д назад

Сжатые модели языковых моделей не справляются с открытым генерированием, несмотря на успешное прохождение тестов на выбор одного из вариантов

Сжатые большие языковые модели часто успешно справляются с тестами на выбор одного из вариантов, но не справляются с генерацией корректных ответов в открытых ответах. Эта "обманная оценка" показывает, что ответы не удаляются, а лишь снижаются по значимости, и появляются только при использовании продвинутых методов генерации, таких как beam search или sampling. Стандартные оценочные тесты переоценивают практическую применимость сжатых моделей, подчеркивая критическую пробел в оценке.