Все статьи
arxiv arXiv cs.CL · 12 д назад

Трансформаторы с цепочкой мыслей могут эффективно имитировать алгоритмы Word RAM

Трансформаторы с цепочкой мыслей могут эффективно имитировать алгоритмы Word RAM с лишь полиномиально-логарифмической задержкой. Эта эффективность повышается до лог-квадратов для плоских инструкций и логарифмов для инструкций без умножения, в отличие от предыдущих имитаций туринговых машин, требующих квадратичной задержки.

arxiv arXiv cs.CL · 12 д назад

Анализ настроения пропускает ключевые результаты клиентов

Исследование 70 450 разговоров по поддержке показало, что анализ настроения плохо отражает удовлетворенность клиентов, при этом оценки удовлетворенности на основе GPT-5.4 коррелируют с рейтингами на 0.47, в то время как анализ настроения показывает корреляцию 0.36. Модель также выявила 44% разговоров, где тон и удовлетворенность расходятся, что выявляет «терпимую тревожность» — клиенты, которые заявляют о удовлетворении, все же указывают на исправляемые проблемы — явление, не видимое анализом настроения.

arxiv arXiv cs.CL · 12 д назад

TerraMARS: Пайплайн малого языкового моделирования для литературы по трансформации Марса

TerraMARS — это пайплайн, который использует малую языковую модель, адаптированную к области, для извлечения структурированной информации из научной литературы по Марсу. Он преобразует неструктурированный текст в формат JSON и поддерживает ответы на вопросы, связанные с трансформацией Марса, что позволяет интегрировать его в моделирование пригодности для жизни и цифровых двойников. Пайплайн использует Google Gemma 3 1B, тонко настроенную с использованием QLoRA на наборах данных, специфичных для Марса, хотя требуется дальнейшая работа для повышения точности и фактической согласованности.

arxiv arXiv cs.CL · 12 д назад

NEST: Датасет для нарративных структур событий в длинных видео

NEST представляет датасет из 1005 полных фильмов, каждый из которых аннотирован 102 мультимодальными нарративными событиями, основанными на визуальном, диалоговом и аудио содержимом. Датасет отражает отношения между событиями, такие как временная последовательность, иерархия и долгосрочные зависимости, при оценке на задачах показывают низкую производительность в обнаружении и локализации событий, и более высокую производительность в извлечении отношений между событиями после финальной настройки.

arxiv arXiv cs.CL · 12 д назад

FineREX: настроенная система извлечения названий и связей для знаний о незаконной транспортировке людей

FineREX — это специализированная система знаний, использующая настроенную модель языковой модели для извлечения названий и связей. Она превосходит общие модели на 15,50% по метрике F1 для сущностей и на 31,46% по метрике F-1 для связей, снижая шум в правовых данных почти вдвое и сокращая дублирование узлов с 17,78% до 11.-17%. Система также сокращает общее время обработки на 50,0% за счёт устранения избыточных шагов.

arxiv arXiv cs.CL · 12 д назад

Введение P-CHR AUC и CRR для семантической кэширования

Мы вводим метрики Точность-Кэш-Хит-Рейт (P-CHR) AUC и Калибровочная устойчивость (CRR), чтобы решить разрыв калибровки в семантическом кэшировании. Эти метрики оценивают точность на разных уровнях использования кэша и измеряют, насколько качество ранжирования в открытом режиме сохраняется при развертывании. Анализ показывает, что разрыв обусловлен тренировочными целями, а не масштабом данных, и пост-хай-калибровка лишь частично решает эту проблему.

arxiv arXiv cs.CL · 12 д назад

NRITYAM: Бенчмарк для культурного понимания в танце

NRITYAM — это многоразговорный бенчмарк с 9260 пар вопрос-ответ в 12 языках, разработанный для оценки культурного понимания языковых моделей в отношении традиционных танцевальных традиций по всему миру. Разработан в сотрудничестве с местными танцорами и носителями языков, он обеспечивает всестороннюю оценку способности ИИ понимать традиционные театральные искусства в различных социокультурных контекстах.

arxiv arXiv cs.CL · 12 д назад

Последовательный DPO показывает переменное влияние предпочтений в различных настройках

Исследование последовательного прямого оптимизации предпочтений показывает, что последующее обучение не унифицированно ухудшает ранее изученные предпочтения. Эффект варьируется в зависимости от взаимосвязи целей, силы сигнала и порядка обучения, варьируясь от частичного ухудшения до положительного переноса. Анализ на уровне пар показывает гетерогенные изменения, при этом пары с высокой уверенностью в предпочтениях иногда улучшаются, несмотря на стабильность общих метрик.

arxiv arXiv cs.CL · 12 д назад

Оценка агентных систем анализа для исследований с участием ИИ

Исследование оценивает четыре системы анализа ИИ на шести моделях языков, в результате чего OpenAIReview с GPT-5.5 достигает точности 83,0% при сопоставлении качества научных статей с внешними сигналами и обнаруживает 71,6% введённых ошибок. Реальные отзывы пользователей показывают положительную оценку, с соотношением голосов 1,44 к 1, однако ошибочные положительные результаты и незначительные замечания остаются частыми.

arxiv arXiv cs.CL · 12 д назад

Байесовское куррикулярное обучение на латентных многообразиях ЛЛМ

Manifold Bandits вводит Байесовское куррикулярное многообразие (BMC), рамку, которая моделирует выбор задач как структурированную задачу в латентном пространстве ЛЛМ. BMC организует задачи в иерархическое дерево и использует байесовское обучение для направления выбора, раскрывая компромиссы между сигналом обучения, разнообразием задач и релевантностью оценки. Простое приоритизация сложности не приводит к сильной производительности на последующих задачах, что подчеркивает необходимость структуры и выбора, учитывающего тип задачи.

arxiv arXiv cs.CL · 12 д назад

AgentFinVQA: аудитируемый, локальный вопрос-ответ по финансовым графикам

AgentFinVQA представляет многоагентную систему для вопросов по финансовым графикам, обеспечивающую аудитируемость и возможность развертывания на локальной инфраструктуре без значительного снижения точности. Она превосходит базовые модели на +7,68 pp при использовании проприетарного ядра и на +4,84 pp с открытыми весами Qwen3.6-27B-FP8, при этом обеспечивая сигнал уверенности через вывод верификатора, что улучшает маршрутизацию ручного обзора.

arxiv arXiv cs.CL · 12 д назад

CombEval: бенчмарк для подсчёта комбинаторных задач в LLMs

CombEval — это динамический бенчмарк, который генерирует задачи подсчёта на естественном языке с проверенными ответами с использованием типизированных спецификаций Cofola. Он оценивает 11 больших языковых моделей и выявляет устойчивые сбои при обработке упорядоченных объектов, неотличимых элементов, позиционных ограничений и вложенных зависимостей, причём ошибки связаны с интерпретацией ограничений и принципов подсчёта.

arxiv arXiv cs.CL · 12 д назад

Селективная проверка для рассуждений с учетом бюджета

Sevra, управляющий слой контроллера, селективно проверяет ответы для повышения точности и снижения использования токенов. На \mathfive оно достигает точности 76,3% с 26,8% меньшим количеством токенов после генерации и вдвое меньшим количеством вредоносных ошибок, при этом на \gsm оно проверяет только 3,0% примеров, повышая точность до 94,5% и сокращая использование токенов проверки на 91,2%. Исследование показывает, что длина начального решения и необходимость в явном контроле определяют оптимальную стратегию проверки.

arxiv arXiv cs.CL · 12 д назад

Семантические кластеры — предобучение Тетслин-машины для интерпретируемости

Новый подход предобучает Тетслин-машину с использованием семантических кластеров из моделей языка, избегая векторных представлений. Метод группирует текстовые образцы в связные кластеры с помощью K-средних или Top2Vec, затем использует пары кластер-образец для обучения неотрицательной Тетслин-машины с обратной связью типа I. Результаты показывают превосходную производительность на пяти наборах данных, соответствующую точности на уровне BERT, при сохранении полной интерпретируемости.

arxiv arXiv cs.CL · 12 д назад

Credence: семантические метрики и анализ сходимости для разбиения утверждений

Credence вводит Semantic-F1, метрику косинусной схожести на основе BGE-large, которая повышает точность разбиения утверждений по сравнению с Jaccard на 15-32 процентных пункта. В работе доказаны теоремы сходимости для восстановления по правилам и на основе LLM: восстановление по правилам является конечным и монотонным, в то время как восстановление на основе LLM требует механизмов раннего выхода. Оценки в социальных медиа, энциклопедических и новостных областях показывают EPR от 0,94 до 1,00, при этом восстановление по правилам снижает нарушения атомарности на 47-100% без потери точности.

arxiv arXiv cs.CL · 12 д назад

JAMER: Датасет и бенчмарк проектного уровня кода

JAMER вводит JamSet и JamBench, первый датасет и бенчмарк проектного уровня кода для профессиональной игровой платформы. Созданный на основе 8133 проверенных проектов Game Jam, он обеспечивает детерминированную оценку и выявляет порог способности в моделях ИИ при увеличении масштаба проекта, при этом процент успешных запусков снижается с 80,4% до 5,7%.

arxiv arXiv cs.CL · 12 д назад

Закон контроля окна для управления одним нейроном в языковых моделях

Новый фреймворк определяет, в каких случаях вмешательства в отдельный нейрон согласованно контролируют поведение модели без коллапса выводов. Окно контроля, основанное на сопоставлении и отношениях норм, предсказывает триггеры поведения и верхние пределы коллапса с использованием данных прямого прохода, с высокой точностью на отложенных нейронах. При отказе контроль типизируется: согласованное обходное поведение происходит без содержательных действий, в то время как истинное достижение действий проявляется только в определенных случаях и на поздних стадиях развертывания.

arxiv arXiv cs.CL · 12 д назад

AtomMem: Простая и эффективная система памяти для агентов LLM

AtomMem представляет систему памяти, которая хранит высокочастотные атомарные факты из длительных взаимодействий. Она использует иерархические структуры событий и временные профили для отслеживания согласованных эпизодических контекстов и изменяющихся пользовательских характеристик, обеспечивая стабильное и эффективное эволюционирование памяти. Эксперименты на бенчмарке LoCoMo показывают, что AtomMem достигает наилучших результатов в задачах логического мышления.

arxiv arXiv cs.CL · 12 д назад

Нулевая задача агентных LLM извлекает патологию лёгких из повествований

Нулевая задача агентного потока, использующего открытые LLM, извлекает 13 синоптических полей Колледжа американских патологов из отчетов о патологических исследованиях лёгочной резекции. Наилучшая модель (GPT-OSS-20B) достигла значения Micro-F1 0.893, превосходя базовый уровень воспроизведения и точно отражая сложные патологические отношения без специализированного обучения.

arxiv arXiv cs.CL · 12 д назад

LLMs могут обрабатывать непрочитываемый текст с высокой семантической точностью

Большие языковые модели могут поддерживать 99,5% семантической точности при обработке сжатых, непрочитываемых текстовых форм, называемых BabelTele, даже если текст сокращен до 27,9% от его исходной длины. Эти модельные представления показывают сильную производительность в переносе между моделями, в памяти агента и в коммуникации между агентами, что указывает на то, что читаемость для человека не является необходимой для восстановления семантики в LLMs.