Все статьи
arxiv arXiv cs.CL · 9 ч назад

REAR: Тестовое переориентирование предпочтений через декомпозицию вознаграждения

Авторы представляют REAR, новую архитектуру, которая расширяет масштабирование во время тестирования (TTS) на выравнивание предпочтений, моделируя задачу как проблему переориентации. Этот подход решает ограничение существующих методов TTS, которые обычно ограничиваются проверяемыми областями, такими как математика и программирование.

arxiv arXiv cs.CL · 9 ч назад

OLIVE: Предсказание латентных представлений с дополнением обзоров и реконструкцией волны для самоконтролируемого обучения речи

Авторы предлагают OLIVE, фреймворк для самоконтролируемого обучения речевых представлений, который совместно оптимизирует цели анализа и синтеза через маскированное предсказание латентных представлений с дополнением обзоров и реконструкцией волны. Этот унифицированный подход ограничивает ранние признаки энкодера сохранять информацию на уровне сигнала, одновременно формируя более поздние контекстные представления к инвариантности для надежной производительности в последующих задачах.

arxiv arXiv cs.CL · 9 ч назад

MaDI-Bench: комплексный бенчмарк для интеграции данных

Представлен бенчмарк Mannheim Data Integration Benchmark (MaDI-Bench) — первый публичный бенчмарк для сквозной интеграции реляционных таблиц, решающий проблему отсутствия всесторонних инструментов оценки в этой области. Он охватывает все этапы процесса интеграции, включая сопоставление схем, нормализацию значений, блокировку сущностей, сопоставление сущностей и слияние данных.

arxiv arXiv cs.CL · 9 ч назад

Выявление динамики, обусловленной актуальностью, в потребительской уверенности с помощью генеративного социального моделирования

В данной статье представлен ConsumerSim — генеративная платформа, реконструирующая динамику Индекса потребительской уверенности (CCI) с использованием синтетической популяции, калиброванной на микроданных, и различных экономических сигналов. Модель занимает первое место среди базовых вариантов по точности реконструкции для рядов CCI США, ЕС27 и Японии, особенно в периоды высокоактуальных шоков.

arxiv arXiv cs.CL · 9 ч назад

MOPD: Многоучительская дистилляция на основе он-политики для интеграции возможностей в постобучении больших языковых моделей

Авторы предлагают многоучительскую дистилляцию на основе он-политики (MOPD), парадигму постобучения, предназначенную для интеграции возможностей нескольких специализированных учителей усиленного обучения с подкреплением в одну модель-студент. Этот подход устраняет смещение воздействия и обеспечивает плотный сигнал оптимизации за счёт дистилляции учителей в студента во время его собственных рулоутов.

arxiv arXiv cs.CL · 9 ч назад

RAPS-DA: Режимно-ориентированная специализация партнёров для надёжного RAG

Авторы предлагают RAPS-DA, режимно-ориентированную фреймворк специализации партнёров, предназначенный для устранения хрупкости Retrieval-augmented generation (RAG) при конфликте извлечённого контекста с параметрическими знаниями модели. Этот подход разделяет несовместимые обучающие сигналы в различных режимах надёжности путём обучения специализированных партнёров и применения целевого надзора.

arxiv arXiv cs.CL · 9 ч назад

Дообучение модели встраивания, инвариантной к перестановкам, для извлечения структурированных метаданных

В статье показано, что порядок полей существенно влияет на качество извлечения в системах структурированных метаданных, поскольку стандартное дообучение заставляет кодировщики опираться на абсолютную позицию, а не на метки полей. Для решения этой проблемы авторы предлагают метод PI-FT (Permutation-Invariant Fine-Tuning), который сериализует записи с использованием случайно выбранных порядков полей и dropout для привязки смысла к меткам.

arxiv arXiv cs.CL · 9 ч назад

Восприятие ситуации: необходимая примитивная способность для искусственного сверхинтеллекта

В статье утверждается, что современные большие языковые модели не обладают критической способностью, называемой «восприятием ситуации», которая необходима для достижения искусственного сверхинтеллекта. Эта отсутствующая способность включает построение и действие внутри внутренних симуляций возможных миров в латентном времени.

arxiv arXiv cs.CL · 9 ч назад

SIMAX: Масштабируемая и интерпретируемая платформа для симуляции диалогов между врачами и пациентами с аннотациями и данными разной точности

Исследователи разработали SIMAX — платформу, предназначенную для генерации контролируемых клинических диалоговых данных с референсными поведенческими аннотациями в целях решения проблемы нехватки масштабируемых оценочных данных для систем кодирования коммуникации на базе ИИ. Система создает симулированные взаимодействия врача и пациента на основе заранее определенных сценариев, персонажей и условий голоса, используя специфические кодовые книги для контроля общего качества коммуникации и подсчитываемых поведенческих паттернов.

arxiv arXiv cs.CL · 9 ч назад

TRACE: Обнаружение конгруэнтности в диалоге с учётом временных отношений в парной речи

Исследователи представляют датасет DyadEE для обнаружения эмоциональной конгруэнтности в парной речи и предлагают TRACE, оконный фреймворк, который моделирует эти взаимодействия как упорядоченные последовательности акустических эмбеддингов. Исследование показывает, что включение контекста разговора и информации о отношениях значительно повышает точность обнаружения.

arxiv arXiv cs.CL · 9 ч назад

Poller: Подходят ли LLM для задачи оценки понимания поэзии?

В данной статье представлен Poller (Poetry LLM Evaluator), новый метод, использующий большие языковые модели для оценки понимания поэзии путем имитации человеческого суждения через ролевую игру. Метод требует от LLM принятия перспективы автора стихотворения, используя подробную информацию для преодоления разрыва между автоматизированной эффективностью и человеческой экспертизой.

arxiv arXiv cs.CL · 9 ч назад

FlashMorph: Гибридный выбор слоёв с учётом бюджета для эффективных трансформеров

FlashMorph — это новый метод преобразования моделей Transformer в гибридные архитектуры, которые балансируют точность полного внимания и эффективность линейного внимания путём оптимизации выбора слоёв как задачи подмножества с ограничением по бюджету. Подход строит морфную модель с параллельными ветвями внимания и совместно оптимизирует послойные вентили на синтетических данных для определения оптимальной конфигурации.

arxiv arXiv cs.CL · 11 ч назад

В многошаговых диалогах LLM возникают аттракторные состояния

Исследование изучает, проявляют ли открытые дискуссии больших языковых моделей поведение, подобное аттракторному, анализируя траектории по семи моделям и двадцати спорным темам. Исследование сравнивает дебаты в парах «самоиграющих» и смешанных игроков, чтобы понять, как разговоры стабилизируются в наборах устойчивых паттернов поведения.

arxiv arXiv cs.CL · 11 ч назад

Генерация и принятие решений с учётом неопределённости в условиях неоднозначности

В данном исследовании оцениваются алгоритмы принятия решений с учётом неопределённости, основанные на байесовской теории принятия решений и подходах, ориентированных на избегание рисков, для задач LLM, таких как репетиторство и взаимная проверка работ. Авторы используют конформное прогнозирование для обеспечения гарантий относительно стратегий и оценок, обнаруживая, что эти методы могут повысить полезность генерации, но требуют тщательной реализации в условиях высокой неоднозначности.

arxiv arXiv cs.CL · 11 ч назад

Масштабирование горизонта, а не параметров: достижение производительности триллионных моделей с агентом на 35B

Исследователи представляют Agents-A1, модель Mixture-of-Experts на 35B параметров, которая достигает производительности, сопоставимой с моделями на триллион параметров, за счет масштабирования горизонта агента, а не количества параметров. Подход сосредоточен на расширении длинногоризонтных траекторий и объединении разнородных способностей агентов с помощью специализированной инфраструктуры обучения.

arxiv arXiv cs.CL · 11 ч назад

Самоэволюционирующие модели мира для планирования агентов LLM

В статье представлен WorldEvolver — фреймворк, который оснащает долгосрочных агентов LLM надежной способностью к предвидению за счет пересмотра контекста во время развертывания без изменения параметров модели. Он решает проблему ненадежных прогнозов, ухудшающих принятие решений, с помощью самоэволюционирующего подхода, повышающего точность предсказаний и качество планирования.

media r/LocalLLaMA · 12 ч назад

Как я использую локальные модели в реальной разработке

Автор делится практической настройкой для использования локальных больших языковых моделей на скромном оборудовании, а именно на ноутбуке с 32 ГБ ОЗУ и NVIDIA RTX 4070 с 8 ГБ видеопамяти. Основная стратегия заключается в запуске модели Qwen3.6-35B-A3B локально в качестве «малого кодингового агента», а сложные задачи планирования перекладываются на облачный экземпляр GLM 5.2.

arxiv arXiv cs.CL · 12 ч назад

Диагностическая рамка и многооценочный аудит динамики предпочтений, управляемой оценщиком, в самоадаптирующихся агентах LLM

В статье документируется, как измерения от проприетарных оценщиков LLM могут стать недействительными в течение нескольких недель, и предлагается рамка EPC для обнаружения такой нестабильности. Она применяется в восьми экспериментальных условиях, показывая, что версия-условная нестабильность делает исследования с одним снимком ненадежными.

arxiv arXiv cs.CL · 12 ч назад

Скрытая стоимость ресэмплинга: как коррекция дисбаланса ухудшает калибровку вероятностей в ансамблях деревьев

В данном исследовании оценивается влияние методов ресэмплинга, таких как SMOTE и случайное недосэмплирование, на калибровку вероятностей в ансамблях деревьев; установлено, что хотя стоимость SMOTE невелика, недосэмплирование сильно ухудшает калибровку.

arxiv arXiv cs.CL · 12 ч назад

Насколько хорошо локальные открытые LLM справляются с текстом в SQL? Исследование на границе размеров и методов семейства моделей BIRD

В данном исследовании оценивается производительность больших языковых моделей с открытыми весами, работающих локально для задач преобразования текста в SQL, с использованием воспроизводимого бенчмарка на обучающем наборе данных BIRD. Сравниваются три семейства моделей двух поколений при этом абляционно изучаются конкретные техники повышения точности, чтобы определить их реальную ценность.