Все статьи — korshunov.ai

Все статьи Страница 1 / 125

Дешевые концептуально-ориентированные локализованные объяснения: насколько далеко мы можем зайти с подходами без обучения?

В данном исследовании оценивается, могут ли мультимодальные большие языковые модели (MLLM) среднего масштаба выполнять локальное именование концептов в строгих условиях zero-shot, присваивая метки областям ограничивающих рамок. Авторы предлагают воспроизводимый протокол оценки для Именования Концептов, включающий промптинг с замкнутым множеством и стратегию на основе сходства эмбеддингов для больших пространств меток.

arxiv arXiv cs.CL · 5 ч назад

Эволюционное тонкое настраивание: обучение открытию решений в 371 задаче оптимизации

Исследователи представляют Эволюционное тонкое настраивание (EFT), парадигму промежуточного обучения, которая обучает большие языковые модели эволюционировать решения для разнообразных задач путем преобразования траекторий эволюционного поиска в обучающие данные. Этот подход устраняет ограничение предыдущих методов, которые отбрасывали накопленный опыт, позволяя моделям повторно использовать способности к открытию, а не решать новые задачи с нуля.

arxiv arXiv cs.CL · 5 ч назад

AB-RAG: Адаптивное извлечение с ограниченным бюджетом для надежного ответа на вопросы

AB-RAG — это фреймворк, не требующий дообучения и независимый от архитектуры базовой модели, который динамически регулирует усилия по извлечению на основе оценки уверенности, полученной из определенности модели, согласия между ответом и доказательством, а также дисперсии оценок извлечения. Этот подход позволяет системам решать, следует ли прекратить поиск или извлечь больше доказательств в рамках фиксированного бюджета, без дообучения базовой языковой модели.

arxiv arXiv cs.CL · 5 ч назад

Глубина репрезентации осознания оценки меняется с масштабом в языковых моделях с открытым весом

В данном исследовании изучается, осознают ли языковые модели тот факт, что их тестируют, — фактор, критически важный для безопасности ИИ, поскольку он может заставлять модели стратегически изменять своё поведение. Используя 11 моделей с открытым весом из семейств Qwen 2.5, Gemma 2 и Llama 3.2, исследователи проанализировали, как осознание оценки проявляется в моделях разных размеров.

arxiv arXiv cs.CL · 6 ч назад

Предварительно зарегистрированное правило отбора для эволюционных внешних циклов

Авторы представляют предварительно зарегистрированное правило отбора, которое определяет до реализации, стоит ли строить эволюционный внешний цикл по параметрам нейронной сети по сравнению с дешёвой альтернативой однократного применения. Правило вычисляет метрику восстановления R, определённую как лучший выигрыш однократного применения, делённый на лучший выигрыш любого дешёвого метода, и предписывает пропускать внешний цикл, когда R больше или равно 90%.

arxiv arXiv cs.CL · 6 ч назад

Как антропоморфный язык влияет на общественное восприятие ИИ

Исследование с участием 815 человек изучало, меняет ли использование человекоподобного языка для описания искусственного интеллекта общественное восприятие по сравнению с нейтральными описаниями.

arxiv arXiv cs.CL · 6 ч назад

DistilledGemma: Сбалансированная эффективность и точность для извлечения отношений «персона-место»

Авторы представляют DistilledGemma — эффективную систему для извлечения отношений «персона-место» из многоязычных исторических газетных статей на английском, немецком и французском языках. Подход использует трехэтапный конвейер дистилляции знаний для балансировки точности классификации с вычислительной эффективностью.

arxiv arXiv cs.CL · 6 ч назад

Символьная механистическая атрибуция данных: отслеживание влияния обучения на выученные поведенческие политики

Авторы представляют Symbolic Mechanistic Data Attribution (SMDA), фреймворк, который атрибутирует обучающие пары интерпретируемым символьным политикам, управляющим поведением модели, сокращая разрыв между механистическими цепями и высокоуровневыми решениями.

arxiv arXiv cs.CL · 6 ч назад

Селективное удержание памяти для агентов LLM с длинным горизонтом

В статье представлен TraceRetain — легковесная система для ограниченной внешней памяти в замороженных агентах LLM, которая оценивает и вытесняет записи на основе интерпретируемых признаков, таких как успешность и избыточность. Исследование оценивает, как политики удержания влияют на производительность при использовании внешней памяти для усиления языковых моделей.

arxiv arXiv cs.CL · 6 ч назад

Доказательные убеждения LLM для непрерывного научного открытия

Статья рассматривает ограничение AutoDiscovery, использующего статическое «байесовское удивление», вводя доказательные убеждения LLM, где априорные вероятности обновляются на основе доказательств из предыдущих гипотез для вычисления нестационарного удивления. Авторы обнаруживают, что поиск с использованием эмбеддингов и генерации с дополнением (RAG) по предыдущим открытиям лучше всего предвосхищает конечные апостериорные вероятности, и идентифицируют 37,5% статических значений удивления как ложные.

arxiv arXiv cs.CL · 6 ч назад

OCR-VLMs читают Деванагари? Бэнчмарк и исследование пост-коррекции

Исследование оценивает десять систем OCR на текстах на языке Деванагари, показывая, что специализированные модели OCR с зрительным языковым анализом хрупки при деградации изображений, а высокая точность на английском не предсказывает точность для индийских скриптов.

arxiv arXiv cs.CL · 6 ч назад

Многоблочные диффузионные языковые модели

Исследователи предлагают многоблочные диффузионные языковые модели (MBD-LMs) для расширения одноблочной генерации текста на основе диффузии за счёт одновременного декодирования набора последовательных блоков для параллелизма между блоками. Подход устраняет разрыв между состояниями обучения и вывода с помощью метода постобучения под названием многоблочное принудительное обучение учителем (MultiTF).

arxiv arXiv cs.CL · 7 ч назад

PolicyGuard: Верификатор подагента на основе диалога для соблюдения политик в агентах LLM

Исследователи представляют PolicyGuard, верификатор подагента, предназначенный для улучшения соблюдения политик в агентах LLM за счет рассуждений над полным контекстом диалога, а не полагаясь на внешние проверки отдельных аргументов. Этот подход устраняет ограничения предыдущих методов защиты, которые часто недооценивают необходимость исправлений, специфичных для разговора, и явного подтверждения пользователем.

arxiv arXiv cs.CL · 7 ч назад

Понимание иллюзии оценки в диффузионных больших языковых моделях

Исследование показывает, что оценка диффузионных больших языковых моделей (dLLM) крайне чувствительна к шаблонам промптов, создавая иллюзию того, что параллельное декодирование повышает эффективность без потери качества.

arxiv arXiv cs.CL · 7 ч назад

Модель больших языковых моделей для рассуждений, ориентированная на путешествия, через предметно-специфичные графы знаний

Исследователи предлагают модульный конвейер для создания модели больших языковых моделей для рассуждений в области путешествий, основанной на экспертно разработанном графе знаний, чтобы решить проблемы точности и надежности в специализированных областях. Подход интегрирует граф знаний о путешествиях, процедуру построения снизу вверх для пар вопросов-ответов с несколькими шагами и контролируемое тонкое подгоняние (supervised fine-tuning) для внедрения предметных знаний в виде проверяемых цепочек рассуждений.

arxiv arXiv cs.CL · 7 ч назад

MIThinker: подключаемый оптимизированный по политике мыслительный модуль для консультирования в мотивационном интервьюировании

Исследователи предлагают MIThinker, легковесную модель мышления, которая генерирует терапевтические мысли для руководства агентами консультирования в мотивационном интервьюировании при выборе стратегии и генерации ответов. Чтобы решить проблему отсутствия аннотированных данных о мыслях, они представляют AugR1-MI — автоматизированный пайплайн, который обращает вспять процесс получения мыслей консультанта из наблюдаемых ответов.

arxiv arXiv cs.CL · 7 ч назад

Гибридная система аннотирования текстов песен на основе согласования с человеком и LLM

В данной статье рассматриваются проблемы распознавания эмоций в текстах песен, которые часто расходятся с общим настроением песни, путем предложения гибридной системы аннотирования, оптимизирующей согласование между людьми и большими языковыми моделями (LLM). Авторы представляют новый датасет на уровне предложений для изучения этого согласования и подчеркивают присущую задаче субъективность.

arxiv arXiv cs.CL · 7 ч назад

Бенчмарк Complexity Ceiling Benchmark: многодоменная оценка последовательного рассуждения при масштабировании глубины

Бенчмарк Complexity Ceiling Benchmark (CCB) оценивает, как способность языковых моделей к рассуждению снижается по мере увеличения количества необходимых последовательных шагов, фиксируя семантическое содержание и варьируя глубину задачи от 5 до 50. Исследование выявило постоянный геометрический спад на каждый шаг в трех различных режимах: отслеживание пространственного состояния с привязкой к контексту, манипуляция абстрактными символьными указателями и транзитивное реляционное выведение.

arxiv arXiv cs.CL · 7 ч назад

Созданная уверенность: как консолидация памяти превращает слухи в уверенные факты

Исследования показывают, что системы памяти агентов LLM переписывают неформальные или осторожные высказывания в уверенные утверждения с указанием даты, которые агенты впоследствии воспринимают как проверенные факты. Этот процесс позволяет непроверенной информации обходить проверки безопасности без участия активного злоумышленника, поскольку агент реагирует на уверенность формулировки, а не на атрибуцию источника.

arxiv arXiv cs.CL · 7 ч назад

Детерминированные решения для критически важных задач ИИ

В статье «предвзятость вмешательства» (intervention bias) определяется как критическая ошибка в работе образовательных консультантов на основе больших языковых моделей (LLM) в режиме zero-shot, при которой они ошибочно рекомендуют действие, несмотря на то, что оптимальные политики требуют бездействия. Используя набор данных Open University Learning Analytics Dataset, исследование показывает, что GPT-4o в режиме zero-shot демонстрирует уровень ложноположительных срабатываний на 43 процентных пункта к 56-му дню, что приводит примерно к 4 300 ненужным контактам с консультантом за цикл для 10 000 студентов.