Все статьи — korshunov.ai

Все статьи Страница 1 / 95

Коллапс многошагового использования инструментов в RL и надзорные исправления

Недавние методы агентного обучения с подкреплением для больших языковых моделей часто страдают от нестабильности или ограниченного прироста в задачах использования инструментов. Эксперименты показывают, что некоторые модели испытывают катастрофический коллапс, при котором производительность резко падает, а структуры вызова инструментов перестают работать. Анализ показывает, что эти сбои возникают из-за неожиданных скачков вероятности для определенных управляющих токенов, которые нарушают структурированное выполнение. Несмотря на это нарушение, базовая способность использовать инструменты сохраняется, но маскируется специфическими проблемами форматирования. Для решения этой проблемы исследование изучает разнообразные сигналы надзора, включая внеполитический надзор и руководство на основе подсказок в различных схемах обучения. Авторы обнаруживают, что чередование контролируемой тонкой настройки с обучением с подкреплением существенно улучшает стабильность во время обучения. Однако этот подход демонстрирует ухудшение производительности при оценке на данных формата и содержания вне распределения (out-of-distribution). Результаты подчеркивают важность понимания сбоев в RL для обеспечения надежного обучения сложных задач многошагового использования инструментов.

arxiv arXiv cs.CL · 10 ч назад

Обнаружение, отмена обучения и восстановление: защита моделей суммаризации текста от отравления данных

Исследование рассматривает угрозу отравления данных на этапе обучения при тонкой настройке моделей абстрактной суммаризации текста. Злоумышленники манипулируют небольшими специфичными для задачи наборами данных, чтобы вызвать устойчивые ошибки суммаризации, сохраняя при этом стандартные показатели оценки. Предлагается единая пост-гочная (post-hoc) защитная рамка для обнаружения и устранения отравления во всей цепочке поставок машинного обучения. В условиях white-box обнаружение опирается на анализ функций влияния, выявляющий аномально высокое влияние обучения в отравленных парах. Защитные механизмы black-box используют поведенческий аудит, основанный на повышенной чувствительности к возмущениям, сохраняющим семантику. Авторы представляют новые атаки, направленные на искажение фактов и репрезентативное смещение, которые обходят традиционные системы оповещения. Эксперименты с девятью архитектурами и шестью бенчмарками показывают точность обнаружения 85-92% для предложенных защитных механизмов. Отмена обучения методом градиентного восхождения восстанавливает до 96% исходного поведения при снижении показателя ROUGE менее чем на 0,6%.

arxiv arXiv cs.CL · 10 ч назад

Исследование выявило: читатели предпочитают человеческие литературные переводы машинным, несмотря на адекватное качество последних

Недавнее исследование изучило предпочтения читателей относительно ИИ- и человеческих переводов литературных произведений, отметив, что, хотя автоматические метрики часто отдают предпочтение машинному выводу, они не способны уловить иммерсивные и литературные эффекты. Исследователи попросили 15 заядлых читателей сравнить человеческие переводы с переводами, сгенерированными агентной конвейерной системой LLM (agentic LLM pipeline), для 15 романов на французском, польском и японском языках. Оценка проводилась по отрывкам объемом около 8 тысяч слов как при иммерсивном чтении целых текстов, так и при детальном чтении выровненных пар фрагментов. Результаты показали, что, хотя читатели считали машинные переводы адекватными, они значительно предпочли человеческие версии благодаря их ясности и легкости погружения в текст. Примечательно, что участники не могли надежно различать два типа переводов и склонялись к той версии, которую считали созданной человеком. В поддержку будущих исследований авторы опубликовали LAIT — ориентированный на читателей датасет, содержащий 1K комментариев, 2K оценок и 7,2K аннотаций на уровне фрагментов.

arxiv arXiv cs.CL · 10 ч назад

Оценка устойчивости к визуальным возмущениям OCR-рассуждений в моделях «зрение-язык»

Авторы представляют OCR-Robust, бенчмарк, предназначенный для оценки устойчивости моделей «зрение-язык» при выполнении задач OCR-рассуждений в условиях визуальных возмущений. Датасет состоит из 812 примеров, разделенных на два подмножества: OCR1.0, охватывающее документы и рукописный текст, и OCR2.0, фокусирующееся на графиках и таблицах. Пилотное исследование выявило пять репрезентативных типов возмущений на трех уровнях серьезности для обеспечения эффективной оценки. В исследовании протестированы 18 моделей, включая проприетарные системы и открытые VLM (vision-language models), с использованием таких метрик, как Relative Corruption Retention и Worst-Case Retention. Результаты показывают, что более высокая точность на чистых данных не обязательно коррелирует с большей устойчивостью к визуальной деградации. Кроме того, анализ выявляет, что графики и таблицы существенно более хрупки по сравнению с входными данными, похожими на документы, при воздействии этих возмущений.

media Hugging Face Forums · 10 ч назад

Bro77XP выпустил простой для начинающих локальный AI-VTuber с клонированием голоса в zero-shot режиме

Bro77XP выпустил полностью локальный бесплатный проект AI-VTuber, предназначенный для начинающих и непрограммистов. Система использует Whisper для распознавания английской речи в реальном времени, Ollama с моделью llama3.2 для вывода LLM и Chatterbox TTS для преобразования текста в речь. Она поддерживает мгновенное клонирование голоса в zero-shot режиме и работает в цикле непрерывного прослушивания, автоматически обнаруживая тишину и записывая звук только при наличии речи. Программное обеспечение интегрируется с VTube Studio через его API для управления выражениями рта и запуска анимаций эмоций на основе сгенерированных ответов. Хотя изначально проект разрабатывался на GPU AMD, код в основном поддерживает пользователей CPU, позволяя работать без специфического оборудования NVIDIA или AMD. Для настройки требуется Python 3.10.11 и создание виртуального окружения для установки основных зависимостей, таких как openai-whisper, pyaudio и websocket-client.

arxiv arXiv cs.CL · 10 ч назад

Естественное забывание: асимметричный контроль того, какие правила переживают препетрен

Исследование выявило феномен «естественного забывания» (natural ungrokking), при котором небольшие языковые модели теряют изученные грамматические правила на полпути препетрена, несмотря на то, что доказательства их существования остаются в данных. Исследователи наблюдали, как модель, обучающаяся согласованию местоимений и рода с Sue, упала с точности 0,94 до уровня, близкого к нулю, к шагу 3500 без какого-либо соответствующего всплеска на кривой функции потерь. Выживание этих правил определяется частотой поддержки в обучающей выборке, тогда как отношение данных к параметрам лишь модулирует глубину падения. Эта динамика возникновения и последующего коллапса была воспроизведена на нескольких корпусах, бюджетах и начальных условиях (seeds) и подтверждена на публичных контрольных точках Pythia, где глубина коллапса коррелировала с масштабом модели. Процесс забывания действует как механизм вытеснения, при котором конкурирующий поверхностный паттерн побеждает правило, заставляя маржу логарифмической вероятности пересечь ноль в течение 100 шагов после поведенческого отказа. Контроль над этой судьбой асимметричен: хотя введение контрдоказательств может уничтожить правила посредством монотонной зависимости «доза-эффект», восстановление поддержки даже на уровне, в 450 раз превышающем поддерживающий уровень, не позволяет их восстановить.

arxiv arXiv cs.CL · 10 ч назад

Слепота к лексикону ключевых слов искажает измерение риторической позиции

Исследование, проанализировавшее 85 интервью с четырьмя публичными интеллектуалами, показывает, что оценка на основе ключевых слов может создавать статистические артефакты в отношении риторической позиции. Первоначальный анализ выявил устойчивую закономерность совместного появления негативной аффективности и категоричной уверенности с высокими коэффициентами корреляции, варьирующимися от r = 0,72 до 0,93. Однако замена этого метода на семантическую классификацию LLM в режиме zero-shot для всего диааризированного корпуса из 32 625 предложений значительно снизила эти корреляции. Например, корреляция Далио упала с 0,851 до 0,206, тогда как у других спикеров наблюдалась отрицательная или нулевая связь между негативностью и уверенностью. Напротив, анализ LLM выявил сильную связь между негативным сентиментом и языком оговорок (hedging), что соответствует обычным ожиданиям относительно пессимистичного дискурса. Расхождение обусловлено тремя структурными недостатками лексиконов ключевых слов: синтаксической слепотой, слепотой к полисемии и отсутствием категорий. Эти недостатки могут инвертировать семантическое значение, например, оценивая фразу 'никогда абсолютно полностью уверен' как высокую уверенность. Авторы утверждают, что подсчет ключевых слов измеряет тенденции к лексическому совместному появлению, а не эпистемическую уверенность, что представляет собой категориальную ошибку.

arxiv arXiv cs.CL · 10 ч назад

Аудит чувствительности к порядку в мультимодальных больших языковых моделях

В исследовании представлен Facet-Probe, аудит по пяти граням 18 передовых и моделей с открытым весом (open-weight) для оценки чувствительности к порядку. Стандартные бенчмарки часто упускают из виду, приводит ли перестановка доказательств к изменению ответов, что является свойством надежности, подчеркиваемым в новых руководящих принципах оценки ИИ. Используя байесовскую модель ответа на элемент (item-response), исследователи отделили шум порядка от смещения по каждой грани и оценили нижние границы стохастичности декодера с помощью контрольных групп с неизменным порядком. Аудит показал, что ни одна из 18 моделей не является инвариантной к порядку, при этом средние для панели доли переворота ответов варьируются от 24% до 50% в зависимости от граней. Даже лучшая по производительности модель меняла ответ в 13,4% испытаний, что указывает на то, что более высокая способность не устраняет эту уязвимость. Тесты смягчения с использованием изменений промптов без дообучения оказались условно зависящими от модальности и не переносились между задачами текстового и визуального рассуждения. Эти выводы свидетельствуют о том, что исправления на уровне промпта недостаточны для общей устойчивости к порядку, что стимулирует разработку архитектурных решений. Авторы предлагают долю переворота ответов при перестановке порядка в качестве стандартной оси отчетности для будущих оценок мультимодальных больших языковых моделей (MLLM).

arxiv arXiv cs.CL · 10 ч назад

Голосовой ИИ в реальном времени слышит, но не слушает

Исследование оценивает четыре ведущих производственных системы голосового взаимодействия в реальном времени: GPT Realtime 2 от OpenAI, Gemini 3.1 Flash Live от Google, а также Qwen3.5 Omni Plus и Omni Flash от Alibaba. Исследование сосредоточено на задачах, где как слова, так и вокальное исполнение несут значимую информацию в трех важных сценариях. Все четыре системы реагируют на буквальные слова, а не на голос, что приводит к ошибкам, таким как завершение разговоров с плачущими пользователями, которые настаивают, что всё в порядке, или одобрению денежных переводов, совершённых испуганным голосом. Удивительно, но этот разрыв часто не является ошибкой восприятия: три из четырёх систем могут надёжно распознавать дистресс, страх или сарказм, если их спросить напрямую. Несмотря на это осознание, модели игнорируют эти эмоциональные сигналы при принятии решений, демонстрируя то, что авторы называют «пробелом в эмоциональном интеллекте». В исследовании также отмечается, что системы оценивают акцент и возраст на основе языковых предубеждений, а не акустических свойств. Прямое указание системам обращать внимание на вокальное исполнение улучшает производительность лишь частично и непоследовательно. Эти выводы свидетельствуют о том, что текущий голосовой ИИ в реальном времени ведёт себя так, будто речь сводится к транскрипту, что требует осторожности в ситуациях, где тон имеет критическое значение.

media r/LocalLLaMA · 11 ч назад

Локальный пайплайн NL-to-SQL с использованием Qwen3 4B и детерминированного планирования

Разработчик реализовал полностью локальную систему генерации фильтров по естественному языку на оборудовании без GPU. Решение использует модель Qwen3 4B Instruct, работающую через llama.cpp с инференсом только на CPU. Вместо прямой генерации SQL-запросов модель фокусируется на семантическом намерении и выборе структурированных фильтров. Детерминированный планировщик запросов затем выполняет процессы генерации и оптимизации SQL. Пайплайн использует гибридный метод извлечения BM25 и эмбеддингов с применением FAISS для хранения векторов. Он извлекает четыре лучших совпадающих примера примерно из 800 вложенных семантических экземпляров для внедрения в промпт. Такой подход позволяет системе эффективно функционировать в условиях строгих ограничений по объему оперативной памяти и отсутствию доступа к интернету.

media r/LocalLLaMA · 11 ч назад

Заблокированное коммерческое предложение Dell на 6x RTX PRO 6000 Max-Q за $8,960

Пользователь Reddit опубликовал заблокированное коммерческое предложение Dell на шесть графических процессоров RTX PRO 6000 Blackwell Max-Q по цене $8,959.99 за единицу. Это предложение значительно ниже рекомендованной цены в $15,999, которая была указана всего за день до этого. Первоначальное коммерческое предложение на все шесть единиц истекает примерно через три часа с момента публикации. Автор также располагает отдельным действительным предложением на две единицы по той же сниженной цене до 3 июля. Он ищет идеи сообщества о том, как приобрести оборудование для локального кластера вывода GLM 5.2. Хотя у него есть средства для немедленной покупки всех шести единиц, он хочет найти креативные решения для использования истекающей оптовой скидки. Автор уточнил, что не ищет финансовых советов и не просит покупать сами графические процессоры.

media r/LocalLLaMA · 11 ч назад

Запрос на Reddit о запуске больших моделей с 4–8 видеокартами RTX 6000 PRO

Пользователь Reddit ищет отзывы сообщества относительно производительности больших языковых моделей на системах, оснащённых четырьмя или восемью графическими процессорами NVIDIA RTX 6000 PRO. Запрос ориентирован в первую очередь на пользователей, располагающих от 384 ГБ до 768 ГБ видеопамяти для запуска таких моделей, как GLM 5.2, Kimi 2.7 и DeepSeek V4 Pro. Автор отмечает, что хотя эти модели технически могут работать при 4-битном квантовании, они могут не помещаться в доступный объём памяти при использовании 8-битной точности. Он ссылается на репозиторий с бенчмарками, но указывает, что в нём отсутствуют данные по самым последним релизам моделей. Один из ключевых вопросов касается того, насколько существенна деградация производительности при переходе от 4-битного к 8-битному квантованию и может ли это повлиять на выполнение агентных задач или задач программирования. Пользователь также спрашивает, какие бэкенды для инференса, такие как vLLM или SGLang, в настоящее время используются другими людьми при данной конфигурации оборудования.

arxiv arXiv cs.CL · 11 ч назад

Структурирование арабско-английского машиночитаемого словаря с использованием грамматик парсинга выражений

В данной статье представлен метод структурирования машиночитаемой версии арабско-английского словаря Аль-Маврид, решающий проблему отсутствия стандартизации в печатных форматах. Подход преобразует неструктурированные потоки слов и знаков препинания в явные иерархические структуры, определяющие компоненты записей, такие как подзаписи, метки областей применения и переводные эквиваленты. Парсинг выступает центральным этапом в каскадной архитектуре, реализованной с использованием формализма грамматик парсинга выражений (Parsing Expression Grammars). Этот метод позволяет автоматизировать или полуавтоматизировать организацию словарных записей несмотря на отсутствие стандартизации микроструктуры в арабских словарях. Исследование демонстрирует, что индукция микроструктуры обеспечивает правдоподобную точность при структурировании этих сложных лексикографических ресурсов. Преобразуя исходный текст в определенные форматы, работа поддерживает последующие приложения обработки естественного языка, требующие машиночитаемых лексических данных.

arxiv arXiv cs.CL · 11 ч назад

WBCMor VQA: Двуязычный англо-урду бенчмарк для визуального ответа на вопросы по гематологии

Исследователи представили WBCMor VQA — клинически валидированный двуязычный бенчмарк для анализа лейкозов и нормальных белых кровяных телец на английском и урду. Этот ресурс устраняет пробел в многоязычных медицинских технологиях, особенно в таких регионах, как Пакистан, где клиническая документация часто не совпадает с языками общения пациентов. Датасет включает 110 000 двуязычных пар вопрос-ответ, аннотированных на основе 20 000 изображений отдельных клеток лейкозных и нормальных белых кровяных телец. Для обеспечения лингвистической согласованности и клинической корректности бенчмарк использует аннотации, учитывающие морфологию, из датасетов LeukemiaAttri и WBCAtt, а также специализированный словарь гематологии на языке урду. В исследовании также подчеркиваются ограничения существующих англоцентричных ресурсов для визуального языкового моделирования в разнообразных медицинских условиях. Базовые показатели производительности были установлены путем оценки нескольких открытых моделей визуального языкового моделирования на этом новом бенчмарке. Этот ресурс направлен на содействие разработке доступных систем искусственного интеллекта для многоязычных медицинских контекстов.

arxiv arXiv cs.CL · 11 ч назад

Автоматическое генерирование аннотаций к научным статьям на основе обучения с использованием промптов

В данном исследовании изучается обучение с использованием промптов для автоматического генерирования аннотаций к научным статьям с целью решения проблемы отсутствия размеченных обучающих данных в существующих методах, основанных на обучении с учителем. Исследователи разработали специфичные для задачи шаблоны промптов, объединённые с аннотациями статей, в качестве входных данных для нескольких языковых моделей, включая локально развёрнутые GPT-2 и T5, а также ChatGPT, доступный через API. Эксперименты, проведённые на трёх наборах данных, показали, что ChatGPT с использованием шаблонов промптов достиг производительности, сопоставимой с предыдущими методами, основанными на обучении с учителем, без необходимости в специфичных для задачи обучающих примерах. При добавлении небольшого числа примеров в промпты модель значительно превзошла передовые методы на двух из наборов данных. Анализ выявил, что, хотя ChatGPT обладает сильными способностями к языковому моделированию, его производительность сильно зависит от конкретной информации, предоставляемой в промпте. Кейс-стади показали, что сгенерированные аннотации, как правило, связны, информативны и тесно напоминают те, что написаны самими авторами. Этот подход не опирается на специфичные для предметной области обучающие корпуса, что поддерживает последующий текстовый майнинг и библиометрические исследования для статей, у которых уже отсутствуют аннотации.

arxiv arXiv cs.CL · 11 ч назад

Измерение сложности исследований в NLP: обращенная U-образная зависимость от академического влияния

В данном исследовании предлагается комплексная система оценки для измерения сложности академических исследований, рассматривающая обработку естественного языка (NLP) в качестве примера. Авторы извлекают внутренние и внешние признаки из статей, включая сотрудничество, содержание и ссылки, для вычисления нескольких индикаторов сложности. Эти индикаторы взвешиваются с использованием метода энтропийных весов и суммируются для получения итогового показателя сложности исследования. Академическое влияние количественно оценивается по частоте цитирования, а экспертные оценки подтверждают надежность предложенного подхода измерения. Эмпирические результаты показывают, что количество страниц, количество ссылок и участие институтов высокого уровня значительно коррелируют с академическим влиянием. Ключевой вывод анализа заключается в том, что между сложностью исследования и его влиянием существует обращенная U-образная зависимость. Это указывает на то, что исследования умеренной сложности, как правило, достигают наивысшего уровня академического влияния.

arxiv arXiv cs.CL · 11 ч назад

Эволюция методов исследований в библиотечном деле и информатике на основе данных (1990–2022)

В данном исследовании анализируется влияние ориентированных на данные исследований в области библиотечного дела и информатики путем изучения методологической эволюции за период с 1990 по 2022 год. Исследователи автоматически извлекли четыре ключевые категории сущностей, основанных на данных, из научных статей: алгоритмы и модели, источники данных, программное обеспечение и инструменты, а также метрики. Анализ оценивает тенденции по трем измерениям, включая временные характеристики, тематическую эволюцию и межметодные особенности. Результаты выявили источники данных как основной драйвер методологических изменений в данной дисциплине. Исследование показывает циклический паттерн, характеризующийся появлением, за которым следуют стабильность или практическое применение в методах библиотечного дела и информатики. Эта перспектива подчеркивает то, как развитие больших данных изменило технический ландшафт области на протяжении трех десятилетий.

arxiv arXiv cs.CL · 12 ч назад

iLLaDA: 8-миллиардная языковая модель с маскированной диффузией и полностью двунаправленным вниманием

Авторы представляют iLLaDA, 8-миллиардную языковую модель с маскированной диффузией, обученную с нуля с использованием полностью двунаправленного внимания. Этот подход контрастирует с преобладающим авторегрессионным факторизацией и каузальным вниманием, используемыми в современных больших языковых моделях. Предобучение модели масштабировалось до 12 триллионов токенов, за которыми последовало контролируемое тонкое настраивание (supervised fine-tuning) на корпусе инструкций объемом 25 миллиардов токенов в течение 12 эпох. iLLaDA сохраняет цель маскированной диффузии на обоих этапах обучения и использует генерацию переменной длины для повышения эффективности. Она также внедряет оценку на основе уверенности для улучшения результатов на задачах многократного выбора. Результаты бенчмарков показывают значительные улучшения по сравнению с ее предшественником, LLaDA, включая прирост на 21,6 балла на BBH и на 14,9 балла на ARC-Challenge для базовой модели. Вариант с инструкционным тонким настраиванием достиг увеличения на 14,5 балла на MATH и на 16,5 балла на HumanEval. Несмотря на неавторегрессионную природу, iLLaDA остается конкурентоспособной с Qwen2.5 7B по нескольким метрикам.

arxiv arXiv cs.CL · 12 ч назад

Hybrid-IR: Двухпутный гибридный поиск с итеративным рассуждением для сложных медицинских вопросов

Большие языковые модели сталкиваются с проблемами галлюцинаций и устаревших знаний в биомедицинских приложениях, что стимулирует разработку улучшенных методов генерации с дополнением на основе поиска. Существующие подходы часто испытывают трудности с фрагментированными медицинскими знаниями из-за опоры на единственный путь поиска и статические стратегии, препятствующие глубокому рассуждению. Чтобы преодолеть эти ограничения, исследователи представили Hybrid-IR — двухпутную архитектуру, включающую механизм итеративного поиска и рассуждения для сложных медицинских вопросов. Эта система объединяет графовый поиск для исследования структурированных знаний с плотным поиском для тонкого семантического сопоставления. Модель постепенно уточняет свою траекторию рассуждения через итеративный цикл между шагами поиска и рассуждения. Эксперименты, проведенные на трех широко используемых бенчмарках медицинских QA, демонстрируют эффективность предложенного подхода.

arxiv arXiv cs.CL · 12 ч назад

Локальная маршрутизация ветвей: эффективное обучаемое масштабирование на этапе тестирования для языковых моделей

Авторы представляют локальную маршрутизацию ветвей (LBR), фреймворк на уровне токенов, предназначенный для улучшения рассуждений языковых моделей за счет эффективного масштабирования на этапе тестирования. LBR расширяет небольшое локальное дерево предварительного просмотра и направляет все сэмплированные ветви через модель, используя легкий маршрутизатор для выбора поддерева глубины 1 для фиксации. Этот подход позволяет каждому решению по токену использовать доказательства из кандидатов локального будущего без вычислительных затрат полного поиска на уровне решения. Метод использует процесс декодирования prune-shift-grow (отсечение-сдвиг-рост), который сохраняет дискретные идентичности ветвей и определяет вычисляемую вероятность траектории дерева. Таким образом, LBR позволяет сквозное обучение с подкреплением с верифицируемыми наградами, совместно оптимизируя базовую модель и маршрутизатор по тому же принципу отношения правдоподобия, что и дискретное RLVR для токенов. Экспериментальные результаты на синтетических задачах иерархического планирования демонстрируют, что скрытые состояния после кандидатов предоставляют полезные доказательства для маршрутизации. Кроме того, бенчмарки в области математических рассуждений показывают, что LBR улучшает метрики Pass@1 и Pass@32 по сравнению с дискретным цепочечным мышлением (chain-of-thought) и другими базовыми методами.