Все статьи — korshunov.ai

Все статьи Страница 1 / 92

Естественное забывание: асимметричный контроль того, какие правила переживают препетрен

Исследование выявило феномен «естественного забывания» (natural ungrokking), при котором небольшие языковые модели теряют изученные грамматические правила на полпути препетрена, несмотря на то, что доказательства их существования остаются в данных. Исследователи наблюдали, как модель, обучающаяся согласованию местоимений и рода с Sue, упала с точности 0,94 до уровня, близкого к нулю, к шагу 3500 без какого-либо соответствующего всплеска на кривой функции потерь. Выживание этих правил определяется частотой поддержки в обучающей выборке, тогда как отношение данных к параметрам лишь модулирует глубину падения. Эта динамика возникновения и последующего коллапса была воспроизведена на нескольких корпусах, бюджетах и начальных условиях (seeds) и подтверждена на публичных контрольных точках Pythia, где глубина коллапса коррелировала с масштабом модели. Процесс забывания действует как механизм вытеснения, при котором конкурирующий поверхностный паттерн побеждает правило, заставляя маржу логарифмической вероятности пересечь ноль в течение 100 шагов после поведенческого отказа. Контроль над этой судьбой асимметричен: хотя введение контрдоказательств может уничтожить правила посредством монотонной зависимости «доза-эффект», восстановление поддержки даже на уровне, в 450 раз превышающем поддерживающий уровень, не позволяет их восстановить.

arxiv arXiv cs.CL · 3 ч назад

Слепота к лексикону ключевых слов искажает измерение риторической позиции

Исследование, проанализировавшее 85 интервью с четырьмя публичными интеллектуалами, показывает, что оценка на основе ключевых слов может создавать статистические артефакты в отношении риторической позиции. Первоначальный анализ выявил устойчивую закономерность совместного появления негативной аффективности и категоричной уверенности с высокими коэффициентами корреляции, варьирующимися от r = 0,72 до 0,93. Однако замена этого метода на семантическую классификацию LLM в режиме zero-shot для всего диааризированного корпуса из 32 625 предложений значительно снизила эти корреляции. Например, корреляция Далио упала с 0,851 до 0,206, тогда как у других спикеров наблюдалась отрицательная или нулевая связь между негативностью и уверенностью. Напротив, анализ LLM выявил сильную связь между негативным сентиментом и языком оговорок (hedging), что соответствует обычным ожиданиям относительно пессимистичного дискурса. Расхождение обусловлено тремя структурными недостатками лексиконов ключевых слов: синтаксической слепотой, слепотой к полисемии и отсутствием категорий. Эти недостатки могут инвертировать семантическое значение, например, оценивая фразу 'никогда абсолютно полностью уверен' как высокую уверенность. Авторы утверждают, что подсчет ключевых слов измеряет тенденции к лексическому совместному появлению, а не эпистемическую уверенность, что представляет собой категориальную ошибку.

arxiv arXiv cs.CL · 3 ч назад

Аудит чувствительности к порядку в мультимодальных больших языковых моделях

В исследовании представлен Facet-Probe, аудит по пяти граням 18 передовых и моделей с открытым весом (open-weight) для оценки чувствительности к порядку. Стандартные бенчмарки часто упускают из виду, приводит ли перестановка доказательств к изменению ответов, что является свойством надежности, подчеркиваемым в новых руководящих принципах оценки ИИ. Используя байесовскую модель ответа на элемент (item-response), исследователи отделили шум порядка от смещения по каждой грани и оценили нижние границы стохастичности декодера с помощью контрольных групп с неизменным порядком. Аудит показал, что ни одна из 18 моделей не является инвариантной к порядку, при этом средние для панели доли переворота ответов варьируются от 24% до 50% в зависимости от граней. Даже лучшая по производительности модель меняла ответ в 13,4% испытаний, что указывает на то, что более высокая способность не устраняет эту уязвимость. Тесты смягчения с использованием изменений промптов без дообучения оказались условно зависящими от модальности и не переносились между задачами текстового и визуального рассуждения. Эти выводы свидетельствуют о том, что исправления на уровне промпта недостаточны для общей устойчивости к порядку, что стимулирует разработку архитектурных решений. Авторы предлагают долю переворота ответов при перестановке порядка в качестве стандартной оси отчетности для будущих оценок мультимодальных больших языковых моделей (MLLM).

arxiv arXiv cs.CL · 3 ч назад

Голосовой ИИ в реальном времени слышит, но не слушает

Исследование оценивает четыре ведущих производственных системы голосового взаимодействия в реальном времени: GPT Realtime 2 от OpenAI, Gemini 3.1 Flash Live от Google, а также Qwen3.5 Omni Plus и Omni Flash от Alibaba. Исследование сосредоточено на задачах, где как слова, так и вокальное исполнение несут значимую информацию в трех важных сценариях. Все четыре системы реагируют на буквальные слова, а не на голос, что приводит к ошибкам, таким как завершение разговоров с плачущими пользователями, которые настаивают, что всё в порядке, или одобрению денежных переводов, совершённых испуганным голосом. Удивительно, но этот разрыв часто не является ошибкой восприятия: три из четырёх систем могут надёжно распознавать дистресс, страх или сарказм, если их спросить напрямую. Несмотря на это осознание, модели игнорируют эти эмоциональные сигналы при принятии решений, демонстрируя то, что авторы называют «пробелом в эмоциональном интеллекте». В исследовании также отмечается, что системы оценивают акцент и возраст на основе языковых предубеждений, а не акустических свойств. Прямое указание системам обращать внимание на вокальное исполнение улучшает производительность лишь частично и непоследовательно. Эти выводы свидетельствуют о том, что текущий голосовой ИИ в реальном времени ведёт себя так, будто речь сводится к транскрипту, что требует осторожности в ситуациях, где тон имеет критическое значение.

media r/LocalLLaMA · 4 ч назад

Локальный пайплайн NL-to-SQL с использованием Qwen3 4B и детерминированного планирования

Разработчик реализовал полностью локальную систему генерации фильтров по естественному языку на оборудовании без GPU. Решение использует модель Qwen3 4B Instruct, работающую через llama.cpp с инференсом только на CPU. Вместо прямой генерации SQL-запросов модель фокусируется на семантическом намерении и выборе структурированных фильтров. Детерминированный планировщик запросов затем выполняет процессы генерации и оптимизации SQL. Пайплайн использует гибридный метод извлечения BM25 и эмбеддингов с применением FAISS для хранения векторов. Он извлекает четыре лучших совпадающих примера примерно из 800 вложенных семантических экземпляров для внедрения в промпт. Такой подход позволяет системе эффективно функционировать в условиях строгих ограничений по объему оперативной памяти и отсутствию доступа к интернету.

media r/LocalLLaMA · 4 ч назад

Заблокированное коммерческое предложение Dell на 6x RTX PRO 6000 Max-Q за $8,960

Пользователь Reddit опубликовал заблокированное коммерческое предложение Dell на шесть графических процессоров RTX PRO 6000 Blackwell Max-Q по цене $8,959.99 за единицу. Это предложение значительно ниже рекомендованной цены в $15,999, которая была указана всего за день до этого. Первоначальное коммерческое предложение на все шесть единиц истекает примерно через три часа с момента публикации. Автор также располагает отдельным действительным предложением на две единицы по той же сниженной цене до 3 июля. Он ищет идеи сообщества о том, как приобрести оборудование для локального кластера вывода GLM 5.2. Хотя у него есть средства для немедленной покупки всех шести единиц, он хочет найти креативные решения для использования истекающей оптовой скидки. Автор уточнил, что не ищет финансовых советов и не просит покупать сами графические процессоры.

media r/LocalLLaMA · 4 ч назад

Запрос на Reddit о запуске больших моделей с 4–8 видеокартами RTX 6000 PRO

Пользователь Reddit ищет отзывы сообщества относительно производительности больших языковых моделей на системах, оснащённых четырьмя или восемью графическими процессорами NVIDIA RTX 6000 PRO. Запрос ориентирован в первую очередь на пользователей, располагающих от 384 ГБ до 768 ГБ видеопамяти для запуска таких моделей, как GLM 5.2, Kimi 2.7 и DeepSeek V4 Pro. Автор отмечает, что хотя эти модели технически могут работать при 4-битном квантовании, они могут не помещаться в доступный объём памяти при использовании 8-битной точности. Он ссылается на репозиторий с бенчмарками, но указывает, что в нём отсутствуют данные по самым последним релизам моделей. Один из ключевых вопросов касается того, насколько существенна деградация производительности при переходе от 4-битного к 8-битному квантованию и может ли это повлиять на выполнение агентных задач или задач программирования. Пользователь также спрашивает, какие бэкенды для инференса, такие как vLLM или SGLang, в настоящее время используются другими людьми при данной конфигурации оборудования.

arxiv arXiv cs.CL · 4 ч назад

Структурирование арабско-английского машиночитаемого словаря с использованием грамматик парсинга выражений

В данной статье представлен метод структурирования машиночитаемой версии арабско-английского словаря Аль-Маврид, решающий проблему отсутствия стандартизации в печатных форматах. Подход преобразует неструктурированные потоки слов и знаков препинания в явные иерархические структуры, определяющие компоненты записей, такие как подзаписи, метки областей применения и переводные эквиваленты. Парсинг выступает центральным этапом в каскадной архитектуре, реализованной с использованием формализма грамматик парсинга выражений (Parsing Expression Grammars). Этот метод позволяет автоматизировать или полуавтоматизировать организацию словарных записей несмотря на отсутствие стандартизации микроструктуры в арабских словарях. Исследование демонстрирует, что индукция микроструктуры обеспечивает правдоподобную точность при структурировании этих сложных лексикографических ресурсов. Преобразуя исходный текст в определенные форматы, работа поддерживает последующие приложения обработки естественного языка, требующие машиночитаемых лексических данных.

arxiv arXiv cs.CL · 4 ч назад

WBCMor VQA: Двуязычный англо-урду бенчмарк для визуального ответа на вопросы по гематологии

Исследователи представили WBCMor VQA — клинически валидированный двуязычный бенчмарк для анализа лейкозов и нормальных белых кровяных телец на английском и урду. Этот ресурс устраняет пробел в многоязычных медицинских технологиях, особенно в таких регионах, как Пакистан, где клиническая документация часто не совпадает с языками общения пациентов. Датасет включает 110 000 двуязычных пар вопрос-ответ, аннотированных на основе 20 000 изображений отдельных клеток лейкозных и нормальных белых кровяных телец. Для обеспечения лингвистической согласованности и клинической корректности бенчмарк использует аннотации, учитывающие морфологию, из датасетов LeukemiaAttri и WBCAtt, а также специализированный словарь гематологии на языке урду. В исследовании также подчеркиваются ограничения существующих англоцентричных ресурсов для визуального языкового моделирования в разнообразных медицинских условиях. Базовые показатели производительности были установлены путем оценки нескольких открытых моделей визуального языкового моделирования на этом новом бенчмарке. Этот ресурс направлен на содействие разработке доступных систем искусственного интеллекта для многоязычных медицинских контекстов.

arxiv arXiv cs.CL · 4 ч назад

Автоматическое генерирование аннотаций к научным статьям на основе обучения с использованием промптов

В данном исследовании изучается обучение с использованием промптов для автоматического генерирования аннотаций к научным статьям с целью решения проблемы отсутствия размеченных обучающих данных в существующих методах, основанных на обучении с учителем. Исследователи разработали специфичные для задачи шаблоны промптов, объединённые с аннотациями статей, в качестве входных данных для нескольких языковых моделей, включая локально развёрнутые GPT-2 и T5, а также ChatGPT, доступный через API. Эксперименты, проведённые на трёх наборах данных, показали, что ChatGPT с использованием шаблонов промптов достиг производительности, сопоставимой с предыдущими методами, основанными на обучении с учителем, без необходимости в специфичных для задачи обучающих примерах. При добавлении небольшого числа примеров в промпты модель значительно превзошла передовые методы на двух из наборов данных. Анализ выявил, что, хотя ChatGPT обладает сильными способностями к языковому моделированию, его производительность сильно зависит от конкретной информации, предоставляемой в промпте. Кейс-стади показали, что сгенерированные аннотации, как правило, связны, информативны и тесно напоминают те, что написаны самими авторами. Этот подход не опирается на специфичные для предметной области обучающие корпуса, что поддерживает последующий текстовый майнинг и библиометрические исследования для статей, у которых уже отсутствуют аннотации.

arxiv arXiv cs.CL · 4 ч назад

Измерение сложности исследований в NLP: обращенная U-образная зависимость от академического влияния

В данном исследовании предлагается комплексная система оценки для измерения сложности академических исследований, рассматривающая обработку естественного языка (NLP) в качестве примера. Авторы извлекают внутренние и внешние признаки из статей, включая сотрудничество, содержание и ссылки, для вычисления нескольких индикаторов сложности. Эти индикаторы взвешиваются с использованием метода энтропийных весов и суммируются для получения итогового показателя сложности исследования. Академическое влияние количественно оценивается по частоте цитирования, а экспертные оценки подтверждают надежность предложенного подхода измерения. Эмпирические результаты показывают, что количество страниц, количество ссылок и участие институтов высокого уровня значительно коррелируют с академическим влиянием. Ключевой вывод анализа заключается в том, что между сложностью исследования и его влиянием существует обращенная U-образная зависимость. Это указывает на то, что исследования умеренной сложности, как правило, достигают наивысшего уровня академического влияния.

arxiv arXiv cs.CL · 4 ч назад

Эволюция методов исследований в библиотечном деле и информатике на основе данных (1990–2022)

В данном исследовании анализируется влияние ориентированных на данные исследований в области библиотечного дела и информатики путем изучения методологической эволюции за период с 1990 по 2022 год. Исследователи автоматически извлекли четыре ключевые категории сущностей, основанных на данных, из научных статей: алгоритмы и модели, источники данных, программное обеспечение и инструменты, а также метрики. Анализ оценивает тенденции по трем измерениям, включая временные характеристики, тематическую эволюцию и межметодные особенности. Результаты выявили источники данных как основной драйвер методологических изменений в данной дисциплине. Исследование показывает циклический паттерн, характеризующийся появлением, за которым следуют стабильность или практическое применение в методах библиотечного дела и информатики. Эта перспектива подчеркивает то, как развитие больших данных изменило технический ландшафт области на протяжении трех десятилетий.

arxiv arXiv cs.CL · 5 ч назад

iLLaDA: 8-миллиардная языковая модель с маскированной диффузией и полностью двунаправленным вниманием

Авторы представляют iLLaDA, 8-миллиардную языковую модель с маскированной диффузией, обученную с нуля с использованием полностью двунаправленного внимания. Этот подход контрастирует с преобладающим авторегрессионным факторизацией и каузальным вниманием, используемыми в современных больших языковых моделях. Предобучение модели масштабировалось до 12 триллионов токенов, за которыми последовало контролируемое тонкое настраивание (supervised fine-tuning) на корпусе инструкций объемом 25 миллиардов токенов в течение 12 эпох. iLLaDA сохраняет цель маскированной диффузии на обоих этапах обучения и использует генерацию переменной длины для повышения эффективности. Она также внедряет оценку на основе уверенности для улучшения результатов на задачах многократного выбора. Результаты бенчмарков показывают значительные улучшения по сравнению с ее предшественником, LLaDA, включая прирост на 21,6 балла на BBH и на 14,9 балла на ARC-Challenge для базовой модели. Вариант с инструкционным тонким настраиванием достиг увеличения на 14,5 балла на MATH и на 16,5 балла на HumanEval. Несмотря на неавторегрессионную природу, iLLaDA остается конкурентоспособной с Qwen2.5 7B по нескольким метрикам.

arxiv arXiv cs.CL · 5 ч назад

Hybrid-IR: Двухпутный гибридный поиск с итеративным рассуждением для сложных медицинских вопросов

Большие языковые модели сталкиваются с проблемами галлюцинаций и устаревших знаний в биомедицинских приложениях, что стимулирует разработку улучшенных методов генерации с дополнением на основе поиска. Существующие подходы часто испытывают трудности с фрагментированными медицинскими знаниями из-за опоры на единственный путь поиска и статические стратегии, препятствующие глубокому рассуждению. Чтобы преодолеть эти ограничения, исследователи представили Hybrid-IR — двухпутную архитектуру, включающую механизм итеративного поиска и рассуждения для сложных медицинских вопросов. Эта система объединяет графовый поиск для исследования структурированных знаний с плотным поиском для тонкого семантического сопоставления. Модель постепенно уточняет свою траекторию рассуждения через итеративный цикл между шагами поиска и рассуждения. Эксперименты, проведенные на трех широко используемых бенчмарках медицинских QA, демонстрируют эффективность предложенного подхода.

arxiv arXiv cs.CL · 5 ч назад

Локальная маршрутизация ветвей: эффективное обучаемое масштабирование на этапе тестирования для языковых моделей

Авторы представляют локальную маршрутизацию ветвей (LBR), фреймворк на уровне токенов, предназначенный для улучшения рассуждений языковых моделей за счет эффективного масштабирования на этапе тестирования. LBR расширяет небольшое локальное дерево предварительного просмотра и направляет все сэмплированные ветви через модель, используя легкий маршрутизатор для выбора поддерева глубины 1 для фиксации. Этот подход позволяет каждому решению по токену использовать доказательства из кандидатов локального будущего без вычислительных затрат полного поиска на уровне решения. Метод использует процесс декодирования prune-shift-grow (отсечение-сдвиг-рост), который сохраняет дискретные идентичности ветвей и определяет вычисляемую вероятность траектории дерева. Таким образом, LBR позволяет сквозное обучение с подкреплением с верифицируемыми наградами, совместно оптимизируя базовую модель и маршрутизатор по тому же принципу отношения правдоподобия, что и дискретное RLVR для токенов. Экспериментальные результаты на синтетических задачах иерархического планирования демонстрируют, что скрытые состояния после кандидатов предоставляют полезные доказательства для маршрутизации. Кроме того, бенчмарки в области математических рассуждений показывают, что LBR улучшает метрики Pass@1 и Pass@32 по сравнению с дискретным цепочечным мышлением (chain-of-thought) и другими базовыми методами.

arxiv arXiv cs.CL · 5 ч назад

Память определяет результат: оценка того, как различные роли памяти формируют диалоговые агенты

Предыдущие исследования механизмов памяти в RAG-системах для диалога в основном фокусировались на методах хранения и извлечения. В данном исследовании изучается влияние памяти с различными функциональными ролями на качество ответов в разных контекстах. Авторы представляют детализованную таксономию диалоговой памяти для классификации извлеченных элементов по конкретным типам ролей. Они также разрабатывают ориентированную на пользователя систему оценки, имитирующую перспективы пользователей, чтобы устранить ограничения оценочных методов, основанных на эталонных ответах. Сравнительные эксперименты проводились на наборах данных с длинным контекстом с использованием передовых больших языковых моделей для анализа этих эффектов. Результаты показывают, что уточнение памяти повышает фактическую точность и осознание ограничений, что приводит к более корректным и персонализированным ответам. Напротив, было обнаружено, что нерелевантная память снижает релевантность темы и ухудшает способность учитывать ограничения. Эти выводы демонстрируют, как различные типы памяти могут быть использованы для улучшения персонализации в диалоговых агентах.

arxiv arXiv cs.CL · 5 ч назад

Нейронный машинный перевод для низко-ресурсной пары танхул-английский

В данном исследовании рассматривается задача машинного перевода для низко-ресурсной языковой пары танхул-английский, с акцентом на сильно недопредставленный тибето-бирманский язык, обладающий минимальной предыдущей инфраструктурой в области NLP. Авторы представляют две системы: основную модель на базе ByT5-large и контрастивную систему, использующую mT5-small, обе из которых были дообучены на 38 336 парах параллельных предложений. Оценка на выделенном тестовом наборе из 3 856 предложений показывает, что система ByT5-large достигает corpus BLEU-оценки 39.97 и chrF++-оценки 58.07. Дополнительные метрики включают BERTScore F1 равный 0.8104 и COMET-оценку 0.7302 с использованием модели wmt22-comet-da. Исследование подчеркивает орфографические проблемы, связанные с диакритическими знаками латинского алфавита танхула, как специфическую техническую преграду. Кроме того, обучающий корпус демонстрирует доменную предвзятость, состоящую преимущественно из библейских текстов, историй и разговорных данных. Будущая работа направлена на улучшение результатов за счет диверсификации данных и стратегий адаптации к домену.

arxiv arXiv cs.CL · 5 ч назад

Sarashina2.2-TTS: Решение проблемы полифонии кандзи в японском синтезе речи посредством масштабирования данных и целевого синтеза данных

Sarashina2.2-TTS — это система преобразования текста в речь (TTS) на основе большой языковой модели (LLM), ориентированная на японский язык, предназначенная для решения лингвистической проблемы контекстно-зависимой полифонии кандзи. Модель масштабирует обучающие данные до объема примерно 361 тыс. часов, используя сбалансированное сочетание корпусов японской и английской речи. Для специфической обработки неоднозначности чтения авторы реализовали целевой конвейер аугментации данных, охватывающий все 2136 иероглифов Joyo регулярного использования. Наряду с выпуском модели в статье представлен бенчмарк Joyo Kanji Yomi Benchmark, включающий 4378 различных чтений для этих символов. Авторы также предлагают метрику Kana-CER, которая оценивает правильность произношения путем сравнения синтезированной речи с эталонными чтениями в пространстве кана. Экспериментальные результаты показывают, что такая целевая аугментация значительно улучшает точность чтения и достигает состояния переднего края (state-of-the-art) на уровне кандзи. Система демонстрирует результаты, сопоставимые с лучшими базовыми моделями, по общему уровню произношения на уровне предложений, обеспечивая при этом наибольшее сходство голоса в сценариях zero-shot синтеза. Кроме того, кросс-лингвистические оценки подтверждают, что сбалансированный подход к обучению обеспечивает стабильное японское произношение независимо от языка используемого промпта.

arxiv arXiv cs.CL · 5 ч назад

Вычислительная стилометрия переводов английского Палийского канона по трем Питакам

В данном исследовании представлен вычислительный стилометрический анализ Типитаки по всем трем Питакам в английском переводе, расширяющий предыдущие работы над Сутта-питакой. Корпус включает 134 831 сегмент из Сутта-питаки Бхикку Судхато, Виная-питаки Бхикку Брамахали, перевода Виная 1938 года И.Б. Хорнер, трех английских переводов Абхидхамматтха Сангахи и текстов Виная межтрадиционного характера. Авторы вычисляют распределения рангов и частотности по закону Ципфа, лексическое разнообразие MATTR-500, плотность соотношения чисел к словам и метрики перекрытия словарного запаса. Основные выводы указывают на то, что все корпуса демонстрируют распределения, согласующиеся с законом Ципфа, со значениями коэффициента детерминации (R-squared) выше 0,989. Сутта-питака и Тхеравада Виная имеют практически идентичные показатели лексического разнообразия: 0,399 и 0,400 соответственно, тогда как корпус Сангахи более разнообразен с показателем 0,560. Корпус Сангахи также демонстрирует наибольшую плотность соотношения чисел к словам — 3,26%, что отражает его систематическое перечисление категорий. Кроме того, Виная Муласарвастивада имеет значительное перекрытие словарного запаса с Тхеравада Виная, в то время как два английских перевода одного и того же источника делят лишь 24,2% своего словарного запаса.

arxiv arXiv cs.CL · 5 ч назад

Story Operators: Декомпозиция преобразования от оригинала к сиквелу в пространстве эмбеддингов

В данном исследовании литературные трансформации моделируются как геометрические операции в пространстве предложений-эмбеддингов с использованием векторов all-mpnet-base-v2 из корпуса PG19. Вычисляя векторы смещения между оригинальными романами и их сиквелами, автор декомпозирует эти изменения по базису контента, полученному с помощью PCA. Анализ тринадцати подтвержденных пар авторов выявляет таксономию типов сиквелов: формальные, концентрированные и композиционные. Формальные трансформации включают минимальные изменения ранга, такие как сборники о Шерлоке Холмсе Дойла с нормой 0.12. Концентрированные сдвиги доминируются одной осью, что иллюстрируется переходом от «Маленьких женщин» Алькотт к «Маленьким мужчинам», где 75% изменений происходит по одному направлению. Композиционные трансформации включают множество малых осей, наблюдаемых в произведениях Твена, Берроуза и Несбит. Для перехода от «Приключений Тома Сойера» к «Приключениям Гекльберри Финна» доминирующая ось является структурной, отражая сдвиг от домашнего уклада к пикарескному приключению, а не поверхностные темы, такие как разговорный стиль. Геометрические выводы подтверждаются на основе задокументированных авторских намерений Марка Твена в письмах к Хауэллсу.