Все статьи — korshunov.ai

Все статьи Страница 1 / 127

Улучшение крупномасштабного слабо контролируемого распознавания речи путем фильтрации и отбора

Авторы предлагают новый подход к обучению сквозных систем автоматического распознавания речи (ASR), который решает проблемы зашумленных меток и отсутствия специфичности для домена в крупномасштабных слабо контролируемых наборах данных. Метод включает предварительное обучение на полном наборе данных, продолжение предварительного обучения на отфильтрованном подмножестве на основе ошибки распознавания по символам (CER) и тонкую настройку на акустически близких образцах из этого подмножества.

media r/LocalLLaMA · 6 ч назад

Qwen3.6-27B с использованием 3 критиков достигает уровня передовых моделей

Пользователь протестировал Qwen3.6-27B (8-bit) вместе с GLM5.2, используя инструмент для написания кода, который применяет трех критиков — проверку кода, проверку тестов и Playwright e2e — для оценки качества вывода.

arxiv arXiv cs.CL · 6 ч назад

DriftGuard: Безопасное обнаружение с несколькими мониторами и селективная адаптация для модерации эволюционирующей токсичности

В данной статье представлен DriftGuard — фреймворк, сочетающий обнаружение дрейфа по нескольким мониторам с селективным обновлением моделей для решения проблемы эволюционирующей токсичности в системах автоматической модерации. Система отслеживает специфические сдвиги, релевантные безопасности, такие как дрейф вреда идентичности и дрейф токсичного риска, вместо того чтобы полагаться исключительно на глобальные распределительные изменения.

arxiv arXiv cs.CL · 6 ч назад

5ting на SemEval-2026, задача 8: сильная сквозная многошаговая RAG с LLM-ранжированием и контролем достоверности

Авторы представляют 5ting — систему, предназначенную для задачи SemEval-2026 Task 8 (MTRAGEval), которая оценивает многошаговые системы Retrieval Augmented Generation (RAG). Система решает такие проблемы, как дрейф контекста, недостаточная спецификация и риск галлюцинаций, сочетая плотный поиск с LLM-ранжированием и контролем достоверности.

arxiv arXiv cs.CL · 6 ч назад

Голосование большинства подавляет ценности меньшинства: Расхождения аннотаторов на границе ненависти/оскорбления в HateXplain

Исследование показывает, что сводить расхождения аннотаторов к меткам большинства при аннотации языка вражды — не нейтрально, так как 42,6% всех расхождений сосредоточено именно на границе ненавители/оскорбления. Эта закономерность указывает на то, что аннотаторы применяют разные пороги для определения начала ненависти, создавая структурную проблему в определении ground truth.

arxiv arXiv cs.CL · 6 ч назад

Сохранение структуры документа при переводе с помощью многоэтапного конвейера LLM: исследование на примере маратхи

В данной статье представлен фреймворк для перевода правительственных документов на маратхи на английский язык, который сохраняет точность макета и структурную целостность, устраняя ограничения существующих систем, игнорирующих форматирование. Система объединяет распознавание текста с учетом макета (OCR), извлечение текста на основе координат, перевод с помощью LLM и реконструкцию HTML для обеспечения пространственного выравнивания и иерархической согласованности.

arxiv arXiv cs.CL · 6 ч назад

Классификация математических концепций с помощью ансамблей голосования LLM в Mathswitch

Проект с открытым исходным кодом Mathswitch импортирует записи о математических концепциях из таких источников, как Wikidata и Wikipedia, связывая записи, относящиеся к одной и той же концепции, без изменения исходного контента. Чтобы устранить шум в импортированных данных, такой как нематематические или неоднозначные элементы, авторы проверяют, может ли ансамбль судей LLM эффективно фильтровать этот шум.

arxiv arXiv cs.CL · 6 ч назад

Разметка обучающих данных для сопоставления сущностей с помощью больших языковых моделей

В данной статье исследуется использование больших языковых моделей в качестве моделей-учителей в рабочих процессах дистилляции знаний для автоматической разметки обучающих данных для более малых моделей-студентов в задачах сопоставления сущностей. Исследование оценивает различные стратегии выбора пар, модели учителей и студентов, а также методы постобработки на пяти стандартных бенчмарках.

media Hugging Face Forums · 6 ч назад

AgentSeal: Аудит доступности корпусов для SWE-bench Pro

Инструмент аудита AgentSeal v5 оценил публичную доступность артефактов в бенчмарке SWE-bench Pro для оценки потенциальных рисков загрязнения. Исследование показало, что хотя 12 примеров демонстрируют детерминированное перекрытие контента, а 76 репозиториев являются вероятными членами корпуса, большинство доказательств состояло из публичных репликаций с неизвестной датой, а не из доказанного загрязнения до отсечки.

lab Google — The Keyword (AI) · 6 ч назад

Раскрывая новую эру производительности Великобритании: создание нации пионеров в области ИИ

Google UK опубликовала свой последний отчет об экономическом воздействии, в котором детально описаны стратегии, направленные на то, чтобы помочь большему количеству людей раскрыть преимущества технологий на базе ИИ в стране.

arxiv arXiv cs.CL · 7 ч назад

LAMP: Легковесная агентная платформа на основе MCP и восстановления доказательств

Исследователи представляют LAMP, многоагентную платформу, которая синтезирует проверяемые в ядре доказательства Lean 4 для Комбинаторики на словах, предоставляя структурированные предметные знания через онтологию. Этот подход решает проблему отсутствия специализированных лемм в существующих доказывателях, обученных преимущественно на данных Mathlib.

arxiv arXiv cs.CL · 7 ч назад

Гетерогенные последствия для безопасности при безвредной многоязычной дообучении

Комплексное эмпирическое исследование показывает, что дообучение больших языковых моделей на безвредных многоязычных данных значительно увеличивает их склонность к выполнению небезопасных состязательных запросов — явление, называемое «многоязычным дрейфом безопасности». Исследование демонстрирует, что результаты по безопасности крайне чувствительны как к языку дообучения, так и к языку оценки, при этом показатели выполнения возрастают в четыре раза в некоторых сценариях.

arxiv arXiv cs.CL · 7 ч назад

wav2VOT: Автоматическая оценка времени начала голоса, длительности закрытия и реализации взрыва с помощью wav2vec2

В статье представлен wav2VOT — инструмент для автоматической оценки времени начала голоса, длительности закрытия и реализации взрыва, использующий модель wav2vec2. Он решает потребность в точных инструментах аннотации речи для фонетических исследований, демонстрируя, как большие речевые модели могут применяться к этим конкретным задачам.

arxiv arXiv cs.CL · 7 ч назад

Анализ совместимости лицензий корпусов для малоресурсных африканских языков

В данной статье проводится аудит происхождения лицензий более чем двадцати семейств корпусов, используемых в африканской NLP, и выявляется, что, хотя доминируют лицензии Creative Commons, их правила совместимости редко применяются. Авторы создают матрицу совместимости из шести уровней и применяют её к трём языкам-кейс-стади: Китуба/Мунукутуба, Зарма и Мурле.

arxiv arXiv cs.CL · 7 ч назад

Управление памятью для внимания к длинному контексту: предварительное исследование редактируемой локальной памяти запроса

В данном исследовании изучается внимание к длинному контексту с управлением памятью путем разделения быстрого рекуррентного или разреженного ядра на явно редактируемые слоты локальной памяти запроса и разреженное резервное решение во время запроса. Исследование направлено на устранение ограничений существующих методов линейного, рекуррентного и разреженного внимания в управлении тем, когда факты должны быть записаны, перезаписаны, защищены или отброшены.

arxiv arXiv cs.CL · 7 ч назад

PASTA: подход к перефразированию и самообучению для обновления знаний в больших языковых моделях

В данной статье представлен PASTA — фреймворк, предназначенный для интеграции детальной фактической информации из новостных статей в большие языковые модели (LLM) с целью решения проблемы обновления знаний. Подход сочетает аугментацию данных, генерацию вопросов и ответов, а также новый процесс самообучения Direct Preference Optimization (DPO), что позволяет осуществлять перезапись знаний и подавлять галлюцинации.

arxiv arXiv cs.CL · 7 ч назад

MedEvoEval: Оценка непрерывной эволюции агентов-врачей через смоделированные клинические эпизоды

Авторы представляют MedEvoEval, исполняемую лонгитюдную систему оценки, предназначенную для оценки непрерывной эволюции агентов-врачей через смоделированные амбулаторные клинические эпизоды. Эта система выходит за рамки статических бенчмарков, отслеживая, как агенты накапливают доказательства, используют ресурсы и совершенствуют принятие решений в ходе множественных взаимодействий.

arxiv arXiv cs.CL · 7 ч назад

Латентные мосты для многопользовательского ответа на вопросы

Авторы представляют GRAB, конструктор-кодировщик-мостовой конвейер, предназначенный для ответов на вопросы по таблицам, который поднимает реляционные данные в гетерогенный граф и кодирует их с помощью передачи сообщений. Метод передает сигналы замороженной большой языковой модели через небольшой набор латентных токенов, обусловленных запросом, обеспечивая компактное структурное представление, сохраняя при этом общие способности к рассуждению LLM.

arxiv arXiv cs.CL · 8 ч назад

FinInvest-GTCN: Объяснимое графово-временное-каузальное моделирование для оптимизации инвестиционных решений с учётом рисков

Исследователи представляют FinInvest-GTCN, Графово-Временную-Каузальную Сеть (Graph-Temporal-Causal Network), предназначенную для оптимизации решений венчурных инвестиций путём решения таких проблем, как гетерогенные данные и нестационарные временные ряды. Модель переопределяет задачу от рекомендации контента к количественной оценке риска и доходности, используя реляционный графовый энкодер, многомасштабное временное слияние и каузальную голову принятия решений для генерации интерпретируемых прогнозов.

arxiv arXiv cs.CL · 8 ч назад

EVLA: Электро-осознанный мультимодальный ассистент для физически обоснованного рассуждения и управления при вождении

Авторы представляют Электро-Визуально-Языкового Ассистента (EVLA), фреймворк, который интегрирует мультимодальное понимание сцены с восприятием в реальном времени электромеханического состояния электрифицированной силовой установки для улучшения решений при вождении. Этот подход устраняет ограничение существующих визуальных языковых моделей, которые рассматривают динамику автомобиля как черный ящик, путем включения физических ограничений и целей оптимизации.