Research paper — korshunov.ai

Тема · Research paper

Mateusz разработал полностью предобученную модель языка Project Inkblot's Titan v1, объединяющую Mamba SSM, Multi-Head Attention и 32-экспертную MoE в одной архитектуре декодера-только, с менее чем 1 миллиард параметров. Модель, обученная на одном GPU NVIDIA L4 за ~$50, достигает значения перпексивности 27.5 на валидационной выборке и демонстрирует эффективное масштабирование при изменении одной строки конфигурации, при этом все компоненты реализованы с нуля на PyTorch. Первый цикл обучения Titan v2 теперь завершён, и происходит расширение датасета.

arxiv arXiv cs.LG · 6 д назад

Совмещение LLM с использованием скрытой обратной связи пользователя

Новый набор данных IFLLM собирает данные о перемещении мыши и взгляде пользователя при взаимодействии с LLM. Он показывает, что скрытая обратная связь значительно улучшает выравнивание LLM, повышая точность текстовых моделей вознаграждения с 55% до 64% и почти втрое увеличивая качество ответов после обучения DPO на восьми LLM.

arxiv arXiv cs.CL · 6 д назад

Совмещение LLM с использованием скрытой обратной связи пользователя

Новый набор данных IFLLM собирает данные о перемещении мыши и взгляде пользователя при взаимодействии с LLM. Он показывает, что скрытая обратная связь значительно улучшает выравнивание LLM, повышая точность текстовых моделей вознаграждения с 55% до 64% и почти утрачивая качество ответов после обучения DPO на восьми LLM.

arxiv arXiv cs.AI · 6 д назад

ScaffoldAgent: Утилиты-ориентированный динамический оптимизацией структуры

ScaffoldAgent вводит рамку с утилиты-ориентированным управлением для динамической оптимизации структуры в открытых глубоких исследованиях. Он моделирует эволюцию структуры через операции расширения, сжатия и редактирования, управляемые механизмом обратной связи, оценивающим прирост поиска, структурную целостность и качество генерации. Эксперименты показывают, что он улучшает генерацию длинных отчётов и фактическую опору по сравнению с существующими агентами.

arxiv arXiv cs.CL · 9 д назад

Падение и восстановление точности маршрутизации в системах агентов предприятий

При увеличении каталога инструментов агентов предприятий от 10 до 110 агентов, точность маршрутизации снижается на 16--23 процентных пункта при запросах с недостаточным описанием. Анализ с использованием оракула выявляет разрывы в извлечении и путанице, при использовании базы векторных представлений для сокращения списка результатов восстанавливается +10--11pp F1. Изучение 1435 изъятий с участием человека подтверждает реальное восстановление +10--17pp, несмотря на более низкую абсолютную производительность.

arxiv arXiv cs.CL · 2 д назад

Большие языковые модели не могут точно переводить фонгбэ

Оценки показывают, что переводы фонгбэ имеют низкое качество (1,0–2,2/5), в отличие от приемлемого результата в случае хауса (4,0–4,5/5), при этом наблюдается постоянный разрыв в 3 раза по BLEU. Автоматические метрики, такие как BERTScore, показывают коллапс вложений и слабую корреляцию с человеческими оценками, особенно в случае хауса, в то время как Gemini превосходит другие модели при оценке фонгбэ, а GPT-4o — при оценке хауса в человеческих оценках. Для стабильного ранжирования моделей требуется минимальный объем образцов в 2500 предложений.

arxiv arXiv cs.CL · 2 д назад

MixedPEFT: Единая PEFT для необученной адаптации домена

MixedPEFT объединяет инвертируемые адаптеры и LoRA в единой системе для обеспечения необученной адаптации домена. Он одновременно оптимизирует классификацию на исходных данных и маскированную лингвистическую модель на целевых данных, достигая улучшения на 1,41% по сравнению с UDapter, на 1,26% по сравнению с DANN и на 0,86% по сравнению с DSN, используя только 7% параметров модели.

arxiv arXiv cs.CL · 2 д назад

BabelJudge: Оценка надежности LLM-как-судьи на разных языках и в траекториях агентов

BabelJudge представляет открытую платформу для измерения четырех ключевых форм искажений в LLM-судьях на разных языках и в траекториях агентов. Платформа выявляет значительное падение надежности от хинди до сواхили — с 0,714 до 0,550 — что подчеркивает неспособность чистой точности выявлять критические сбои, такие как несоответствие порядка, который в сواхили сокращается до 0,480. Платформа также расширяется на оценку агентов с девятью вариациями и тремя новыми метриками, поддерживая 11 судейских бэкендов через пакет на языке Python.

arxiv arXiv cs.CL · 2 д назад

SciTraj: типизированный цитатный граф с подтверждением утверждений для эволюции научных исследований

SciTraj — первый типизированный цитатный корпус с подтверждением утверждений, который связывает каждую цитату с конкретным утверждением. В корпусе содержатся 32 559 статей из областей NLP, ML и Vision (2015–2024), с 573 126 направленных рёбер шести типов отношений и 287 млн типизированных траекторий длиной не менее 3, охватывающих 72,8% статей. Корпус позволяет проводить анализ изоляции дисциплин и возникновения тем, с подтверждёнными семенными утверждениями и временно разделённым бенчмарком для предсказания связей.

arxiv arXiv cs.CL · 2 д назад

Приложение Curiosity как лингвистическое вмешательство в обучение с помощью ЛЛМ

CURIOBOT использует коллективные переменные Берльне для создания лингвистических вмешательств, направленных на пробуждение любопытства, в диалогах по обучению. В ходе 270 диалогов такие вмешательства увеличили исследовательские поведения вплоть до 2,4 раза в диалоговых оборотах при фиксированных временных пределах, при этом рост сохраняется, несмотря на неизменную качество инструкций преподавателя.

arxiv arXiv cs.CL · 2 д назад

Разнообразие персонажей в историях, сгенерированных LLM

Этуд сравнивает персонажей в историях, сгенерированных LLM и написанных людьми, с использованием нарратологических параметров. В исследовании установлено, что хотя LLM генерируют персонажей с похожими основными характеристиками, они не обладают разнообразием в сложных характеристиках персонажей, таких как целостность и стилизация. Анализ показывает, что LLM генерируют истории с ограниченным разнообразием персонажей по сравнению с историями, написанными людьми.

arxiv arXiv cs.CL · 2 д назад

РОМЕВА: Расширение словаря с сохранением геометрии для моделей языка романского урду

РОМЕВА решает проблему фрагментации подслов в романском урду путем комбинации инициализации по среднему значению подслов и потерь с использованием PCA-указателей для стабилизации векторов. Хотя РОМЕВА лучше сохраняет предобученные векторы, прямое тонкое обучение обеспечивает более высокую производительность в классификации настроений, что указывает на компромисс между стабильностью векторов и производительностью на уровне задач в языках с несогласованными морфологическими структурами.

arxiv arXiv cs.CL · 2 д назад

MacAgentBench запускает бенчмарк AI-агента для macOS

MacAgentBench представляет всесторонний бенчмарк, включающий 676 задач по 25 приложениям, 60% из которых включают взаимодействие как с графическим интерфейсом, так и с командной строкой. Используя детерминированные правилу-ориентированные оценки и оценку с использованием мелких контрольных точек, было установлено, что Claude Opus 4.6 на OpenClaw достигает 73,7% Pass@1, в основном благодаря своей библиотеке навыков, а не архитектуре платформы.

arxiv arXiv cs.CL · 2 д назад

Концептуально-ограниченное обучение промптов для адаптации CLIP при небольшом количестве примеров

CCPL вводит легкую архитектуру, которая фиксирует промпты классов к замороженным концептуальным прототипам, улучшая адаптацию CLIP при небольшом количестве примеров за счёт снижения переобучения. Оно достигает лучшей производительности на DTD и EuroSAT по сравнению с CoOp, с устойчивыми выгодами от регуляризации в пространстве текста, при этом сохраняя нейтральность по отношению к OxfordPets.

arxiv arXiv cs.CL · 2 д назад

Объемный набор данных по распознаванию знаков кундриф и пайплайн OCR

Вводится новый набор данных с 173 и 106 классами знаков, позволяющий реализовать конечный кундриф OCR. Модель на основе DETR обеспечивает улучшение на 28-37% по сравнению с предыдущими работами по метрикам COCO, распознавая почти 2,9 миллиона знаков на 87 668 фрагментах табличек из корпуса eBL.

arxiv arXiv cs.CL · 3 д назад

Использование международного фонетического алфавита для токенизации улучшает производительность многоречевых моделей языка

Новый подход использует Международный фонетический алфавит для создания токенизаторов, независимых от языка, для многоречевых моделей. Обучение сопоставленных текстов и токенизаторов на подсловах для 24 языков и 14 письменных систем показывает, что токенизаторы на основе фонетики улучшают качество токенизации, особенно для нелатинских письменных систем, и лучше обобщаются на неизвестные языки и письменные системы.

arxiv arXiv cs.CL · 3 д назад

ConceptE: расширение событийной семантики с использованием больших языковых моделей

ConceptE представляет рамку, использующую большие языковые модели для извлечения семантики на уровне концепций из триггеров событий, что позволяет достигать более согласованных кластеров событий и надежного расширения иерархии. Эксперименты на ACE, ERE и MAVEN показывают, что ConceptE превосходит существующие методы, обеспечивая до 12,37% улучшения по BCubed-F1 и 6,48% по Taxo_F1.

arxiv arXiv cs.CL · 3 д назад

Многоэтикетковая аннотация эмоций: анализ согласованности и мягких голосов

В случае исследования оценивается, как вариация аннотаторов и методы агрегации влияют на многоэтикетковую аннотацию эмоций. В статье показано, что мягкие голосовые метки, включая варианты с учетом интенсивности, лучше отражают неопределенность аннотаторов и улучшают соответствие модели эмпирической вариабельности по сравнению с жесткими метками.

arxiv arXiv cs.CL · 3 д назад

FiLM-координированный двойной ветвевой трансформатор для моделирования языка

Новая архитектура трансформатора вводит отдельные глобальные и локальные ветви для моделирования языка, используя FiLM для динамической координации этих ветвей. Эксперименты показывают, что она превосходит одноветвевые и ослабленные двойные ветви на малых наборах данных, таких как TinyShakespeare и WikiText-2, с стабильными результатами при различных семенах и паттернах выборочного модуляции.

arxiv arXiv cs.CL · 3 д назад

Синтетическая аудиофреймворк улучшает распознавание речи в системах воздушного транспорта

Вводится синтетическая система генерации аудио для решения проблемы недостатка данных в распознавании речи в системах воздушного транспорта. Она использует нейронные методы, такие как текст-в-речь и преобразование интонации, для имитации неанглийских акцентов, что повышает эффективность автоматического распознавания речи. Эксперименты с моделью Whisper на корпусе ATCO2 показывают снижение ошибок распознавания слов при тонкой настройке с синтетическими или смешанными данными реальных и синтетических источников.

Я создал новую тройную гибридную модель языковой модели с менее чем 1 миллиард параметров за ~$50

Совмещение LLM с использованием скрытой обратной связи пользователя

Совмещение LLM с использованием скрытой обратной связи пользователя

ScaffoldAgent: Утилиты-ориентированный динамический оптимизацией структуры

Падение и восстановление точности маршрутизации в системах агентов предприятий

Большие языковые модели не могут точно переводить фонгбэ

MixedPEFT: Единая PEFT для необученной адаптации домена

BabelJudge: Оценка надежности LLM-как-судьи на разных языках и в траекториях агентов

SciTraj: типизированный цитатный граф с подтверждением утверждений для эволюции научных исследований

Приложение Curiosity как лингвистическое вмешательство в обучение с помощью ЛЛМ

Разнообразие персонажей в историях, сгенерированных LLM

РОМЕВА: Расширение словаря с сохранением геометрии для моделей языка романского урду

MacAgentBench запускает бенчмарк AI-агента для macOS

Концептуально-ограниченное обучение промптов для адаптации CLIP при небольшом количестве примеров

Объемный набор данных по распознаванию знаков кундриф и пайплайн OCR

Использование международного фонетического алфавита для токенизации улучшает производительность многоречевых моделей языка

ConceptE: расширение событийной семантики с использованием больших языковых моделей

Многоэтикетковая аннотация эмоций: анализ согласованности и мягких голосов

FiLM-координированный двойной ветвевой трансформатор для моделирования языка

Синтетическая аудиофреймворк улучшает распознавание речи в системах воздушного транспорта