Тема · Research paper
media Hugging Face Forums · 3 д назад

Я создал новую тройную гибридную модель языковой модели с менее чем 1 миллиард параметров за ~$50

Mateusz разработал полностью предобученную модель языка Project Inkblot's Titan v1, объединяющую Mamba SSM, Multi-Head Attention и 32-экспертную MoE в одной архитектуре декодера-только, с менее чем 1 миллиард параметров. Модель, обученная на одном GPU NVIDIA L4 за ~$50, достигает значения перпексивности 27.5 на валидационной выборке и демонстрирует эффективное масштабирование при изменении одной строки конфигурации, при этом все компоненты реализованы с нуля на PyTorch. Первый цикл обучения Titan v2 теперь завершён, и происходит расширение датасета.

arxiv arXiv cs.LG · 6 д назад

Совмещение LLM с использованием скрытой обратной связи пользователя

Новый набор данных IFLLM собирает данные о перемещении мыши и взгляде пользователя при взаимодействии с LLM. Он показывает, что скрытая обратная связь значительно улучшает выравнивание LLM, повышая точность текстовых моделей вознаграждения с 55% до 64% и почти втрое увеличивая качество ответов после обучения DPO на восьми LLM.

arxiv arXiv cs.CL · 6 д назад

Совмещение LLM с использованием скрытой обратной связи пользователя

Новый набор данных IFLLM собирает данные о перемещении мыши и взгляде пользователя при взаимодействии с LLM. Он показывает, что скрытая обратная связь значительно улучшает выравнивание LLM, повышая точность текстовых моделей вознаграждения с 55% до 64% и почти утрачивая качество ответов после обучения DPO на восьми LLM.

arxiv arXiv cs.AI · 6 д назад

ScaffoldAgent: Утилиты-ориентированный динамический оптимизацией структуры

ScaffoldAgent вводит рамку с утилиты-ориентированным управлением для динамической оптимизации структуры в открытых глубоких исследованиях. Он моделирует эволюцию структуры через операции расширения, сжатия и редактирования, управляемые механизмом обратной связи, оценивающим прирост поиска, структурную целостность и качество генерации. Эксперименты показывают, что он улучшает генерацию длинных отчётов и фактическую опору по сравнению с существующими агентами.

arxiv arXiv cs.CL · 9 д назад

Падение и восстановление точности маршрутизации в системах агентов предприятий

При увеличении каталога инструментов агентов предприятий от 10 до 110 агентов, точность маршрутизации снижается на 16--23 процентных пункта при запросах с недостаточным описанием. Анализ с использованием оракула выявляет разрывы в извлечении и путанице, при использовании базы векторных представлений для сокращения списка результатов восстанавливается +10--11pp F1. Изучение 1435 изъятий с участием человека подтверждает реальное восстановление +10--17pp, несмотря на более низкую абсолютную производительность.

arxiv arXiv cs.CL · 3 д назад

Объемный набор данных по распознаванию знаков кундриф и пайплайн OCR

Вводится новый набор данных с 173 и 106 классами знаков, позволяющий реализовать конечный кундриф OCR. Модель на основе DETR обеспечивает улучшение на 28-37% по сравнению с предыдущими работами по метрикам COCO, распознавая почти 2,9 миллиона знаков на 87 668 фрагментах табличек из корпуса eBL.

arxiv arXiv cs.CL · 3 д назад

Использование международного фонетического алфавита для токенизации улучшает производительность многоречевых моделей языка

Новый подход использует Международный фонетический алфавит для создания токенизаторов, независимых от языка, для многоречевых моделей. Обучение сопоставленных текстов и токенизаторов на подсловах для 24 языков и 14 письменных систем показывает, что токенизаторы на основе фонетики улучшают качество токенизации, особенно для нелатинских письменных систем, и лучше обобщаются на неизвестные языки и письменные системы.

arxiv arXiv cs.CL · 3 д назад

ConceptE: расширение событийной семантики с использованием больших языковых моделей

ConceptE представляет рамку, использующую большие языковые модели для извлечения семантики на уровне концепций из триггеров событий, что позволяет достигать более согласованных кластеров событий и надежного расширения иерархии. Эксперименты на ACE, ERE и MAVEN показывают, что ConceptE превосходит существующие методы, обеспечивая до 12,37% улучшения по BCubed-F1 и 6,48% по Taxo_F1.

arxiv arXiv cs.CL · 3 д назад

Многоэтикетковая аннотация эмоций: анализ согласованности и мягких голосов

В случае исследования оценивается, как вариация аннотаторов и методы агрегации влияют на многоэтикетковую аннотацию эмоций. В статье показано, что мягкие голосовые метки, включая варианты с учетом интенсивности, лучше отражают неопределенность аннотаторов и улучшают соответствие модели эмпирической вариабельности по сравнению с жесткими метками.

arxiv arXiv cs.CL · 3 д назад

FiLM-координированный двойной ветвевой трансформатор для моделирования языка

Новая архитектура трансформатора вводит отдельные глобальные и локальные ветви для моделирования языка, используя FiLM для динамической координации этих ветвей. Эксперименты показывают, что она превосходит одноветвевые и ослабленные двойные ветви на малых наборах данных, таких как TinyShakespeare и WikiText-2, с стабильными результатами при различных семенах и паттернах выборочного модуляции.

arxiv arXiv cs.CL · 3 д назад

Синтетическая аудиофреймворк улучшает распознавание речи в системах воздушного транспорта

Вводится синтетическая система генерации аудио для решения проблемы недостатка данных в распознавании речи в системах воздушного транспорта. Она использует нейронные методы, такие как текст-в-речь и преобразование интонации, для имитации неанглийских акцентов, что повышает эффективность автоматического распознавания речи. Эксперименты с моделью Whisper на корпусе ATCO2 показывают снижение ошибок распознавания слов при тонкой настройке с синтетическими или смешанными данными реальных и синтетических источников.

arxiv arXiv cs.CL · 3 д назад

Экономические сдвиги и культурная эволюция в французской драме

Французская драма демонстрирует переход от аристократических к буржуазным темам при развитии капитализма. Буржуазные темы реагировали на шоки ВВП с 18-го века, а домашние экономические вопросы стали чувствительными только после 1820 года. Взаимодействие эффектов равенства и экономической чувствительности объясняет этот переход, что подтверждается симуляциями.

arxiv arXiv cs.CL · 3 д назад

Двухэтапная синхронизация улучшает педагогику математического репетитора

Двухэтапная схема синхронизации повышает педагогическую производительность крупных языковых моделей при исправлении ошибок в математике. Подход объединяет обучение под руководством супервизоров и прямую оптимизацию предпочтений с использованием синтетических данных по структурированию и фактичности, превосходя базовые и существующие репетиторские модели как по точности, так и по качеству преподавания. Оценки людьми показывают, что модель конкурирует с проприетарной базой, обеспечивая большую открытость и воспроизводимость.

arxiv arXiv cs.CL · 3 д назад

PeerMathDial: Первый датасет по решению математических задач в парах между учащимися

PeerMathDial — первый датасет, содержащий диалоги о совместном решении математических задач между учащимися в средних классах. В него включены 55 диалогов из 27 учеников, в сумме 6406 шагов, и включает корпоративную классификацию диалоговых действий. Датасет позволяет проводить исследования по эволюции диалогов, связи между личностными характеристиками учеников и их поведением, а также оценку производительности языковых моделей при имитации взаимодействий между учениками.

media r/LocalLLaMA · 3 д назад

TMax: Простой рецепт для агентов в терминале

TMax представляет TMax-15k, набор из 14 600 сред RL, превышающий на более чем 2,5 раза самый большой открытый набор сред в терминале. Также предлагается простой рецепт RL, который обучает открытые модели от 2 миллиардов до 27 миллиардов параметров, при этом TMax-9B достигает 27,2% на Terminal Bench 2.0, а TMax-27B — 42,7%.

lab Hugging Face Blog · 4 д назад

Можно ли победить LoRA при мелком настройке?

Новое исследование рассматривает альтернативы LoRA, наиболее популярному методу мелкой настройки, оценивая, могут ли другие подходы обеспечить лучшие результаты с меньшими вычислительными затратами. Исследование показывает, что хотя некоторые подходы показывают перспективы, ни один из них не демонстрирует стабильного превосходства над LoRA при различных задачах и наборах данных.

media r/LocalLLaMA · 6 д назад

Eagle3 появился для Qwen

Модель спекулятивного декодирования Eagle3 теперь доступна в последней версии llama.cpp через --spec-type draft-eagle3. Её необходимо использовать вместе с драфтовым моделью, например, Ex0bit-Qwen3.6-27B-PRISM-EAGLE3-GGUF, и включать с помощью -md или --model-draft. Производительность сравнима с draft-mtp, хотя поддержка тензорной параллелизма отсутствует и использование VRAM выше.

media r/LocalLLaMA · 6 д назад

Охо-Сейт-Университет выпускает открытый Deep Research-агент QUEST-35B

Команда NLP Охо-Сейт-Университета выпустила QUEST-35B, открытый Deep Research-агент, обученный на примерно 32 картах H100 с использованием 8 000 синтетических образцов. Команда открыла доступ к рецепту обучения, коду, весам и наборам данных, при этом результаты тестирования показывают конкурентоспособную производительность по сравнению с ведущими закрытыми Deep Research-системами.

media r/LocalLLaMA · 6 д назад

Охо-Сейт-Университет выпускает открытый Deep Research-агент QUEST-35B

Исследователи из Охо-Сейт-Университета обучили агента Deep Research QUEST-35B с использованием приблизительно 32 GPU H100 и 8 000 синтетических образцов. Они опубликовали рецепт обучения, код, веса и датасеты, при этом результаты тестирования показывают конкурентоспособную производительность по сравнению с ведущими закрытыми системами Deep Research.

arxiv arXiv cs.AI · 6 д назад

DeepSWIP: контрфактальное мышление в нейронной вероятностной логике

DeepSWIP вводит односветовое контрфактальное семантическое представление для DeepProbLog, позволяя проводить причинные рассуждения через нейронную материализацию и взвешенное моделирование. Оно обеспечивает точное вычисление при конечной грундинге и предположении о единственном поддерживаемом моделировании, эксперименты показывают ускорение в 2,14 раза и улучшенную калибровку по сравнению с оценщиками DeepTwin и AIPW.