Тема · Research paper
media Hugging Face Forums · 3 д назад

Я создал новую тройную гибридную модель языковой модели с менее чем 1 миллиард параметров за ~$50

Mateusz разработал полностью предобученную модель языка Project Inkblot's Titan v1, объединяющую Mamba SSM, Multi-Head Attention и 32-экспертную MoE в одной архитектуре декодера-только, с менее чем 1 миллиард параметров. Модель, обученная на одном GPU NVIDIA L4 за ~$50, достигает значения перпексивности 27.5 на валидационной выборке и демонстрирует эффективное масштабирование при изменении одной строки конфигурации, при этом все компоненты реализованы с нуля на PyTorch. Первый цикл обучения Titan v2 теперь завершён, и происходит расширение датасета.

arxiv arXiv cs.LG · 6 д назад

Совмещение LLM с использованием скрытой обратной связи пользователя

Новый набор данных IFLLM собирает данные о перемещении мыши и взгляде пользователя при взаимодействии с LLM. Он показывает, что скрытая обратная связь значительно улучшает выравнивание LLM, повышая точность текстовых моделей вознаграждения с 55% до 64% и почти втрое увеличивая качество ответов после обучения DPO на восьми LLM.

arxiv arXiv cs.CL · 6 д назад

Совмещение LLM с использованием скрытой обратной связи пользователя

Новый набор данных IFLLM собирает данные о перемещении мыши и взгляде пользователя при взаимодействии с LLM. Он показывает, что скрытая обратная связь значительно улучшает выравнивание LLM, повышая точность текстовых моделей вознаграждения с 55% до 64% и почти утрачивая качество ответов после обучения DPO на восьми LLM.

arxiv arXiv cs.AI · 6 д назад

ScaffoldAgent: Утилиты-ориентированный динамический оптимизацией структуры

ScaffoldAgent вводит рамку с утилиты-ориентированным управлением для динамической оптимизации структуры в открытых глубоких исследованиях. Он моделирует эволюцию структуры через операции расширения, сжатия и редактирования, управляемые механизмом обратной связи, оценивающим прирост поиска, структурную целостность и качество генерации. Эксперименты показывают, что он улучшает генерацию длинных отчётов и фактическую опору по сравнению с существующими агентами.

arxiv arXiv cs.CL · 9 д назад

Падение и восстановление точности маршрутизации в системах агентов предприятий

При увеличении каталога инструментов агентов предприятий от 10 до 110 агентов, точность маршрутизации снижается на 16--23 процентных пункта при запросах с недостаточным описанием. Анализ с использованием оракула выявляет разрывы в извлечении и путанице, при использовании базы векторных представлений для сокращения списка результатов восстанавливается +10--11pp F1. Изучение 1435 изъятий с участием человека подтверждает реальное восстановление +10--17pp, несмотря на более низкую абсолютную производительность.

arxiv arXiv cs.CL · 2 д назад

Многоэтикетковая аннотация эмоций: анализ согласованности и мягких голосов

В случае исследования оценивается, как вариация аннотаторов и методы агрегации влияют на многоэтикетковую аннотацию эмоций. В статье показано, что мягкие голосовые метки, включая варианты с учетом интенсивности, лучше отражают неопределенность аннотаторов и улучшают соответствие модели эмпирической вариабельности по сравнению с жесткими метками.

arxiv arXiv cs.CL · 2 д назад

FiLM-координированный двойной ветвевой трансформатор для моделирования языка

Новая архитектура трансформатора вводит отдельные глобальные и локальные ветви для моделирования языка, используя FiLM для динамической координации этих ветвей. Эксперименты показывают, что она превосходит одноветвевые и ослабленные двойные ветви на малых наборах данных, таких как TinyShakespeare и WikiText-2, с стабильными результатами при различных семенах и паттернах выборочного модуляции.

arxiv arXiv cs.CL · 3 д назад

Синтетическая аудиофреймворк улучшает распознавание речи в системах воздушного транспорта

Вводится синтетическая система генерации аудио для решения проблемы недостатка данных в распознавании речи в системах воздушного транспорта. Она использует нейронные методы, такие как текст-в-речь и преобразование интонации, для имитации неанглийских акцентов, что повышает эффективность автоматического распознавания речи. Эксперименты с моделью Whisper на корпусе ATCO2 показывают снижение ошибок распознавания слов при тонкой настройке с синтетическими или смешанными данными реальных и синтетических источников.

arxiv arXiv cs.CL · 3 д назад

Экономические сдвиги и культурная эволюция в французской драме

Французская драма демонстрирует переход от аристократических к буржуазным темам при развитии капитализма. Буржуазные темы реагировали на шоки ВВП с 18-го века, а домашние экономические вопросы стали чувствительными только после 1820 года. Взаимодействие эффектов равенства и экономической чувствительности объясняет этот переход, что подтверждается симуляциями.

arxiv arXiv cs.CL · 3 д назад

Двухэтапная синхронизация улучшает педагогику математического репетитора

Двухэтапная схема синхронизации повышает педагогическую производительность крупных языковых моделей при исправлении ошибок в математике. Подход объединяет обучение под руководством супервизоров и прямую оптимизацию предпочтений с использованием синтетических данных по структурированию и фактичности, превосходя базовые и существующие репетиторские модели как по точности, так и по качеству преподавания. Оценки людьми показывают, что модель конкурирует с проприетарной базой, обеспечивая большую открытость и воспроизводимость.

arxiv arXiv cs.CL · 3 д назад

PeerMathDial: Первый датасет по решению математических задач в парах между учащимися

PeerMathDial — первый датасет, содержащий диалоги о совместном решении математических задач между учащимися в средних классах. В него включены 55 диалогов из 27 учеников, в сумме 6406 шагов, и включает корпоративную классификацию диалоговых действий. Датасет позволяет проводить исследования по эволюции диалогов, связи между личностными характеристиками учеников и их поведением, а также оценку производительности языковых моделей при имитации взаимодействий между учениками.

media r/LocalLLaMA · 3 д назад

TMax: Простой рецепт для агентов в терминале

TMax представляет TMax-15k, набор из 14 600 сред RL, превышающий на более чем 2,5 раза самый большой открытый набор сред в терминале. Также предлагается простой рецепт RL, который обучает открытые модели от 2 миллиардов до 27 миллиардов параметров, при этом TMax-9B достигает 27,2% на Terminal Bench 2.0, а TMax-27B — 42,7%.

lab Hugging Face Blog · 4 д назад

Можно ли победить LoRA при мелком настройке?

Новое исследование рассматривает альтернативы LoRA, наиболее популярному методу мелкой настройки, оценивая, могут ли другие подходы обеспечить лучшие результаты с меньшими вычислительными затратами. Исследование показывает, что хотя некоторые подходы показывают перспективы, ни один из них не демонстрирует стабильного превосходства над LoRA при различных задачах и наборах данных.

media r/LocalLLaMA · 6 д назад

Eagle3 появился для Qwen

Модель спекулятивного декодирования Eagle3 теперь доступна в последней версии llama.cpp через --spec-type draft-eagle3. Её необходимо использовать вместе с драфтовым моделью, например, Ex0bit-Qwen3.6-27B-PRISM-EAGLE3-GGUF, и включать с помощью -md или --model-draft. Производительность сравнима с draft-mtp, хотя поддержка тензорной параллелизма отсутствует и использование VRAM выше.

media r/LocalLLaMA · 6 д назад

Охо-Сейт-Университет выпускает открытый Deep Research-агент QUEST-35B

Команда NLP Охо-Сейт-Университета выпустила QUEST-35B, открытый Deep Research-агент, обученный на примерно 32 картах H100 с использованием 8 000 синтетических образцов. Команда открыла доступ к рецепту обучения, коду, весам и наборам данных, при этом результаты тестирования показывают конкурентоспособную производительность по сравнению с ведущими закрытыми Deep Research-системами.

media r/LocalLLaMA · 6 д назад

Охо-Сейт-Университет выпускает открытый Deep Research-агент QUEST-35B

Исследователи из Охо-Сейт-Университета обучили агента Deep Research QUEST-35B с использованием приблизительно 32 GPU H100 и 8 000 синтетических образцов. Они опубликовали рецепт обучения, код, веса и датасеты, при этом результаты тестирования показывают конкурентоспособную производительность по сравнению с ведущими закрытыми системами Deep Research.

arxiv arXiv cs.AI · 6 д назад

DeepSWIP: контрфактальное мышление в нейронной вероятностной логике

DeepSWIP вводит односветовое контрфактальное семантическое представление для DeepProbLog, позволяя проводить причинные рассуждения через нейронную материализацию и взвешенное моделирование. Оно обеспечивает точное вычисление при конечной грундинге и предположении о единственном поддерживаемом моделировании, эксперименты показывают ускорение в 2,14 раза и улучшенную калибровку по сравнению с оценщиками DeepTwin и AIPW.

arxiv arXiv cs.LG · 6 д назад

Агентный символический поиск для характеристики решений уравнений в частных производных

ASYS предлагает рамку с предварительным руководством, которая использует математическую теорию и эволюционный поиск для генерации интерпретируемых символических форм решений уравнений в частных производных. Оно создает аналитические представления для сложных задач, таких как динамика Альлена-Кэна и взрыв в модели Келлера-Сегеля, предлагая новые пути для математического анализа за пределами традиционных методов.

arxiv arXiv cs.LG · 6 д назад

Прогнозируемость как мелкое измерение для конфиденциальности

Конфиденциальность через прогнозируемость вводит рамку, измеряющую утечку конфиденциальности как способность атакующего предсказывать чувствительную информацию после наблюдения выхода алгоритма. Обычно она несопоставима с дифференциальной конфиденциальностью, но под определёнными условиями имплицирует дифференциальную конфиденциальность на основе взаимной информации, предлагая более тонкое измерение конфиденциальности, адаптированное к моделям атакующих и чувствительным данным.

arxiv arXiv cs.AI · 6 д назад

Управление задачами снижает задержку очереди на 14-75% на масштабе предприятия

Управление задачами вводит инференс приоритета, объединение связанных событий и прерывание, чтобы обеспечить непрерывную работу в корпоративной ИИ. Оно снижает задержку высокоприоритетных очередей на 14-77% и улучшает точность связанных событий более чем на 20 процентных пунктов на масштабе предприятия, решая шум при открытии агентов как основной барьер.