Training data — korshunov.ai — новости ML

Тема · Training data

Центрированный на данных подход улучшает долгосрочное мышление в больших языковых моделях, используя восемь отобранных наборов данных с 14 тысячами примерами в задачах поиска, синтеза многоуровневых доказательств и мышления. При сочетании с минимальным обучением на основе результатов GRPO достигается средний рост на 7,2 до 6,4 баллов на семи бенчмарках, превосходя предыдущие наборы обучения по релевантности, и улучшает агентную производительность на 4,8 и 7,0 баллов соответственно на GAIA и BrowseComp.

arxiv arXiv cs.AI · 7 д назад

Данные рецепт улучшает долгосрочное мышление в больших языковых моделях

Центрированный на данных подход улучшает долгосрочное мышление в больших языковых моделях, используя восемь отобранных наборов данных с 14 тысячами примерами в задачах поиска, синтеза многочисленных доказательств и мышления. При сочетании с минимальным обучением на основе результатов GRPO, он достигает средних приростов на 7,2 до 6,4 баллов на семи бенчмарках, превосходя предыдущие наборы для обучения по методу RL, и улучшает агентную производительность на 4,8 и 7,0 баллов соответственно на GAIA и BrowseComp.

arxiv arXiv cs.CL · 8 д назад

Функции LLM могут навредить GNN через интерференцию при конкатенации

Конкатенация функций, сгенерированных LLM, к графовым нейронным сетям систематически снижает точность на тестах с гомофильными данными, при этом точность PubMed снижается на -17,0 ± 0,3 pp. Эта деградация связана с дискриминативностью LLM в отдельности (Delta_sig), которая коррелирует сильно с затратами на конкатенацию (r² = 0,38) и демонстрирует степенную зависимость от размера признаков и количества узлов (r² = 0,97), особенно в условиях низкого Delta_sig и низкого количества узлов.

arxiv arXiv cs.CL · 6 д назад

TerraMARS: Пайплайн малого языкового моделирования для литературы по трансформации Марса

TerraMARS — это пайплайн, который использует малую языковую модель, адаптированную к области, для извлечения структурированной информации из научной литературы по Марсу. Он преобразует неструктурированный текст в формат JSON и поддерживает ответы на вопросы, связанные с трансформацией Марса, что позволяет интегрировать его в моделирование пригодности для жизни и цифровых двойников. Пайплайн использует Google Gemma 3 1B, тонко настроенную с использованием QLoRA на наборах данных, специфичных для Марса, хотя требуется дальнейшая работа для повышения точности и фактической согласованности.

media r/LocalLLaMA · 7 д назад

У кого есть достаточно вычислительных ресурсов, чтобы создать дистилляционный датасет из GLM5.2?

Пользователь спрашивает, у кого есть достаточные вычислительные ресурсы, чтобы создать большой дистилляционный датасет из 700 000 до 1 миллиона примеров из GLM5.2. Цель — улучшить обучение более маленьких моделей, таких как Qwen3.5, и помочь более широкой сообществу.

arxiv arXiv cs.LG · 7 д назад

Автоматизированный фреймворк для задержанных и ложных триггеров системы аварийного торможения

Новая автоматизированная система решает проблему экстремального несбалансированного класса и асимметричной шумовой помехи в данных автономной системы аварийного торможения. Она использует целенаправленное расширение данных и подавление шума для выявления редких задержанных и ложных триггеров с улучшением выявления на 80% и сокращением ручной аннотации на 50%, что позволяет обеспечивать непрерывное самоулучшение в оптимизации системы аварийного торможения в автомобиле.

arxiv arXiv cs.CL · 7 д назад

CDDTLDA: Перенос обучения для дискриминации китайских диалектов

Новую архитектуру под названием CDDTLDA было предложено использовать перенос обучения и усреднение данных для решения задачи дискриминации китайских диалектов при ограниченной аннотации. Модель ASR источника обучается на крупном корпусе диалектов, к ним применяются усреднение скорости, тона и шума для диалектов с низким уровнем ресурсов, а затем модель ASR цели тонко настраивается с использованием самовнимания для выявления общих семантических признаков. Экспериментальные результаты показывают, что CDDTLDA превосходит самые передовые методы на двух проверочных корпусах китайских диалектов.

arxiv arXiv cs.CL · 7 д назад

RegMix-D: динамическое смешивание данных за счёт траекторий обучения через прокси

RegMix-D расширяет RegMix, используя полные траектории потерь из прокси-запусков для динамического выбора смесей данных. Он превосходит RegMix и DoReMi по 13 задачам на последующем этапе, достигая превосходных результатов при использовании всего 128 прокси-моделей — 25% вычислительного бюджета RegMix.

arxiv arXiv cs.CL · 7 д назад

SAMA: Единая платформа для расширения мультимодальных данных в условиях низкой ресурсности

SAMA представляет единую платформу, генерирующую синтетические данные высокого качества и ориентированные на задачу, путем синхронизации семантических опор между модальностями. Используется коллаборативная мультимодальная модель с несколькими экспертами, с общей и задачеспецифической адаптацией, и применяется механизм диффузии с сохранением опор для синтеза изображений, обеспечивая семантическую согласованность при разнообразии визуальных контекстов. Широкие эксперименты показывают, что SAMA превосходит самые современные методы по MNER, MRE и MEE при низком уровне ресурсов.

arxiv arXiv cs.CL · 7 д назад

Дистилляция с синтетическими данными для анализа финансового настроения

Фреймворк передает знания от крупных инструкционно настроенных моделей к компактным моделям с помощью синтетических данных, сгенерированных с помощью структурированного малошагового запроса. Выбор семян на основе кластеризации обеспечивает более репрезентативные синтетические примеры по сравнению с случайным выбором, позволяя компактным моделям достигать высокой производительности при минимальном количестве ручной метки. На сложных, шумных финансовых текстах учащая модель превосходит учителя, при этом оставаясь конкурентоспособной на официальных текстах.

media Latent Space · 8 д назад

Radical AI достигает ускорения в 10 раз в открытии материалов

Radical AI ускорил открытие материалов, создав и исследуя 1200 сплавов за шесть месяцев — почти в 10 раз быстрее, чем цель DARPA/GE MACH по созданию 500 сплавов за год. Их автономные лаборатории используют искусственных ученых для генерации и проверки гипотез в замкнутых системах, что привело к созданию 300 новых материалов, из которых 10 демонстрируют новые, передовые свойства, которые сейчас разрабатываются для коммерческого применения.

arxiv arXiv cs.LG · 8 д назад

Функции LLM могут негативно влиять на GNN через интерференцию при конкатенации

Конкатенация признаков, сгенерированных LLM, к графовым нейронным сетям систематически снижает точность на тестах с гомофильными данными, при этом точность PubMed снижается на -17.0 +/- 0.3 pp. Измерение дискриминативности LLM в отдельности, Delta_sig, коррелирует с производительностью конкатенации (r^2 = 0.38), и правило на основе Delta_sig <= 13.8 pp корректно предсказывает отсутствие положительного влияния в 7 из 9 датасетов.

arxiv arXiv cs.AI · 8 д назад

Внешний выпуск данных по заявкам Стэнфорда

Стэнфорд представляет SEFD, открытую, лаи-точную реконструкцию заявлений SEC в формате MultiMarkdown. Данный набор данных SEFD-v1 объемом 152 миллиарда токенов позволяет проводить финансовые моделирования и включает бенчмарки для прогнозирования и транскрипции таблиц, при этом пересечения с Common Crawl составляют менее 0,1%.

arxiv arXiv cs.AI · 9 д назад

FusionRS: Первый масштабный датасет RGB-инфракрасного дистанционного зондирования

FusionRS представляет первый масштабный датасет RGB-инфракрасно-текстового типа для моделирования визуально-языковых моделей дистанционного зондирования. Он синхронизирует RGB и инфракрасные изображения с инфракрасно-осознанными описаниями, позволяя использовать двумодальные визуально-языковые основные модели. Эксперименты показывают улучшение синхронизации RGB-инфракрасных изображений, поиска и описания, при этом исследования с устранением факторов подтверждают критическую роль модальности-специфического текстового надзора.

arxiv arXiv cs.LG · 6 д назад

Кадр VibrantForests отображает структуру лесов с разрешением 10 метров

Кадр VibrantForests использует данные спутников, обученные на образцах лазерного сканирования, для создания ежегодных, полных по территории карт покрытия крон, высоты, биомассы, базовой площади и квадратичного среднего диаметра на территории непрерывного Соединённых Штатов с разрешением 10 метров. Он повышает точность, сокращая переоценку в редких лесах и недооценку в плотных лесах, расширяя диапазон надежных прогнозов за пределы традиционных моделей, основанных на пассивных сенсорах.

arxiv arXiv cs.LG · 6 д назад

Гибридная модель предсказывает динамику микроорганизмов в почвенных системах

Новая гибридная модель использует геномные данные и нейронные сети для прогнозирования биокинетических параметров в моделях распада органического вещества в почве. В нее включены экологические ограничения, чтобы обеспечить реалистичную динамику микроорганизмов, даже для неизмеряемых переменных, и превосходит существующие методы как на синтетических, так и на реальных данных при минимальном объеме обучающих данных.

arxiv arXiv cs.CL · 6 д назад

Алгоритм для определения нот и ключей в музыкальной транскрипции

Новый алгоритм оценивает названия нот, ключи и локальные шкалы на основе входных данных, аналогичных MIDI, путем совместной оптимизации модальных и тональных стадий. Он был проверен на жазз-сопровождениях, соло-транскрипциях, традиционных мелодиях и классических пьесах для пианино, с дополнительными расстояниями, определенными между распространенными жазз-шкалами для музыкальных исследований.

arxiv arXiv cs.CL · 6 д назад

CzechDocs: Параллельный набор данных для перевода документов на малые языки

CzechDocs — это многоканальный параллельный набор данных, содержащий оформленные документы в форматах HTML, DOCX и PDF, охватывающие чешский язык и малые языки, такие как украинский, английский, вьетнамский и русский. Набор поддерживает оценку систем машинного перевода, сохраняющих форматирование документов, и включает подмножество для проверки и открытый инструментарий для оценки. Будет использоваться отдельный тестовый набор для будущего совместного задания по переводу документов с сохранением форматирования.

media r/LocalLLaMA · 7 д назад

LocalLLaMA предлагает датасет для программирования, созданный сообществом

Инициатива сообщества предлагает создать датасет для программирования, собранный в ходе совместной работы, чтобы позволить разработке локальных моделей языковой обработки. Предложение направлено на то, чтобы позволить любому пользователю с оборудованием внести данные, при этом более мощные пользователи могут помогать в тонкой настройке или квантовании моделей, тем самым снижая зависимость от моделей, выпускаемых компаниями.

arxiv arXiv cs.LG · 7 д назад

XGBoost-Forget для машинного забвения в обнаружении сетевых инцидентов

XGBoost-Forget обеспечивает эффективное машинное забвение для моделей XGBoost на табличных сетевых данных об инцидентах. Оно сохраняет производительность модели, при этом обеспечивает более быстрое забвение по сравнению с полным переобучением, решая пробел в исследованиях машинного забвения для табличных данных в обнаружении сетевых инцидентов.

Данные рецептура повышает долгосрочное мышление в больших языковых моделях

Данные рецепт улучшает долгосрочное мышление в больших языковых моделях

Функции LLM могут навредить GNN через интерференцию при конкатенации

TerraMARS: Пайплайн малого языкового моделирования для литературы по трансформации Марса

У кого есть достаточно вычислительных ресурсов, чтобы создать дистилляционный датасет из GLM5.2?

Автоматизированный фреймворк для задержанных и ложных триггеров системы аварийного торможения

CDDTLDA: Перенос обучения для дискриминации китайских диалектов

RegMix-D: динамическое смешивание данных за счёт траекторий обучения через прокси

SAMA: Единая платформа для расширения мультимодальных данных в условиях низкой ресурсности

Дистилляция с синтетическими данными для анализа финансового настроения

Radical AI достигает ускорения в 10 раз в открытии материалов

Функции LLM могут негативно влиять на GNN через интерференцию при конкатенации

Внешний выпуск данных по заявкам Стэнфорда

FusionRS: Первый масштабный датасет RGB-инфракрасного дистанционного зондирования

Кадр VibrantForests отображает структуру лесов с разрешением 10 метров

Гибридная модель предсказывает динамику микроорганизмов в почвенных системах

Алгоритм для определения нот и ключей в музыкальной транскрипции

CzechDocs: Параллельный набор данных для перевода документов на малые языки

LocalLLaMA предлагает датасет для программирования, созданный сообществом

XGBoost-Forget для машинного забвения в обнаружении сетевых инцидентов