Тема · Research paper
arxiv arXiv cs.CL · 2 д назад

OpenBioRQ: Бенчмарк для верности агентных исследований в биомедицине

OpenBioRQ вводит бенчмарк из 12 553 нерешённых вопросов в области биомедицинских исследований в 12 областях, разработанный для проверки верности и отказа агентных моделей. Он оценивает модели в условиях использования инструментов без ключей ответов, используя реальные доказательства последующих шагов, а не параметрические знания, и показывает значительное падение агентной способности на самые сложные вопросы, где инструменты больше не используются, несмотря на их критическую важность.

media Hugging Face Forums · 3 д назад

Я создал новую тройную гибридную модель языковой модели с менее чем 1 миллиард параметров за ~$50

Mateusz разработал полностью предобученную модель языка Project Inkblot's Titan v1, объединяющую Mamba SSM, Multi-Head Attention и 32-экспертную MoE в одной архитектуре декодера-только, с менее чем 1 миллиард параметров. Модель, обученная на одном GPU NVIDIA L4 за ~$50, достигает значения перпексивности 27.5 на валидационной выборке и демонстрирует эффективное масштабирование при изменении одной строки конфигурации, при этом все компоненты реализованы с нуля на PyTorch. Первый цикл обучения Titan v2 теперь завершён, и происходит расширение датасета.

arxiv arXiv cs.LG · 6 д назад

Совмещение LLM с использованием скрытой обратной связи пользователя

Новый набор данных IFLLM собирает данные о перемещении мыши и взгляде пользователя при взаимодействии с LLM. Он показывает, что скрытая обратная связь значительно улучшает выравнивание LLM, повышая точность текстовых моделей вознаграждения с 55% до 64% и почти втрое увеличивая качество ответов после обучения DPO на восьми LLM.

arxiv arXiv cs.CL · 6 д назад

Совмещение LLM с использованием скрытой обратной связи пользователя

Новый набор данных IFLLM собирает данные о перемещении мыши и взгляде пользователя при взаимодействии с LLM. Он показывает, что скрытая обратная связь значительно улучшает выравнивание LLM, повышая точность текстовых моделей вознаграждения с 55% до 64% и почти утрачивая качество ответов после обучения DPO на восьми LLM.

arxiv arXiv cs.AI · 6 д назад

ScaffoldAgent: Утилиты-ориентированный динамический оптимизацией структуры

ScaffoldAgent вводит рамку с утилиты-ориентированным управлением для динамической оптимизации структуры в открытых глубоких исследованиях. Он моделирует эволюцию структуры через операции расширения, сжатия и редактирования, управляемые механизмом обратной связи, оценивающим прирост поиска, структурную целостность и качество генерации. Эксперименты показывают, что он улучшает генерацию длинных отчётов и фактическую опору по сравнению с существующими агентами.

arxiv arXiv cs.CL · 8 д назад

Падение и восстановление точности маршрутизации в системах агентов предприятий

При увеличении каталога инструментов агентов предприятий от 10 до 110 агентов, точность маршрутизации снижается на 16--23 процентных пункта при запросах с недостаточным описанием. Анализ с использованием оракула выявляет разрывы в извлечении и путанице, при использовании базы векторных представлений для сокращения списка результатов восстанавливается +10--11pp F1. Изучение 1435 изъятий с участием человека подтверждает реальное восстановление +10--17pp, несмотря на более низкую абсолютную производительность.

arxiv arXiv cs.CL · 2 д назад

Владение рекомендациями ИИ: эмпирическая карта владения брендами в категории

Исследование 3750 запросов в пяти отраслях показало умеренную концентрацию рекомендаций, с средним коэффициентом Гини в 0,28. Согласие между моделями по рекомендованным брендам составило только 41,6%, а показатели смещения варьировались в зависимости от отрасли, от 0,4:1 до 4,3:1. Результаты противоречат концепции «победитель получает всё» и вводят три воспроизводимых метрики для анализа конкуренции.

media Hugging Face Forums · 2 д назад

Самые интересные теоретические темы ИИ с реальной базой ИИ-систем

Разговор охватывает теоретические темы ИИ, имеющие математические основания и возможность реализации в современных ИИ-системах, таких как большие языковые модели. Темы включают цепочки рассуждений, графы знаний и вероятностное рассуждение, все из которых основаны на формальной математике и демонстрируют потенциал для реальных применений в ИИ.

arxiv arXiv cs.CL · 2 д назад

Модель TTS на основе потока-соответствия имитирует эффект Ломбарда

Вводится модель текста к голосу на основе потока-соответствия для имитации эффекта Ломбарда, при котором люди говорят громче и четче в шумных условиях. Модель обеспечивает непрерывный и раздельный контроль за усилием голоса и произношением, с акцентом на уровне слов для обеспечения четкости. Эксперименты показывают улучшенную акустическую четкость и понятность в шумных условиях по сравнению с базовыми системами.

arxiv arXiv cs.CL · 2 д назад

KDoS: Распределение-оптимизированное синтезирование для расширения знаний в LLM

KDoS вводит плотность знаний для направления синтеза данных через триэтапную обратную связь. Эксперименты на моделях от 0,6B до 16B и масштабах данных от 1B до 5B токенов показывают, что оптимальное распределение знаний стабильно максимизирует расширение границ знаний, устойчиво работает на различных архитектурах моделей и превосходит базовые методы на шести бенчмарках знаний.

arxiv arXiv cs.CL · 2 д назад

Разрыв оракульной CTC: акустическая выгорание и лингвистическая реконструкция

Внутренние оценки CTC показывают отсутствие улучшения WER по сравнению с грубым декодированием на LibriSpeech, при этом акустическая уверенность не коррелирует с лингвистической обоснованностью. Декодирование с использованием MBR и RoBERTa PLL достигает WER 5,42%, что превышает результат грубого декодирования на 0,535 пункта, демонстрируя, что лингвистическая информация может преодолеть предел насыщения CTC.

arxiv arXiv cs.CL · 2 д назад

Tmax: Простая рецептура RL для агентов-конечных

Tmax представляет наиболее сильную открытую рецептуру для агентов-конечных, достигая 27% на Terminal-Bench 2.0 с использованием только 9B параметров. Он использует новую классификацию данных для генерации более чем на 2,5 раза больше окончательных сред, что позволяет эффективно обучать с простой рецептурой, ориентированной только на результат. Данные, модели и код доступны на GitHub по адресу https://github.com/hamishivi/tmax.

arxiv arXiv cs.CL · 2 д назад

WaveDetect: Фреймворк для обнаружения машинно-генерируемого текста с помощью преобразования волны

WaveDetect вводит подход обработки сигналов, использующий непрерывное преобразование волны для обнаружения машинно-генерируемого текста путем идентификации спектральных отпечатков. Оно превосходит существующие методы по точности и устойчивости к атакам, сдвигам доменов и развивающимся LLM, демонстрируя сильную обобщаемость на наборах RAID, EvoBench и Domain-Shift.

arxiv arXiv cs.CL · 2 д назад

При этом пространства встраивания LLM восстанавливают структуру экспертов?

Встраивания, обученные на предварительных LLM, показывают измеримую сопоставимость с структурой симптомов психического здоровья, определенной экспертами. Повышение точности сопоставления усиливается при тонкой настройке, особенно на уровне мелких категорий, при этом большие размеры моделей улучшают как производительность без обучения, так и при обучении под наблюдением. Остаточная сопоставимость сохраняется при учете лингвистических и стилистических факторов, что указывает на то, что восстановление структуры экспертов является уровневым и требует явного тестирования конфундирующих факторов.

arxiv arXiv cs.CL · 2 д назад

Рост военно-ориентированной лексики в научных абстрактах

Между 2010 и 2025 годами количество военно-ориентированных терминов в научных абстрактах увеличилось на 48% в OpenAlex и на 32% в PubMed, с резким ростом после 2019 года. Использование такой лексики соответствует уровням глобальных конфликтов и растет наиболее быстро в публикациях из Южной части мира, особенно в социальных науках и инженерии. Контролируемый эксперимент показал, что военная интерпретация снижает восприятие надежности, готовность к финансированию и поддержку политики, при этом наблюдается лишь незначительное увеличение остроты.

arxiv arXiv cs.CL · 2 д назад

SVD-Surgeon: Оптимальная операция по значениям сингулярных для сжатия LLM

SVD-Surgeon — это метод без обучения, который применяет рамку Оптимального врача-мозга к разложению по сингулярным значениям. Он вычисляет замкнутую форму обновления для сохраняемых сингулярных значений для компенсации обрезки, улучшая баланс между перплексностью и сжатием на моделях OPT и LLaMA 2-7B без переподготовки.

arxiv arXiv cs.CL · 2 д назад

Модели с уменьшающимся количеством параметров повышают производительность

Модели с уменьшающимся количеством параметров (TLMs) распределяют больше параметров на более ранние слои и меньше — на более поздние, что снижает перплексность и повышает производительность на тестовых наборах данных при различных архитектурах. Такое распределение емкости, учитывающее глубину модели, улучшает выводы языковых моделей без увеличения вычислительных ресурсов или количества параметров, предлагая простую и универсальную принципиальную основу.

arxiv arXiv cs.CL · 2 д назад

NL2Scratch: Выполнимый бенчмарк для генерации NL-to-Scratch

NL2Scratch представляет выполнимый бенчмарк, содержащий 311 648 пар парсера-валидных программ на языке NL, полученных из реальных проектов Scratch. В нем предложена семантическая согласованность (SAC) для измерения семантического согласия, проверена 23 594 примера и создана балансированная диагностическая база из 800 слотов. Эксперименты показывают значительное расхождение между лексической схожестью и семантической согласованностью, при этом модели, достигающие высокого F1 на уровне токенов, часто не достигают полной SAC, особенно на более длинных примерах.

arxiv arXiv cs.CL · 2 д назад

Web Data Recipe for Medical Encoder Pretraining

Новый метод использует фильтрацию на основе плотности медицинских терминов и усиление сигнала за счёт переформулировки, чтобы улучшить предобучение медицинских энкодеров на французском языке. Подход превосходит фильтры образовательного качества и приводит к моделям FineMed и DoctoBERT, достигающим лучших результатов на DrBenchmark и задаче распознавания клинических сущностей.

arxiv arXiv cs.CL · 2 д назад

Множественные эпистемологии в ИИ-технологиях языка

Статья утверждает, что культурная согласованность в NLP требует множественных эпистемологий, а не только разнообразных данных. Автор предлагает социотехническую модель для анализа того, как различные, локально обоснованные способы знания могут быть интегрированы в технологии языка, подчеркивая, что существующие подходы часто не учитывают глубокие вопросы власти и управления.