Research paper — korshunov.ai

Тема · Research paper

OpenBioRQ вводит бенчмарк из 12 553 нерешённых вопросов в области биомедицинских исследований в 12 областях, разработанный для проверки верности и отказа агентных моделей. Он оценивает модели в условиях использования инструментов без ключей ответов, используя реальные доказательства последующих шагов, а не параметрические знания, и показывает значительное падение агентной способности на самые сложные вопросы, где инструменты больше не используются, несмотря на их критическую важность.

media Hugging Face Forums · 3 д назад

Я создал новую тройную гибридную модель языковой модели с менее чем 1 миллиард параметров за ~$50

Mateusz разработал полностью предобученную модель языка Project Inkblot's Titan v1, объединяющую Mamba SSM, Multi-Head Attention и 32-экспертную MoE в одной архитектуре декодера-только, с менее чем 1 миллиард параметров. Модель, обученная на одном GPU NVIDIA L4 за ~$50, достигает значения перпексивности 27.5 на валидационной выборке и демонстрирует эффективное масштабирование при изменении одной строки конфигурации, при этом все компоненты реализованы с нуля на PyTorch. Первый цикл обучения Titan v2 теперь завершён, и происходит расширение датасета.

arxiv arXiv cs.LG · 6 д назад

Совмещение LLM с использованием скрытой обратной связи пользователя

Новый набор данных IFLLM собирает данные о перемещении мыши и взгляде пользователя при взаимодействии с LLM. Он показывает, что скрытая обратная связь значительно улучшает выравнивание LLM, повышая точность текстовых моделей вознаграждения с 55% до 64% и почти втрое увеличивая качество ответов после обучения DPO на восьми LLM.

arxiv arXiv cs.CL · 6 д назад

Совмещение LLM с использованием скрытой обратной связи пользователя

Новый набор данных IFLLM собирает данные о перемещении мыши и взгляде пользователя при взаимодействии с LLM. Он показывает, что скрытая обратная связь значительно улучшает выравнивание LLM, повышая точность текстовых моделей вознаграждения с 55% до 64% и почти утрачивая качество ответов после обучения DPO на восьми LLM.

arxiv arXiv cs.AI · 6 д назад

ScaffoldAgent: Утилиты-ориентированный динамический оптимизацией структуры

ScaffoldAgent вводит рамку с утилиты-ориентированным управлением для динамической оптимизации структуры в открытых глубоких исследованиях. Он моделирует эволюцию структуры через операции расширения, сжатия и редактирования, управляемые механизмом обратной связи, оценивающим прирост поиска, структурную целостность и качество генерации. Эксперименты показывают, что он улучшает генерацию длинных отчётов и фактическую опору по сравнению с существующими агентами.

arxiv arXiv cs.CL · 8 д назад

Падение и восстановление точности маршрутизации в системах агентов предприятий

При увеличении каталога инструментов агентов предприятий от 10 до 110 агентов, точность маршрутизации снижается на 16--23 процентных пункта при запросах с недостаточным описанием. Анализ с использованием оракула выявляет разрывы в извлечении и путанице, при использовании базы векторных представлений для сокращения списка результатов восстанавливается +10--11pp F1. Изучение 1435 изъятий с участием человека подтверждает реальное восстановление +10--17pp, несмотря на более низкую абсолютную производительность.

arxiv arXiv cs.CL · 2 д назад

Разрыв оракульной CTC: акустическая выгорание и лингвистическая реконструкция

Внутренние оценки CTC показывают отсутствие улучшения WER по сравнению с грубым декодированием на LibriSpeech, при этом акустическая уверенность не коррелирует с лингвистической обоснованностью. Декодирование с использованием MBR и RoBERTa PLL достигает WER 5,42%, что превышает результат грубого декодирования на 0,535 пункта, демонстрируя, что лингвистическая информация может преодолеть предел насыщения CTC.

arxiv arXiv cs.CL · 2 д назад

Tmax: Простая рецептура RL для агентов-конечных

Tmax представляет наиболее сильную открытую рецептуру для агентов-конечных, достигая 27% на Terminal-Bench 2.0 с использованием только 9B параметров. Он использует новую классификацию данных для генерации более чем на 2,5 раза больше окончательных сред, что позволяет эффективно обучать с простой рецептурой, ориентированной только на результат. Данные, модели и код доступны на GitHub по адресу https://github.com/hamishivi/tmax.

arxiv arXiv cs.CL · 2 д назад

WaveDetect: Фреймворк для обнаружения машинно-генерируемого текста с помощью преобразования волны

WaveDetect вводит подход обработки сигналов, использующий непрерывное преобразование волны для обнаружения машинно-генерируемого текста путем идентификации спектральных отпечатков. Оно превосходит существующие методы по точности и устойчивости к атакам, сдвигам доменов и развивающимся LLM, демонстрируя сильную обобщаемость на наборах RAID, EvoBench и Domain-Shift.

arxiv arXiv cs.CL · 2 д назад

При этом пространства встраивания LLM восстанавливают структуру экспертов?

Встраивания, обученные на предварительных LLM, показывают измеримую сопоставимость с структурой симптомов психического здоровья, определенной экспертами. Повышение точности сопоставления усиливается при тонкой настройке, особенно на уровне мелких категорий, при этом большие размеры моделей улучшают как производительность без обучения, так и при обучении под наблюдением. Остаточная сопоставимость сохраняется при учете лингвистических и стилистических факторов, что указывает на то, что восстановление структуры экспертов является уровневым и требует явного тестирования конфундирующих факторов.

arxiv arXiv cs.CL · 2 д назад

Рост военно-ориентированной лексики в научных абстрактах

Между 2010 и 2025 годами количество военно-ориентированных терминов в научных абстрактах увеличилось на 48% в OpenAlex и на 32% в PubMed, с резким ростом после 2019 года. Использование такой лексики соответствует уровням глобальных конфликтов и растет наиболее быстро в публикациях из Южной части мира, особенно в социальных науках и инженерии. Контролируемый эксперимент показал, что военная интерпретация снижает восприятие надежности, готовность к финансированию и поддержку политики, при этом наблюдается лишь незначительное увеличение остроты.

arxiv arXiv cs.CL · 2 д назад

SVD-Surgeon: Оптимальная операция по значениям сингулярных для сжатия LLM

SVD-Surgeon — это метод без обучения, который применяет рамку Оптимального врача-мозга к разложению по сингулярным значениям. Он вычисляет замкнутую форму обновления для сохраняемых сингулярных значений для компенсации обрезки, улучшая баланс между перплексностью и сжатием на моделях OPT и LLaMA 2-7B без переподготовки.

arxiv arXiv cs.CL · 2 д назад

Модели с уменьшающимся количеством параметров повышают производительность

Модели с уменьшающимся количеством параметров (TLMs) распределяют больше параметров на более ранние слои и меньше — на более поздние, что снижает перплексность и повышает производительность на тестовых наборах данных при различных архитектурах. Такое распределение емкости, учитывающее глубину модели, улучшает выводы языковых моделей без увеличения вычислительных ресурсов или количества параметров, предлагая простую и универсальную принципиальную основу.

arxiv arXiv cs.CL · 2 д назад

NL2Scratch: Выполнимый бенчмарк для генерации NL-to-Scratch

NL2Scratch представляет выполнимый бенчмарк, содержащий 311 648 пар парсера-валидных программ на языке NL, полученных из реальных проектов Scratch. В нем предложена семантическая согласованность (SAC) для измерения семантического согласия, проверена 23 594 примера и создана балансированная диагностическая база из 800 слотов. Эксперименты показывают значительное расхождение между лексической схожестью и семантической согласованностью, при этом модели, достигающие высокого F1 на уровне токенов, часто не достигают полной SAC, особенно на более длинных примерах.

arxiv arXiv cs.CL · 2 д назад

Web Data Recipe for Medical Encoder Pretraining

Новый метод использует фильтрацию на основе плотности медицинских терминов и усиление сигнала за счёт переформулировки, чтобы улучшить предобучение медицинских энкодеров на французском языке. Подход превосходит фильтры образовательного качества и приводит к моделям FineMed и DoctoBERT, достигающим лучших результатов на DrBenchmark и задаче распознавания клинических сущностей.

arxiv arXiv cs.CL · 2 д назад

Множественные эпистемологии в ИИ-технологиях языка

Статья утверждает, что культурная согласованность в NLP требует множественных эпистемологий, а не только разнообразных данных. Автор предлагает социотехническую модель для анализа того, как различные, локально обоснованные способы знания могут быть интегрированы в технологии языка, подчеркивая, что существующие подходы часто не учитывают глубокие вопросы власти и управления.

arxiv arXiv cs.CL · 2 д назад

BioMatrix: Первый нативно мультимодальный биологический фундаментальный модель

BioMatrix интегрирует последовательности, структуры и язык для молекул и белков в единой архитектуре с одним декодером. Оно достигает уровня передовых или конкурентных результатов на 77 из 80 задач в области последующей обработки, демонстрируя эффективные мультимодальные общие способности без внешних компонентов.

arxiv arXiv cs.CL · 2 д назад

Фреймворк лексического консенсуса показывает, что расстояние восприятия определяет обучение слов

Исследование показало, что искусственные агенты лучше усваивают визуальные значения слов, когда концепции находятся близко по восприятию, и точность усвоения сильным образом предсказывается расстоянием восприятия (частичный R² = 0,245). Взаимные оценки показывают, что производительность поиска зависит от памяти на примерах, а не от сопоставления прототипов, и замороженные визуальные векторы обеспечивают сопряжение, при этом ограничивая обучение без изменений представлений.

arxiv arXiv cs.CL · 2 д назад

Большие языковые модели не могут точно переводить фонгбэ

Оценки показывают, что переводы фонгбэ имеют низкое качество (1,0–2,2/5), в отличие от приемлемого результата в случае хауса (4,0–4,5/5), при этом наблюдается постоянный разрыв в 3 раза по BLEU. Автоматические метрики, такие как BERTScore, показывают коллапс вложений и слабую корреляцию с человеческими оценками, особенно в случае хауса, в то время как Gemini превосходит другие модели при оценке фонгбэ, а GPT-4o — при оценке хауса в человеческих оценках. Для стабильного ранжирования моделей требуется минимальный объем образцов в 2500 предложений.

arxiv arXiv cs.CL · 2 д назад

MixedPEFT: Единая PEFT для необученной адаптации домена

MixedPEFT объединяет инвертируемые адаптеры и LoRA в единой системе для обеспечения необученной адаптации домена. Он одновременно оптимизирует классификацию на исходных данных и маскированную лингвистическую модель на целевых данных, достигая улучшения на 1,41% по сравнению с UDapter, на 1,26% по сравнению с DANN и на 0,86% по сравнению с DSN, используя только 7% параметров модели.

OpenBioRQ: Бенчмарк для верности агентных исследований в биомедицине

Я создал новую тройную гибридную модель языковой модели с менее чем 1 миллиард параметров за ~$50

Совмещение LLM с использованием скрытой обратной связи пользователя

Совмещение LLM с использованием скрытой обратной связи пользователя

ScaffoldAgent: Утилиты-ориентированный динамический оптимизацией структуры

Падение и восстановление точности маршрутизации в системах агентов предприятий

Разрыв оракульной CTC: акустическая выгорание и лингвистическая реконструкция

Tmax: Простая рецептура RL для агентов-конечных

WaveDetect: Фреймворк для обнаружения машинно-генерируемого текста с помощью преобразования волны

При этом пространства встраивания LLM восстанавливают структуру экспертов?

Рост военно-ориентированной лексики в научных абстрактах

SVD-Surgeon: Оптимальная операция по значениям сингулярных для сжатия LLM

Модели с уменьшающимся количеством параметров повышают производительность

NL2Scratch: Выполнимый бенчмарк для генерации NL-to-Scratch

Web Data Recipe for Medical Encoder Pretraining

Множественные эпистемологии в ИИ-технологиях языка

BioMatrix: Первый нативно мультимодальный биологический фундаментальный модель

Фреймворк лексического консенсуса показывает, что расстояние восприятия определяет обучение слов

Большие языковые модели не могут точно переводить фонгбэ

MixedPEFT: Единая PEFT для необученной адаптации домена