Все статьи
lab Hugging Face Blog · 3 ч назад

Результаты Every Eval на страницах моделей Hugging Face

Hugging Face обновил свои страницы моделей, чтобы отображать результаты оценки из инициативы 'Every Eval', обеспечивая комплексный обзор производительности моделей по различным бенчмаркам. Эта интеграция позволяет пользователям получать доступ к широкому спектру стандартизированных метрик непосредственно в интерфейсе модельного хаба.

github llama.cpp · 3 ч назад

Выпуск llama.cpp b9848 исправляет CUDA get_rows_back и предоставляет бинарные файлы

Проект llama.cpp выпустил версию b9848, которая включает критическое исправление для бэкенда CUDA для устранения проблем с функцией `get_rows_back` на таблицах, превышающих 65535 строк. Это обновление устраняет ошибки ограничения grid-y и шага, которые ранее влияли на операции с большими таблицами.

arxiv arXiv cs.CL · 4 ч назад

В многошаговых диалогах LLM возникают аттракторные состояния

Исследование изучает, проявляют ли открытые дискуссии больших языковых моделей поведение, подобное аттракторному, анализируя траектории по семи моделям и двадцати спорным темам. Исследование сравнивает дебаты в парах «самоиграющих» и смешанных игроков, чтобы понять, как разговоры стабилизируются в наборах устойчивых паттернов поведения.

arxiv arXiv cs.CL · 4 ч назад

Генерация и принятие решений с учётом неопределённости в условиях неоднозначности

В данном исследовании оцениваются алгоритмы принятия решений с учётом неопределённости, основанные на байесовской теории принятия решений и подходах, ориентированных на избегание рисков, для задач LLM, таких как репетиторство и взаимная проверка работ. Авторы используют конформное прогнозирование для обеспечения гарантий относительно стратегий и оценок, обнаруживая, что эти методы могут повысить полезность генерации, но требуют тщательной реализации в условиях высокой неоднозначности.

arxiv arXiv cs.CL · 4 ч назад

Масштабирование горизонта, а не параметров: достижение производительности триллионных моделей с агентом на 35B

Исследователи представляют Agents-A1, модель Mixture-of-Experts на 35B параметров, которая достигает производительности, сопоставимой с моделями на триллион параметров, за счет масштабирования горизонта агента, а не количества параметров. Подход сосредоточен на расширении длинногоризонтных траекторий и объединении разнородных способностей агентов с помощью специализированной инфраструктуры обучения.

arxiv arXiv cs.CL · 4 ч назад

Самоэволюционирующие модели мира для планирования агентов LLM

В статье представлен WorldEvolver — фреймворк, который оснащает долгосрочных агентов LLM надежной способностью к предвидению за счет пересмотра контекста во время развертывания без изменения параметров модели. Он решает проблему ненадежных прогнозов, ухудшающих принятие решений, с помощью самоэволюционирующего подхода, повышающего точность предсказаний и качество планирования.

media Hugging Face Forums · 4 ч назад

Trajlens: валидатор для LeRobotDataset, проверено 100 наборов данных на Hub

Автор представляет Trajlens, линтер с открытым исходным кодом для категории LeRobotDataset на Hugging Face Hub, и сообщает о результатах аудита 100 случайных публичных наборов данных с тегом 'lerobot'. Аудит показал, что только 19 наборов данных прошли валидацию, 13 не прошли из-за конкретных ошибок в вышестоящих компонентах, а 47 столкнулись с ошибками загрузки или таймаутами.

media Hugging Face Forums · 4 ч назад

Архитектурное предложение: Эпистемологическая состязательная сеть (EAN) для открытого ИИ

Запрос функции предлагает Эпистемологическую состязательную сеть (EAN), архитектуру, предназначенную для трансформации ИИ из системы, отражающей институциональный консенсус, в децентрализованную многоперспективную систему верификации. Этот подход направлен на устранение политических и корпоративных манипуляций путем устранения любой единой «истины».

media Hugging Face Forums · 4 ч назад

Обсуждение в сообществе по открытым LLM для разработки чат-ботов

Тред обсуждения на форумах Hugging Face спрашивает пользователей, какие бесплатные или открытые ИИ-модели они в настоящее время используют для разработки чат-ботов и каковы их причины предпочтения.

media Hugging Face Forums · 4 ч назад

Топ-5 моделей, которые я могу запустить на своём железе? Без ИИ-лоботомии

Пользователь на форумах Hugging Face ищет рекомендации по моделям ИИ без цензуры, способным рассуждать о сложных темах, указывая предпочтение более ранним версиям GPT-4 перед текущими.

media r/LocalLLaMA · 5 ч назад

Как я использую локальные модели в реальной разработке

Автор делится практической настройкой для использования локальных больших языковых моделей на скромном оборудовании, а именно на ноутбуке с 32 ГБ ОЗУ и NVIDIA RTX 4070 с 8 ГБ видеопамяти. Основная стратегия заключается в запуске модели Qwen3.6-35B-A3B локально в качестве «малого кодингового агента», а сложные задачи планирования перекладываются на облачный экземпляр GLM 5.2.

arxiv arXiv cs.CL · 5 ч назад

Диагностическая рамка и многооценочный аудит динамики предпочтений, управляемой оценщиком, в самоадаптирующихся агентах LLM

В статье документируется, как измерения от проприетарных оценщиков LLM могут стать недействительными в течение нескольких недель, и предлагается рамка EPC для обнаружения такой нестабильности. Она применяется в восьми экспериментальных условиях, показывая, что версия-условная нестабильность делает исследования с одним снимком ненадежными.

arxiv arXiv cs.CL · 5 ч назад

Скрытая стоимость ресэмплинга: как коррекция дисбаланса ухудшает калибровку вероятностей в ансамблях деревьев

В данном исследовании оценивается влияние методов ресэмплинга, таких как SMOTE и случайное недосэмплирование, на калибровку вероятностей в ансамблях деревьев; установлено, что хотя стоимость SMOTE невелика, недосэмплирование сильно ухудшает калибровку.

arxiv arXiv cs.CL · 5 ч назад

Насколько хорошо локальные открытые LLM справляются с текстом в SQL? Исследование на границе размеров и методов семейства моделей BIRD

В данном исследовании оценивается производительность больших языковых моделей с открытыми весами, работающих локально для задач преобразования текста в SQL, с использованием воспроизводимого бенчмарка на обучающем наборе данных BIRD. Сравниваются три семейства моделей двух поколений при этом абляционно изучаются конкретные техники повышения точности, чтобы определить их реальную ценность.

arxiv arXiv cs.CL · 5 ч назад

Быстрые числа, медленный язык: объединение количественных и качественных сигналов из отчётов о прибыли

В статье представлен EarningsInOne, новый корпус, согласующий новости об отчётах о прибыли, стенограммы конференц-звонков и цены для вселенной компаний SP 1500 за период с 2022 по 2025 год. Этот ресурс сокращает разрыв между финансовыми экономистами и исследователями в области NLP, предоставляя унифицированные торговые конфигурации и метрики оценки как для количественных, так и для качественных сигналов.

arxiv arXiv cs.CL · 5 ч назад

Управление кардинальностью отображений при автоматической классификации заболеваний

В статье представлен новый метод автоматического сопоставления между системами классификации заболеваний, такими как ICD-9-CM и ICD-10-CM, который устраняет ограничения существующих подходов на основе эмбеддингов, часто игнорирующих сложные сценарии «один ко многим». Используя конвейер блокировки и сопоставления, вдохновленный разрешением сущностей (entity resolution), авторы применяют большие языковые модели для выявления допустимых отображений внутри блоков кандидатов.

arxiv arXiv cs.CL · 5 ч назад

Mandol: Агломеративная система памяти агента для долгосрочных диалогов

Исследователи предлагают Mandol, систему агломеративной памяти, предназначенную для консолидации фрагментированных представлений памяти в единую архитектуру для долгосрочных диалоговых агентов. Этот подход решает проблемы высокой задержки и шума, присущие существующим системам, которые полагаются на гетерогенные векторные и графовые базы данных.

arxiv arXiv cs.CL · 5 ч назад

Следуют ли люди эволюционно сформированной инструкции? Фундаментальный индуктивный bias обеспечивает быстрое обучение задачам по инструкции

В данной позиционной статье утверждается, что у людей существует эволюционно сформированный bias следования инструкциям — врожденный индуктивный bias, сформированный эволюцией для интерпретации и выполнения лингвистических инструкций. Эта когнитивная особенность обеспечивает быстрое обучение задачам по инструкции (RITL) и позволяет быстро обобщать поведение на основе языка.

arxiv arXiv cs.CL · 5 ч назад

Fund2Persona: Создание персонажей финансовых советников на основе данных фондов

Авторы предлагают Fund2Persona — фреймворк, который основывает персонажи финансовых советников на раскрытии информации фондами, переходах портфельных активов и комментариях управляющих, чтобы решить проблему масштабирования последовательной экспертизы в системах LLM. Система уточняет эти персонажи с помощью агентного цикла «актор-оценщик-патчер», выходя за рамки простых промптов для персонажей, которые часто уходят в сторону общих рекомендаций.