Все статьи
arxiv arXiv cs.CL · 4 ч назад

Самоэволюционирующие модели мира для планирования агентов LLM

В статье представлен WorldEvolver — фреймворк, который оснащает долгосрочных агентов LLM надежной способностью к предвидению за счет пересмотра контекста во время развертывания без изменения параметров модели. Он решает проблему ненадежных прогнозов, ухудшающих принятие решений, с помощью самоэволюционирующего подхода, повышающего точность предсказаний и качество планирования.

media Hugging Face Forums · 4 ч назад

Trajlens: валидатор для LeRobotDataset, проверено 100 наборов данных на Hub

Автор представляет Trajlens, линтер с открытым исходным кодом для категории LeRobotDataset на Hugging Face Hub, и сообщает о результатах аудита 100 случайных публичных наборов данных с тегом 'lerobot'. Аудит показал, что только 19 наборов данных прошли валидацию, 13 не прошли из-за конкретных ошибок в вышестоящих компонентах, а 47 столкнулись с ошибками загрузки или таймаутами.

media Hugging Face Forums · 4 ч назад

Архитектурное предложение: Эпистемологическая состязательная сеть (EAN) для открытого ИИ

Запрос функции предлагает Эпистемологическую состязательную сеть (EAN), архитектуру, предназначенную для трансформации ИИ из системы, отражающей институциональный консенсус, в децентрализованную многоперспективную систему верификации. Этот подход направлен на устранение политических и корпоративных манипуляций путем устранения любой единой «истины».

media Hugging Face Forums · 4 ч назад

Обсуждение в сообществе по открытым LLM для разработки чат-ботов

Тред обсуждения на форумах Hugging Face спрашивает пользователей, какие бесплатные или открытые ИИ-модели они в настоящее время используют для разработки чат-ботов и каковы их причины предпочтения.

media Hugging Face Forums · 4 ч назад

Топ-5 моделей, которые я могу запустить на своём железе? Без ИИ-лоботомии

Пользователь на форумах Hugging Face ищет рекомендации по моделям ИИ без цензуры, способным рассуждать о сложных темах, указывая предпочтение более ранним версиям GPT-4 перед текущими.

media r/LocalLLaMA · 5 ч назад

Как я использую локальные модели в реальной разработке

Автор делится практической настройкой для использования локальных больших языковых моделей на скромном оборудовании, а именно на ноутбуке с 32 ГБ ОЗУ и NVIDIA RTX 4070 с 8 ГБ видеопамяти. Основная стратегия заключается в запуске модели Qwen3.6-35B-A3B локально в качестве «малого кодингового агента», а сложные задачи планирования перекладываются на облачный экземпляр GLM 5.2.

arxiv arXiv cs.CL · 5 ч назад

Диагностическая рамка и многооценочный аудит динамики предпочтений, управляемой оценщиком, в самоадаптирующихся агентах LLM

В статье документируется, как измерения от проприетарных оценщиков LLM могут стать недействительными в течение нескольких недель, и предлагается рамка EPC для обнаружения такой нестабильности. Она применяется в восьми экспериментальных условиях, показывая, что версия-условная нестабильность делает исследования с одним снимком ненадежными.

arxiv arXiv cs.CL · 5 ч назад

Скрытая стоимость ресэмплинга: как коррекция дисбаланса ухудшает калибровку вероятностей в ансамблях деревьев

В данном исследовании оценивается влияние методов ресэмплинга, таких как SMOTE и случайное недосэмплирование, на калибровку вероятностей в ансамблях деревьев; установлено, что хотя стоимость SMOTE невелика, недосэмплирование сильно ухудшает калибровку.

arxiv arXiv cs.CL · 5 ч назад

Насколько хорошо локальные открытые LLM справляются с текстом в SQL? Исследование на границе размеров и методов семейства моделей BIRD

В данном исследовании оценивается производительность больших языковых моделей с открытыми весами, работающих локально для задач преобразования текста в SQL, с использованием воспроизводимого бенчмарка на обучающем наборе данных BIRD. Сравниваются три семейства моделей двух поколений при этом абляционно изучаются конкретные техники повышения точности, чтобы определить их реальную ценность.

arxiv arXiv cs.CL · 5 ч назад

Быстрые числа, медленный язык: объединение количественных и качественных сигналов из отчётов о прибыли

В статье представлен EarningsInOne, новый корпус, согласующий новости об отчётах о прибыли, стенограммы конференц-звонков и цены для вселенной компаний SP 1500 за период с 2022 по 2025 год. Этот ресурс сокращает разрыв между финансовыми экономистами и исследователями в области NLP, предоставляя унифицированные торговые конфигурации и метрики оценки как для количественных, так и для качественных сигналов.

arxiv arXiv cs.CL · 5 ч назад

Управление кардинальностью отображений при автоматической классификации заболеваний

В статье представлен новый метод автоматического сопоставления между системами классификации заболеваний, такими как ICD-9-CM и ICD-10-CM, который устраняет ограничения существующих подходов на основе эмбеддингов, часто игнорирующих сложные сценарии «один ко многим». Используя конвейер блокировки и сопоставления, вдохновленный разрешением сущностей (entity resolution), авторы применяют большие языковые модели для выявления допустимых отображений внутри блоков кандидатов.

arxiv arXiv cs.CL · 5 ч назад

Mandol: Агломеративная система памяти агента для долгосрочных диалогов

Исследователи предлагают Mandol, систему агломеративной памяти, предназначенную для консолидации фрагментированных представлений памяти в единую архитектуру для долгосрочных диалоговых агентов. Этот подход решает проблемы высокой задержки и шума, присущие существующим системам, которые полагаются на гетерогенные векторные и графовые базы данных.

arxiv arXiv cs.CL · 5 ч назад

Следуют ли люди эволюционно сформированной инструкции? Фундаментальный индуктивный bias обеспечивает быстрое обучение задачам по инструкции

В данной позиционной статье утверждается, что у людей существует эволюционно сформированный bias следования инструкциям — врожденный индуктивный bias, сформированный эволюцией для интерпретации и выполнения лингвистических инструкций. Эта когнитивная особенность обеспечивает быстрое обучение задачам по инструкции (RITL) и позволяет быстро обобщать поведение на основе языка.

arxiv arXiv cs.CL · 5 ч назад

Fund2Persona: Создание персонажей финансовых советников на основе данных фондов

Авторы предлагают Fund2Persona — фреймворк, который основывает персонажи финансовых советников на раскрытии информации фондами, переходах портфельных активов и комментариях управляющих, чтобы решить проблему масштабирования последовательной экспертизы в системах LLM. Система уточняет эти персонажи с помощью агентного цикла «актор-оценщик-патчер», выходя за рамки простых промптов для персонажей, которые часто уходят в сторону общих рекомендаций.

arxiv arXiv cs.CL · 6 ч назад

Систематическое тестирование методов обнаружения галлюцинаций на основе лёгких моделей для задач QA, диалога и суммаризации

В данной статье проводится бенчмарк пяти лёгких методов обнаружения галлюцинаций, работающих на CPU, чтобы предложить практические альтернативы исследователям с ограниченными ресурсами, которые не могут использовать решения, требующие GPU или являющиеся проприетарными. Исследование оценивает ROUGE-L, семантическое сходство, BERTScore, детектор NLI DeBERTa, обученный на FEVER, и ансамбль методов на основе сходства и NLI на задачах вопросно-ответных систем, диалога и суммаризации из бенчмарка HaluEval.

arxiv arXiv cs.CL · 6 ч назад

SrDetection: Самоориентированная платформа для обнаружения утечки данных в кодовых LLM

Авторы представляют SrDetection, унифицированную платформу для обнаружения утечки данных в больших языковых моделях кода, работающую как в условиях gray-box, так и black-box. Метод генерирует семантически эквивалентные варианты образцов бенчмарков для выявления случаев, когда исходные данные непропорционально легче для модели из-за воздействия во время предобучения.

arxiv arXiv cs.CL · 6 ч назад

Нейронная процедурная память: усиление агентов LLM посредством неявного управления активацией

В статье представлена нейронная процедурная память (NPM), фреймворк без дообучения, который позволяет агентам больших языковых моделей использовать неявное управление активацией для процедурной памяти вместо явных текстовых инструкций. Путем дистилляции навыков из исторического опыта в векторы управления NPM напрямую активирует нейронные механизмы, релевантные задаче, для направления выполнения.

arxiv arXiv cs.CL · 6 ч назад

Раскрытие технологий развития обработки естественного языка: взгляд с точки зрения научных сущностей

В данном исследовании анализируется развитие технологий в области обработки естественного языка (NLP) с точки зрения, ориентированной на сущности, путем извлечения методов, наборов данных, метрик и инструментов для оценки их влияния через сети со-встречаемости. Исследование показывает, что, хотя предобученные языковые модели, такие как BERT и Transformer, стали мейнстримом, среднее количество сущностей на статью увеличивается, что указывает на растущую нагрузку на знания исследователей.

arxiv arXiv cs.CL · 6 ч назад

MATCH: Модуляция внимания через контекстно-зависимый поиск для трансформеров с длинным контекстом

Авторы предлагают MATCH, фреймворк, который дополняет механизмы разреженного внимания динамически интегрированной контекстной информацией для решения проблем масштабируемости традиционного внимания в задачах с длинным контекстом.