Open weights
media r/LocalLLaMA · 6 д назад

Мощь интеллекта лучше лежит в руках людей, чем в кабинетах магнатов

Проект PearlOS запустил открытую платформу для распределённого интеллекта, которая использует локальные модели для выполнения многомодальных задач. Она автоматически выбирает и переключается между наиболее эффективными моделями на основе критериев оценки, обеспечивая пользователям постоянный доступ к самым новым и наиболее мощным моделям, не завися от закрытых систем или подписок.

media r/LocalLLaMA · 6 д назад

Создатель GLM говорит, что GLM-fable может быть выпущен к концу года?

Создатель GLM заявил на Reddit, что GLM-fable может быть выпущен к концу года. Пост возник в обсуждении пользователя на форуме LocalLLaMA, где утверждение представлено без подтверждения или официального объявления.

media r/LocalLLaMA · 6 д назад

ОПЕН-СОУС-модели decisively overtook proprietary models in market share

На основании данных OpenRouter за последние три месяца, открытые модели превзошли проприетарные модели по доле рынка. Анализ показывает значительный сдвиг в сторону открытых языковых моделей в общей экосистеме ИИ.

media r/LocalLLaMA · 7 д назад

У кого есть достаточно вычислительных ресурсов, чтобы создать дистилляционный датасет из GLM5.2?

Пользователь спрашивает, у кого есть достаточные вычислительные ресурсы, чтобы создать большой дистилляционный датасет из 700 000 до 1 миллиона примеров из GLM5.2. Цель — улучшить обучение более маленьких моделей, таких как Qwen3.5, и помочь более широкой сообществу.

media r/LocalLLaMA · 7 д назад

LocalLLaMA предлагает датасет для программирования, созданный сообществом

Инициатива сообщества предлагает создать датасет для программирования, собранный в ходе совместной работы, чтобы позволить разработке локальных моделей языковой обработки. Предложение направлено на то, чтобы позволить любому пользователю с оборудованием внести данные, при этом более мощные пользователи могут помогать в тонкой настройке или квантовании моделей, тем самым снижая зависимость от моделей, выпускаемых компаниями.

arxiv arXiv cs.LG · 7 д назад

NeSyCat Torch: Реализация дифференцируемых тензоров для нейросимвольного обучения

NeSyCat Torch предоставляет дифференцируемую реализацию тензоров категориальных семантик для нейросимвольного обучения, объединяя классические, размытые, вероятностные и нейронные системы под единым определением индуктивной истины. Он превосходит LTN и DeepProbLog по скорости и точности на задаче сложения MNIST, достигая точности, равной DeepStochLog, при работе в единой системе, расширяемой на непрерывную вероятность через инстанцирование монады.

arxiv arXiv cs.LG · 7 д назад

Разбор внимания трансформера с помощью исполняемых программ

Новый метод использует синтез программ для генерации программ на языке Python, которые воссоздают паттерны внимания в моделях трансформеров. Такие программы достигают среднего значения пересечения по объединению более 75% на отложенных данных и могут заменить до 25% голов внимания с минимальным влиянием на производительность модели, увеличивая перплексность в среднем на 16%.

arxiv arXiv cs.LG · 7 д назад

LOCUS: локальная коллекция законов для США

LOCUS предоставляет машинно-читаемый доступ к муниципальным и округовым постановлениям США, охватывающим 9239 городов и округов. В нём содержится слой, синхронизированный по округам, для 2309 из 3144 округов США, охватывающих большинство населения. Корпус, построенный с использованием распознавания печатных символов и метаданных, позволяет проводить исследования по правовой неясности и патернализму с использованием моделей на базе ModernBERT.

arxiv arXiv cs.AI · 7 д назад

Пользователь как энгра: локальные параметрические редакции для личной памяти

Пользователь как энгра предлагает хранить факты по каждому пользователю в виде хирургических, хеш-ключевых редакций в таблице памяти, оставляя процесс мышления в общем адаптере. Такой подход обеспечивает на 5,6 раза более высокую точность косвенного мышления и сохраняет базовую производительность мышления, при этом объем памяти на 33 000 раз меньше, чем при использовании LoRA по каждому пользователю. Метод позволяет выполнять раздельные редакции пользователей, которые составляются без потерь, превосходя ретриевные потоки при более чем 100 фактах.

arxiv arXiv cs.AI · 7 д назад

NeSyCat Torch: Реализация дифференцируемых тензоров для нейросимвольного обучения

NeSyCat Torch предоставляет дифференцируемую реализацию тензоров категориальных семантик для нейросимвольного обучения, объединяя классические, размытые, вероятностные и нейронные системы под единым определением индуктивной истины. Он превосходит LTN и DeepProbLog по скорости и точности на задаче сложения MNIST, достигая точности, соответствующей DeepStochLog, при работе в единой системе, расширяемой на непрерывные вероятности через инстанцирование монады.

arxiv arXiv cs.CL · 7 д назад

Dango: строго однолингвальный LLM для исследований SLA

Dango — это LLM с 1,8 миллиарда параметров, разработанный для изучения второго языкового приобретения на японском языке в английском. Он использует метод фильтрации для минимизации английской контаминации в монолингвальной предобученной фазе, сохраняя реалистичное воздействие первого языка. После тонкой настройки на уроки, сгенерированные LLM, Dango создает человечески естественные выводы на втором языке, превосходя нефильтрованные и стандартные многолингвальные модели.

arxiv arXiv cs.CL · 7 д назад

RECOM: Связь между достоверностью и дискриминацией в метриках для задачи ответов на вопросы в Reddit

RECOM оценивает 15 000 вопросов раздела r/AskReddit с реальными ответами сообщества, опубликованными после обучения модели. В нем показано, что ни одна автоматическая метрика не может одновременно обеспечить сильную достоверность и высокую дискриминацию, при этом BERTScore ранжирует модели слабо даже при контроле длины. Эта связь возникает из-за проектирования представлений, а не из-за различий в моделях, и требует отчета как достоверности, так и дискриминации с базовыми уровнями на случайных данных.

arxiv arXiv cs.CL · 7 д назад

DreamReasoner-8B: обучение куррикулумом по размеру блоков для рассуждения на основе диффузии

DreamReasoner-8B — это открытый блок-модель диффузии, демонстрирующая сильное рассуждение в длинной цепи мыслей. Систематическое исследование показывает, что малые размеры обучающих блоков сохраняют эффективность рассуждения, в то время как большие размеры снижают производительность. Обучение куррикулумом по размеру блоков постепенно переходит от мелких к крупным блокам, обеспечивая устойчивое и обобщаемое рассуждение в различных условиях инференса, с результатами, конкурирующими с Qwen3-8B на математических и кодовых тестах.

arxiv arXiv cs.CL · 7 д назад

LOCUS: локальная корпорация нормативных актов для Соединенных Штатов

LOCUS предоставляет машинно-читаемый доступ к почти всем публично доступным нормативным актам муниципальных и городских органов США, охватывая 9239 городов и округов. В нем включена гармонизированная доступная слоистая структура для 2309 из 3144 округов США, охватывающих большинство населения. Корпора, построенная с использованием распознавания печатных символов и метаданных для воспроизводимости, позволяет проводить масштабный анализ местного законодательства, включая такие параметры, как прозрачность и патернализм, с использованием моделей на базе ModernBERT.

arxiv arXiv cs.CL · 7 д назад

BCL: Байесовское обучение в контексте для извлечения информации

BCL — первый фреймворк, который использует фильтрацию частиц и байесовские обновления для систематического уточнения представлений меток в извлечении информации. Он обеспечивает стабильную производительность на разных масштабах моделей и обобщается на оба типа задач: последовательное маркирование и классификацию отношений, через четыре ключевых шага: инициализацию, наблюдение, обновление весов и пересамплирование.

arxiv arXiv cs.CL · 7 д назад

PragReST: Саморазвивающаяся косвенная логика для понимания прямого языка

PragReST — это самосупервизированная система, которая улучшает прямое мышление больших языковых моделей за счёт генерации следов косвенного мышления и обучения через надзорную тонкую настройку и обучение с помощью вознаграждения. Она превосходит базовые модели на четырёх прямых тестах, улучшая точность Qwen3-8B и Qwen3-14B на 5,37% и 5-5,50% соответственно, и сохраняет сильную производительность на задачах общего знания и математического мышления.

arxiv arXiv cs.CL · 7 д назад

Неправильная синхронизация в больших языковых моделях: количественное исследование

Новое исследование представляет VETO — бенчмарк из 2032 пар контрастных примеров, полученных из BBQ, для количественной оценки неправильной синхронизации в больших языковых моделях. В нем определяется коэффициент неправильной синхронизации (MAR) и показывает, что все проверенные большие языковые модели демонстрируют значения MAR от 4,7% до 18,9%, в то время как люди достигают 0%. Исследование показывает, что сигналы синхронизации могут усиливать эти сбои, и доказательства подавления происходят в поздних слоях моделей и появляются после тренировки по инструкциям.

arxiv arXiv cs.CL · 7 д назад

TW-LegalBench: Оценка ЛЛМ на тайваньском праве

TW-LegalBench представляет бенчмарк, использующий публичный правовой корпус Тайваня для оценки производительности крупных языковых моделей в области тайваньского права. В нём содержится более 16 000 вопросов с выбором ответа, 117 открытых вопросов с критериями оценки и более 14 000 примеров предсказания решений. Оценка показывает, что лучшие модели превышают порог сдачи аттестации юриста (11%), но не достигают уровня судьи или прокурора (1–2%), и испытывают трудности при точном цитировании правовых статей в предсказаниях наказаний.

arxiv arXiv cs.CL · 7 д назад

LLMs сталкиваются с отрицанием в метафорической речи

Исследование показывает, что большие языковые модели испытывают трудности при интерпретации отрицания в метафорической речи. Качество работы значительно варьируется в зависимости от стиля запроса, что подчеркивает ключевое ограничение в понимании сложных языковых конструкций в текущих моделях.

arxiv arXiv cs.CL · 7 д назад

G-IdiomAlign: Бенчмарк с использованием глагольного опорного элемента для синхронизации идиом между языками

G-IdiomAlign вводит бенчмарк, основанный на глагольных опорных элементах, используя английские глагольные опоры из Wiktionary для фиксации идиом. В нём содержатся контролируемые многократные варианты эквивалентности и протоколы глагольного контрастного генерирования, что показывает, что глагольные опоры улучшают производительность в семантической синхронизации, хотя результаты остаются скромными, что указывает на значительный потенциал для улучшения синхронизации идиом между языками.