Open weights
media r/LocalLLaMA · 8 д назад

Самый дешевый способ запуска GLM 5.x локально без использования единых памяти

Пользователь исследует экономически обоснованные способы запуска GLM 5.x локально с использованием 4-битной квантования, таких как IQ4_XS, без зависимости от единых памяти. Возможные варианты включают настройки только на процессоре, такие как Sapphire Rapids ES с DDR5, распределение нагрузки между несколькими GPU или использование моделей аналогичного размера. Пользователь использует систему 5900X + 128 ГБ DDR4 + 7900XT 20 ГБ и успешно запускает Minimax 2.7 при Q4_K_S и Qwen 3.6 27B при IQ4_XS.

arxiv arXiv cs.CL · 8 д назад

LLMs предсказывают деменцию и депрессию на основе клинической речи

Исследование использует открытые большие языковые модели для оценки степени деменции и депрессии на основе клинических интервью. Модели достигают точного нуля-шот-предсказания депрессии (MAE 0,60) и улучшенной оценки деменции с извлечением признаков (MAE 0,78), снижая ошибки до 35%. Транскрипции с учетом пауз соответствуют ручным транскрипциям, что поддерживает автоматизированные потоки фильтрации для невропсихиатрических расстройств.

arxiv arXiv cs.CL · 8 д назад

RubricsTree: масштабируемая система оценки для персональных агентов здоровья

RubricsTree вводит иерархическую классификацию более 100 клинически подтвержденных булевых рубрик, эволюционировавших из 4000 реальных запросов пользователей при помощи ручной коррекции. Оно обеспечивает масштабируемую оценку персональных агентов здоровья, согласованную с экспертами, путем динамического направления запросов в соответствующие рубрики и превосходит базовые методы по согласованности, чувствительности к контексту и достигает роста производительности моделей до 66% на HealthBench.

arxiv arXiv cs.CL · 8 д назад

Кодирование словаря Al-Mawrid с использованием ISO LMF и TEI Lex-0

В статье описывается методология цифровизации словаря Al-Mawrid на арабском-английском языке с использованием ISO LMF и TEI Lex-0. Достигается точность структурного парсинга на уровне 91%, а также демонстрируется точность 85% и полнота 98% для синонимов, а также точность 88% для морфосемантических признаков, на основе выборки буквы Айн. В исследовании подчеркиваются ограничения TEI Lex-0 в отражении семантических и морфологических нюансов арабского языка и предлагается масштабируемая система на основе префиксов для интеграции в LLOD.

arxiv arXiv cs.CL · 8 д назад

Darshana Graph: Корпус для сравнительной индийской философии

Darshana Graph представляет корпус из более чем 125 000 текстовых записей, взятых из индийских философских источников, включая хиндуистские, буддийские и яинские. В нем содержится уникальный подмножество из 8 500 сопоставленных записей из 18 комментаторов из пяти школ, что позволяет проводить сравнительный анализ комментаторов. Корпус поддерживает стилиметрический анализ и пайплайн крупной языковой модели, извлекающей отношения философических концепций, выявляя паттерны споров и ограничения извлечения.

arxiv arXiv cs.LG · 8 д назад

KANLib: Модульная и эффективная система Колмогорова-Арнольда

KANLib представляет модульную, расширяемую и вычислительно эффективную систему Колмогорова-Арнольда. Она объединяет ключевые концепции из PyKAN, EfficientKAN и FastKAN, поддерживает адаптивную перескалировку сетки и мелкую настройку архитектуры, при этом сохраняя совместимость с PyTorch. Эксперименты на датасете Калифорнийского жилья показывают, что KANLib достигает конкурентной эффективности и воспроизводит установленные результаты работы KAN.

arxiv arXiv cs.AI · 8 д назад

IUU+DB: Система на основе больших языковых моделей для отслеживания незаконной, неотчётной и нерегулируемой рыбалки и преступлений в цепочках поставок

IUU+DB — это система, основанная на больших языковых моделях, которая отслеживает незаконную, неотчётную и нерегулируемую рыбалку, мошенничество в сельском хозяйстве и нарушения труда. Она извлекает ключевые элементы данных из разнообразных документов, классифицирует соответствующие инциденты и позволяет проводить анализ тенденций для выявления географических и поведенческих «горячих точек». Система поддерживает научные исследования, оценку рисков и контроль политики в рыболовстве и цепочках поставок.

arxiv arXiv cs.AI · 8 д назад

Внешний выпуск данных по заявкам Стэнфорда

Стэнфорд представляет SEFD, открытую, лаи-точную реконструкцию заявлений SEC в формате MultiMarkdown. Данный набор данных SEFD-v1 объемом 152 миллиарда токенов позволяет проводить финансовые моделирования и включает бенчмарки для прогнозирования и транскрипции таблиц, при этом пересечения с Common Crawl составляют менее 0,1%.

arxiv arXiv cs.AI · 8 д назад

RubricsTree: масштабируемая система оценки для персональных агентов здравоохранения

RubricsTree вводит иерархическую классификацию более 100 клинически подтвержденных булевых рубрик, эволюционировавших из 4 000 реальных запросов пользователей при помощи ручной коррекции. Оно позволяет масштабируемо оценивать персональные агенты здравоохранения с учетом экспертных критериев, динамически направляя запросы в соответствующие рубрики и превосходит базовые методы по степени синхронизации, обнаружению деградации контекста и обеспечивает рост производительности моделей до 66% на HealthBench.

arxiv arXiv cs.CL · 8 д назад

Истории, сгенерированные LLM, показывают низкую разнообразие

Большие языковые модели генерируют рассказы, которые более схожи между собой, чем рассказы, написанные людьми. Передовые модели сходятся к общей, универсальной структуре рассказа, не демонстрируя разнообразия, присутствующего в рассказах, написанных людьми. Общие техники, такие как отрицательное подавление и масштабирование температуры, не значительно снижают эту однородность.

arxiv arXiv cs.CL · 8 д назад

Сжатые модели языковых моделей не справляются с открытым генерированием, несмотря на успешное прохождение тестов на выбор одного из вариантов

Сжатые большие языковые модели часто успешно справляются с тестами на выбор одного из вариантов, но не справляются с генерацией корректных ответов в открытых ответах. Эта "обманная оценка" показывает, что ответы не удаляются, а лишь снижаются по значимости, и появляются только при использовании продвинутых методов генерации, таких как beam search или sampling. Стандартные оценочные тесты переоценивают практическую применимость сжатых моделей, подчеркивая критическую пробел в оценке.

media r/LocalLLaMA · 8 д назад

Я не знал, что возможно скомпилировать llamacpp для одновременной работы с CUDA и Vulkan

Пользователь скомпилировал llamacpp с поддержкой CUDA и Vulkan, чтобы использовать две видеокарты — w7800 и другую карту. Настройка обеспечила увеличение скорости декодирования на 10% для модели MiniMax-M3-UD-IQ2_M-00001-of-00004.gguf, с планами провести измерения для оценки реальных выигрышей в производительности.

media r/LocalLLaMA · 8 д назад

Является ли Le Gros Chaton открытой системой?

Пост на Reddit спрашивает, будет ли открытой системой Le Gros Chaton, новый модель Mistral. Модель описывается как имеющая 1B контекста, способность к саморазвитию и генерации кода на французском языке, хотя она выключается каждые три часа и отказывается отвечать до завтрака. Пост также иронически спрашивает, актуальна ли терминология "le chaton fat".

media r/LocalLLaMA · 8 д назад

GLM-5.2 выпустил открытые веса с сильной производительностью в программировании

GLM-5.2 был выпущен с открытыми весами, окном контекста в 1 млн токенов, лицензией MIT и двумя режимами рассуждения. Первые результаты показывают, что он занимает приблизительно первые позиции в тестах на программирование, что указывает на сильный потенциал в реальных условиях использования, превосходя модели, работающие только через API.

media r/LocalLLaMA · 8 д назад

Живой API GLM 5.2, веса на Hugging Face, поддержка Ollama

Живой API GLM 5.2 теперь доступен, веса модели доступны на Hugging Face по лицензии MIT и поддерживаются Ollama. Модель предлагает два режима мышления — Высокий и Максимум — с длиной контекста 1 млн токенов, цена составляет 1,4 доллара за 1 млн входных токенов и 4,4 доллара за 1 млн выходных токенов, что соответствует GLM-5.1.

media r/LocalLLaMA · 8 д назад

Мы открыли исходный код нашего агента на основе больших языковых моделей для быстрого обнаружения сбоев

Approxima — это открытый исходный, самодостаточный агент по вопросам и ответам, который отслеживает пользовательские маршруты и поддерживает Claude, Gemini и GPT по умолчанию. Он включает режим Explore, A/B-тестирование и самовосстановление для адаптации к эволюции продукта, с полной поддержкой локальных моделей и вклада сообщества.

media r/LocalLLaMA · 8 д назад

Evalatro: открытый бенчмарк, где LLMы играют реальную Balatro

Evalatro — это открытый бенчмарк, позволяющий LLMам играть в реальную игру Balatro. Модели получают состояние игры в виде текста, принимают решения независимо и соревнуются в достижении Ante 12. Текущие результаты показывают ограниченный прогресс — mimo-v2.5-pro достиг Ante 5, а deepseek-v4-pro не смог превзойти Ante 8.

media r/LocalLLaMA · 8 д назад

Оценка небольших моделей LLM на поиске файлов на естественном языке

Оценка оценивает небольшие модели LLM (0,3B–3B параметров) по преобразованию естественных языковых запросов в структурированный JSON, с фокусом на тип файла, временной контекст, специфичность и комбинированные запросы. Результаты показывают, что модели с 0,8B–1,5B параметров превосходят модели с менее чем 0,5B параметров, проект направлен на расширение набора тестовых данных и исследование мелкой настройки для улучшения производительности.

media r/LocalLLaMA · 8 д назад

GLM-5.2 превышает 80% на Terminal-Bench

GLM-5.2 — первый открытый модель с весами, достигший точности 80% на Terminal-Bench и превосходящий все другие доступные открытые модели. Он также превосходит Gemini, что делает его моделью передовой категории при значительно более низкой стоимости.