Open weights — korshunov.ai — новости ML

Тема · Open weights

GLM-5.2 — первый открытый модель с весами, достигший точности 80% на Terminal-Bench и превосходящий все другие доступные открытые модели. Он также превосходит Gemini, что делает его моделью передовой категории при значительно более низкой стоимости.

arxiv arXiv cs.CL · 9 д назад

LOGOS: Общее генеративное моделирование для естественных наук

LOGOS — это единая генеративная языковая модель, которая представляет научные объекты и их взаимодействия в виде последовательностей токенов в общей грамматике. Модель достигает стабильной или превосходной производительности на различных задачах естественных наук, демонстрируя возможность использования одной модели для работы в нескольких областях. Производительность модели растёт с увеличением количества параметров, и её конструкция указывает на то, что искусственный интеллект для науки должен тесно интегрироваться с большими языковыми моделями через общие архитектуры и обучение.

media r/LocalLLaMA · 9 д назад

GLM-5.2 выпустил открытые веса с сильной производительностью в программировании

GLM-5.2 был выпущен с открытыми весами, окном контекста в 1 млн токенов, лицензией MIT и двумя режимами рассуждения. Первые результаты показывают, что он занимает приблизительно первые позиции в тестах на программирование, что указывает на сильный потенциал в реальных условиях использования, превосходя модели, работающие только через API.

media r/LocalLLaMA · 9 д назад

Живой API GLM 5.2, веса на Hugging Face, поддержка Ollama

Живой API GLM 5.2 теперь доступен, веса модели доступны на Hugging Face по лицензии MIT и поддерживаются Ollama. Модель предлагает два режима мышления — Высокий и Максимум — с длиной контекста 1 млн токенов, цена составляет 1,4 доллара за 1 млн входных токенов и 4,4 доллара за 1 млн выходных токенов, что соответствует GLM-5.1.

media r/LocalLLaMA · 9 д назад

Мы открыли исходный код нашего агента на основе больших языковых моделей для быстрого обнаружения сбоев

Approxima — это открытый исходный, самодостаточный агент по вопросам и ответам, который отслеживает пользовательские маршруты и поддерживает Claude, Gemini и GPT по умолчанию. Он включает режим Explore, A/B-тестирование и самовосстановление для адаптации к эволюции продукта, с полной поддержкой локальных моделей и вклада сообщества.

media r/LocalLLaMA · 9 д назад

Evalatro: открытый бенчмарк, где LLMы играют реальную Balatro

Evalatro — это открытый бенчмарк, позволяющий LLMам играть в реальную игру Balatro. Модели получают состояние игры в виде текста, принимают решения независимо и соревнуются в достижении Ante 12. Текущие результаты показывают ограниченный прогресс — mimo-v2.5-pro достиг Ante 5, а deepseek-v4-pro не смог превзойти Ante 8.

media r/LocalLLaMA · 9 д назад

Призыв к открытым моделям и причины, по которым мы не можем доверять Frontier Labs

Статья делает акцент на открытых моделях языковых моделей, подчеркивая прозрачность и доступность. В ней выражена сомнительность в отношении Frontier Labs, что указывает на опасения по поводу их разработки моделей и открытости.

media r/LocalLLaMA · 9 д назад

Результаты теста производительности квантования Qwen3.6 27B

Тест, сравнивающий версии квантования Q8 и IQ3 XXS turbo4 для Qwen3.6 27B, показывает, что Q8 превосходит в безопасности API и очистке входных данных, в то время как IQ3 XXS turbo4 демонстрирует лучшие результаты в управлении потоками и проектировании модульного кода. Модель рекомендует объединить оба подхода: использовать Q8 для начальной защиты и IQ3 XXS для атомарных записей и жизненного цикла потоков, формируя совместную фундаментальную стадию первого этапа.

media r/LocalLLaMA · 9 д назад

Пожертвуйте свои сессии программирования в открытую базу данных под лицензией CC-BY-4.0

Проект под названием Trace Commons приглашает пользователей пожертвовать свои отслеживаемые сессии программирования в открытую базу данных, лицензированную под CC-BY-4.0. Инициатива направлена на предоставление обучающих данных для открытых моделей и открытого программного обеспечения, противодействуя возможным монополиям в области данных, связанным с Anthropic и OpenAI.

media r/LocalLLaMA · 9 д назад

Nex-N2 Pro — это настоящее качество

Пользователь обнаружил, что N2 Pro, при использовании шаблона чата Rio, работает стабильно на их Mac с объёмом памяти 128 ГБ. Он прошёл частный тест на коде llama.cpp на 100% без выдумок, соответствуя только GPT 5.x по стабильности.

arxiv arXiv cs.AI · 9 д назад

RAID: Семантическое графовое диффузионное моделирование для истинного холодного запуска и межязыкового прогнозирования

RAID представляет рамку, использующую метаданные-ориентированное семантическое извлечение и диффузионное моделирование на основе графа для решения задач истинного холодного запуска. Оно превосходит фундаментальные модели и базовые подходы по точности прогнозирования и покрытию интервалов, значительно снижает задержку инференса и позволяет осуществлять нулевую штуку межязыковую трансфер через общий семантический пространство.

arxiv arXiv cs.AI · 9 д назад

CircuitLasso: масштабируемый метод обучения разреженных схем для интерпретируемости больших языковых моделей

CircuitLasso предлагает масштабируемый метод обучения разреженных схем в больших языковых моделях с использованием разреженной линейной регрессии. Он достигает структурной точности, сравнимой с методами, основанными на вмешательстве, при значительно меньших вычислительных затратах, одновременно обеспечивая эффективное обнаружение распространения семантических признаков и улучшая производительность на задачах обобщения в области с уменьшенными затратами.

arxiv arXiv cs.AI · 9 д назад

Каузальный фреймворк для аудита раскрытий синтетических данных

Новый эмпирический фреймворк аудита обнаруживает и классифицирует раскрытия синтетических данных как истинные или фантомные. Он отличает прямые копии пользовательских данных от случайного генерирования без доступа к модели или её обучению, используя только синтетические выходы и контрольную выборку. Метод обеспечивает более строгие границы утечки конфиденциальности, чем ранее разработанные подходы, и требует значительно меньших вычислительных ресурсов.

arxiv arXiv cs.AI · 9 д назад

Документация по исследованию ИИ улучшается в течение десятилетия

Анализ 56 800 статей на конференциях по ИИ показывает, что практики документирования улучшились с 2014 по 2024 год. Доля статей, в которых публиковались как код, так и данные, возросла с 11% до 64%, а оценка воспроизводимости увеличилась с 28% до 64%. Эти улучшения предшествуют официальным проверкам воспроизводимости, что указывает на более широкий сдвиг в сторону открытой науки.

arxiv arXiv cs.AI · 9 д назад

TuneJury: Открытый метрический инструмент для выравнивания предпочтений в генерации музыки

TuneJury — это открытая модель парного вознаграждения на уровне экземпляров, которая предсказывает оценки предпочтений музыки на основе текстовых запросов и аудио-фрагментов. Модель обучена на разнообразных данных человеческих предпочтений и демонстрирует сильную обобщаемость, при этом калибровка анкоров позволяет эффективно проводить пост-обучение для систем генерации музыки.

arxiv arXiv cs.LG · 9 д назад

Оптимизация Hyperball для ускорения обучения языковых моделей

Hyperball — это простой обертка оптимизатора, которая устанавливает фиксированные нормы Фробениуса для матриц весов и их обновлений. Она повышает скорость обучения и передачу скорости обучения в больших моделях, обеспечивая ускорение на 20--30% по количеству токенов по сравнению с базовыми вариантами с весовым уменьшением на моделях до 1,2 миллиарда параметров.

arxiv arXiv cs.LG · 9 д назад

Каузальный подход к аудиту раскрытий синтетических данных

Модель-независимый подход к аудиту обнаруживает и различает настоящие и фантомные раскрытия в синтетических данных. Он использует только синтетические выводы и контрольную выборку, чтобы проводить статистические проверки, обеспечивая более строгие границы утечки конфиденциальности, чем ранее известные методы, без необходимости доступа к модели или дополнительного обучения.

arxiv arXiv cs.LG · 9 д назад

TuneJury: Открытый метрический инструмент для выравнивания предпочтений в генерации музыки

TuneJury — это открытая модель парного вознаграждения на уровне экземпляров, которая предсказывает оценки предпочтений музыки на основе текстовых запросов и аудио-фрагментов. Модель обучена на разнообразных данных человеческих предпочтений и демонстрирует сильную обобщаемость, при этом использование калибровки опорных точек позволяет эффективно проводить пост-обучение для систем генерации музыки.

media r/LocalLLaMA · 9 д назад

Выпущен Qwable-v1 как дистиллят Claude Fable-5

Qwable-v1, открытая модель, дистиллированная из Fable-5 от Anthropic, теперь доступна в общественном доступе на Hugging Face. Она содержит 4659 прямых текстовых следов агентного кодирования из публичного корпуса Fable-5 и генерирует корректно сформированные вызовы <tool_use> в формате XML для инструментов, характерных для Claude, отражая исходную поверхность инструментов в своих весах.

media r/LocalLLaMA · 9 д назад

Оценка небольших моделей LLM на поиске файлов на естественном языке

Оценка оценивает небольшие модели LLM (0,3B–3B параметров) по преобразованию естественных языковых запросов в структурированный JSON, с фокусом на тип файла, временной контекст, специфичность и комбинированные запросы. Результаты показывают, что модели с 0,8B–1,5B параметров превосходят модели с менее чем 0,5B параметров, проект направлен на расширение набора тестовых данных и исследование мелкой настройки для улучшения производительности.

GLM-5.2 превышает 80% на Terminal-Bench

LOGOS: Общее генеративное моделирование для естественных наук

GLM-5.2 выпустил открытые веса с сильной производительностью в программировании

Живой API GLM 5.2, веса на Hugging Face, поддержка Ollama

Мы открыли исходный код нашего агента на основе больших языковых моделей для быстрого обнаружения сбоев

Evalatro: открытый бенчмарк, где LLMы играют реальную Balatro

Призыв к открытым моделям и причины, по которым мы не можем доверять Frontier Labs

Результаты теста производительности квантования Qwen3.6 27B

Пожертвуйте свои сессии программирования в открытую базу данных под лицензией CC-BY-4.0

Nex-N2 Pro — это настоящее качество

RAID: Семантическое графовое диффузионное моделирование для истинного холодного запуска и межязыкового прогнозирования

CircuitLasso: масштабируемый метод обучения разреженных схем для интерпретируемости больших языковых моделей

Каузальный фреймворк для аудита раскрытий синтетических данных

Документация по исследованию ИИ улучшается в течение десятилетия

TuneJury: Открытый метрический инструмент для выравнивания предпочтений в генерации музыки

Оптимизация Hyperball для ускорения обучения языковых моделей

Каузальный подход к аудиту раскрытий синтетических данных

TuneJury: Открытый метрический инструмент для выравнивания предпочтений в генерации музыки

Выпущен Qwable-v1 как дистиллят Claude Fable-5

Оценка небольших моделей LLM на поиске файлов на естественном языке