z.AI хвалит первый открытый модель
z.AI, занимающий позицию второго, публично хвалит первый открытый модель. В посте отмечается восхищение возможностями модели, подчеркивается её производительность и вклад в сообщество.
z.AI, занимающий позицию второго, публично хвалит первый открытый модель. В посте отмечается восхищение возможностями модели, подчеркивается её производительность и вклад в сообщество.
Исследовательский проект изучает использование естественных языковых стратегических инструкций от людей для направления автономных ИИ-агентов в футбольной имитации. Система позволяет человеческим тренерам выдавать высокие инструкции, такие как "высокая давление" или "использовать левую сторону", которые ИИ-агенты затем адаптируют в реальном времени в динамической командной среде.
Пользователь спрашивает, какой локальный LLM в настоящее время показывает наилучшие результаты при суммировании длинных английских рассказов. Запрос подчёркивает необходимость точных локальных LLM, способных обрабатывать многостраничные рассказы на английском языке.
Пользователь делится изображением, сгенерированным моделью GLM 5.2 UD IQ2_M, и называет его лучшим изображением пеликана в формате SVG, которое они когда-либо видели. Несмотря на низкую квантование, модель демонстрирует сильные возможности, и пользователь отмечает, что она может значительно лучше справляться с будущими высокопроизводительными аппаратными конфигурациями.
Проект ggml повысил производительность AMX за счёт плоской обработки разделов по n_batch * M, обеспечивая участие всех потоков в квантовании. Данное изменение обеспечивает ускорение на 1,47 раза при различных моделях и конфигурациях аппаратуры на платформах CPU и GPU, при этом результаты демонстрируют стабильное сокращение времени инференса.
Индексатор DSA для модели GLM-5.2 неправильно загружался на всех слоях, что приводило к сбоям из-за отсутствия тензоров. В обновлении тензоры индексатора помечаются как TENSOR_NOT_REQUIRED, что позволяет слоям без индексатора загружать как nullptr, обеспечивая полную работу внимания MLA. Модель DeepSeek-V3.2, имеющая единое индексирование, не затронута.
Подана просьба о добавлении предварительно построенного веб-интерфейса для архитектуры s390x в Docker. Изменение пока ожидает релиза и еще не было опубликовано.
SupraLabs выпустил отобранный набор заголовков чатов с 115 тысячами образцов, превысив предыдущий рекорд в 10 тысячах образцов. Отфильтрованная база данных доступна как "SupraLabs/chat-titles-filtered-115K", а также предоставляется неотфильтрованная версия с 150 тысячами образцов, а также устаревшая база данных из 12 тысяч образцов.
Получатели пространства скрытых получают ограниченную скидку в размере 250 долларов на билеты на AIE WF 2026. Посетители также получают 40 тысяч долларов в виде кредитов спонсоров от компаний, таких как Warp, Datadog, SourceGraph, Stripe и Fireworks.
Пользователь делится оптимизированными настройками для запуска Qwen 3.6 27B с квантованием Q8_0 на системе RTX 4090 и RTX 3090 с использованием llama.cpp. Конфигурация включает разбиение тензоров, 999 слоев на GPU, контекст длиной 250k, спекулятивное декодирование и единый кэш КВ, что обеспечивает пропускную способность 75-100t/s с поддержкой визуальных данных и MTP.
Пользователь разрабатывает локальную, оффлайн-систему поиска документов и интеграции с LLM, включающую функции хранения, ввода, запроса и выделения. Он просит советы по выбору векторных баз данных (например, pgvector в Postgres по сравнению с Qdrant), возможности использования GraphRAG в оффлайн-режиме и открытых инструментов для выделения документов с цитатами.
Пользователь сообщает о успешном запуске модели Qwen 3.6 27B с квантованием Q6K+MTP и длиной контекста 131k на видеокарте 7900XTX с 24 ГБ VRAM. Это достигается с помощью квантования kvcache (Q5_0/Q4_0), что снижает использование VRAM на 12% по сравнению с Q8, позволяя модели работать со скоростью 55-60 токенов в секунду при использовании специальных флагов компиляции и аргументов llama.cpp.
Согласно техническому отчету z_ai, модель GLM 5.2 демонстрирует 98% максимального интеллекта в задачах программирования, используя менее половины своего общего бюджета токенов. Эффективность логического мышления модели значительно улучшилась: количество токенов увеличилось с 16,7 к до 36,7 к при переходе от GLM 5.1 к GLM 5.2, хотя настройки высокого уровня могут негативно сказаться на производительности локальных аппаратных средств.
AMD объявил о новых GPU, которые могут поддерживать локальные развертывания больших языковых моделей (LLM). Эти GPU разработаны с повышенной пропускной способностью памяти и вычислительными возможностями, что делает их подходящими для эффективного выполнения инференса и обучения больших языковых моделей в отдельных локальных системах.
Оценки показывают, что llama.cpp B70 с использованием бэкенда SYCL хорошо справляется с моделями, такими как gemma4 12B и 26B, достигая пропускной способности до 5662,45 t/s для модели E2B. Производительность значительно падает в режиме tg128, при этом модель qwen35 27B достигает лишь 15,42 t/s, что указывает на необходимость оптимизации.
Пользователь Reddit спрашивает, какой ИИ-агент лучше всего подходит для обработки локальных файлов офиса, таких как Excel, PDF, Word и JSON. В посте приводятся запросы к пользовательским опыту и реализованным рабочим процессам для таких задач.
Пользователи сообщают, что модель Qwen3.6 27B 8K иногда останавливается при генерации вызова инструмента, особенно когда пользователь отходит. Проблема решается тем, что инструментальный вызов вручную вставляется обратно в промпт, что позволяет модели продолжить выполнение. Вызов инструмента включает bash-функцию для поиска проходящих тестов в кодовой базе.
Пользователь просит рекомендации по книгам, чтобы сформировать прочную математическую основу для понимания и внесения вклада в области машинного обучения и глубокого обучения, особенно в связи с их интересом к архитектурам искусственного интеллекта и больших языковых моделей. Они признают, что интуитивное понимание ограничено без должной математической подготовки, и ищут структурированные ресурсы, чтобы дополнить свой текущий путь обучения через каналы, такие как 3b1b.
Релиз версии Rust 0.0.15. Эта ранняя версия относится к начальной фазе разработки языка и включает в себя основные функции языка.
Open Interpreter выпустил версию 0.0.16. Обновление вводит новые функции и улучшения в основных функциях, повышая взаимодействие с пользователем и возможности выполнения задач.