Docker предварительное построение веб-интерфейса для s390x
Подана просьба о добавлении предварительно построенного веб-интерфейса для архитектуры s390x в Docker. Изменение пока ожидает релиза и еще не было опубликовано.
Подана просьба о добавлении предварительно построенного веб-интерфейса для архитектуры s390x в Docker. Изменение пока ожидает релиза и еще не было опубликовано.
SupraLabs выпустил отобранный набор заголовков чатов с 115 тысячами образцов, превысив предыдущий рекорд в 10 тысячах образцов. Отфильтрованная база данных доступна как "SupraLabs/chat-titles-filtered-115K", а также предоставляется неотфильтрованная версия с 150 тысячами образцов, а также устаревшая база данных из 12 тысяч образцов.
Получатели пространства скрытых получают ограниченную скидку в размере 250 долларов на билеты на AIE WF 2026. Посетители также получают 40 тысяч долларов в виде кредитов спонсоров от компаний, таких как Warp, Datadog, SourceGraph, Stripe и Fireworks.
Пользователь делится оптимизированными настройками для запуска Qwen 3.6 27B с квантованием Q8_0 на системе RTX 4090 и RTX 3090 с использованием llama.cpp. Конфигурация включает разбиение тензоров, 999 слоев на GPU, контекст длиной 250k, спекулятивное декодирование и единый кэш КВ, что обеспечивает пропускную способность 75-100t/s с поддержкой визуальных данных и MTP.
Пользователь разрабатывает локальную, оффлайн-систему поиска документов и интеграции с LLM, включающую функции хранения, ввода, запроса и выделения. Он просит советы по выбору векторных баз данных (например, pgvector в Postgres по сравнению с Qdrant), возможности использования GraphRAG в оффлайн-режиме и открытых инструментов для выделения документов с цитатами.
Пользователь сообщает о успешном запуске модели Qwen 3.6 27B с квантованием Q6K+MTP и длиной контекста 131k на видеокарте 7900XTX с 24 ГБ VRAM. Это достигается с помощью квантования kvcache (Q5_0/Q4_0), что снижает использование VRAM на 12% по сравнению с Q8, позволяя модели работать со скоростью 55-60 токенов в секунду при использовании специальных флагов компиляции и аргументов llama.cpp.
Согласно техническому отчету z_ai, модель GLM 5.2 демонстрирует 98% максимального интеллекта в задачах программирования, используя менее половины своего общего бюджета токенов. Эффективность логического мышления модели значительно улучшилась: количество токенов увеличилось с 16,7 к до 36,7 к при переходе от GLM 5.1 к GLM 5.2, хотя настройки высокого уровня могут негативно сказаться на производительности локальных аппаратных средств.
AMD объявил о новых GPU, которые могут поддерживать локальные развертывания больших языковых моделей (LLM). Эти GPU разработаны с повышенной пропускной способностью памяти и вычислительными возможностями, что делает их подходящими для эффективного выполнения инференса и обучения больших языковых моделей в отдельных локальных системах.
Оценки показывают, что llama.cpp B70 с использованием бэкенда SYCL хорошо справляется с моделями, такими как gemma4 12B и 26B, достигая пропускной способности до 5662,45 t/s для модели E2B. Производительность значительно падает в режиме tg128, при этом модель qwen35 27B достигает лишь 15,42 t/s, что указывает на необходимость оптимизации.
Пользователь Reddit спрашивает, какой ИИ-агент лучше всего подходит для обработки локальных файлов офиса, таких как Excel, PDF, Word и JSON. В посте приводятся запросы к пользовательским опыту и реализованным рабочим процессам для таких задач.
Пользователи сообщают, что модель Qwen3.6 27B 8K иногда останавливается при генерации вызова инструмента, особенно когда пользователь отходит. Проблема решается тем, что инструментальный вызов вручную вставляется обратно в промпт, что позволяет модели продолжить выполнение. Вызов инструмента включает bash-функцию для поиска проходящих тестов в кодовой базе.
Пользователь просит рекомендации по книгам, чтобы сформировать прочную математическую основу для понимания и внесения вклада в области машинного обучения и глубокого обучения, особенно в связи с их интересом к архитектурам искусственного интеллекта и больших языковых моделей. Они признают, что интуитивное понимание ограничено без должной математической подготовки, и ищут структурированные ресурсы, чтобы дополнить свой текущий путь обучения через каналы, такие как 3b1b.
Релиз версии Rust 0.0.15. Эта ранняя версия относится к начальной фазе разработки языка и включает в себя основные функции языка.
Open Interpreter выпустил версию 0.0.16. Обновление вводит новые функции и улучшения в основных функциях, повышая взаимодействие с пользователем и возможности выполнения задач.
Open Interpreter выпустил версию 0.0.17. Обновление вводит новые функции и улучшения в основных функциях, повышая взаимодействие с пользователем и возможности выполнения задач.
Локальный агент может получить доступ к веб-сайтам без использования платных API, используя саморазвернутый SearXNG для поиска и Scrapling с помощью Trafilatura для извлечения содержимого страниц. Настройка избегает зависимостей от поставщиков, использует открытые инструменты и обеспечивает результаты поиска и содержимое страниц в формате Markdown, с резервными вариантами для CAPTCH и других защитных механизмов.
Пользователь сообщает о медленной генерации токенов при запуске локального агента на видеокарте 4090 с 24 ГБ ОЗУ, несмотря на настройку параметров контекста и батчинга. Он отмечает, что Gemma4 работает быстрее, но генерирует неверные токены, такие как </tool_call>, и ищет рекомендованные настройки и объяснения параметров, таких как top_p и top_k.
SupraLabs представил модель генерации чат-заголовков supra-title-FFT-preview, обученную на 115K образцов из отфильтрованного датасета, расширяя охват по сравнению с предыдущей моделью из 12K образцов. Модель использует полную настройку на LiquidAI/LFM2.5-350M-Base с точностью BF16 и предназначена для генерации заголовков чатов в однозадачном режиме, доступна через Hugging Face и поддерживает прямую загрузку или развертывание с помощью vLLM.
RTX 5090 MSI потребляет 475-500 Вт во время инференса или тренировки диффузии. Пользователь отмечает, что не испытывает проблем с кабелем питания, подчеркивая, что его не следует изгибать для обеспечения безопасной и стабильной работы.
Attention Algebra — это прототип, который переводит естественный язык в алгебраические выражения, отображает их на математические динамики и визуализирует результат в виде спектрограммы. Он рассматривает язык как потерянную проекцию высокомерных состояний, предполагая, что исходные паттерны внимания, сгруппированные в функции, служат «ДНК» текста, позволяя эффективно строить цепочки рассуждений, сокращая количество токенов с 20 тысяч до 4 тысяч.