2000 человек пытались взломать моего ИИ-ассистента
Фернандо Иаррасаваль организовал челлендж на hackmyclaw.com, чтобы проверить, смогут ли 6000 попыток утечьнуть секреты из его инстанса OpenClaw с использованием модели Opus 4.6.
Фернандо Иаррасаваль организовал челлендж на hackmyclaw.com, чтобы проверить, смогут ли 6000 попыток утечьнуть секреты из его инстанса OpenClaw с использованием модели Opus 4.6.
Эндрю Несбит опубликовал спекулятивный отчет об инциденте, описывающий сценарий, в котором два агента ИИ-рецензирования от конкурирующих поставщиков попадают в цикл разногласий относительно безопасности пакета 'foxhole-lz4'.
Разработчик создал потоковую модель преобразования медицинской речи в текст, которая работает полностью на устройстве, продемонстрированную с помощью MLX на MacBook. В настоящее время проект проходит дополнительные оценки, а открытый вес планируется выпустить на следующей неделе.
В данной рецензии оценивается книга Гульельмо Иоддзиа «Доменно-специфичные малые языковые модели», в которой предлагается сдвиг парадигмы от универсальных больших языковых моделей к специализированным, дообученным малым языковым моделям (SLM). Рецензент утверждает, что SLM обеспечивают лучший контроль, прозрачность и экономическую эффективность для узких задач по сравнению с хайпом вокруг искусственного общего интеллекта.
В статье описывается инженерный подход к созданию локального ИИ-ассистента, который преобразует сырые скриншоты и расшифровки встреч в данные, доступные для запросов, используя только модели, эффективно работающие на ноутбуках. Система использует фреймворк Apple Vision для OCR, дистилляцию во время простоя модели Gemma 4B и гибридный поиск для избежания узких мест производительности.
OpenAI запустила ограниченный предпросмотр серии моделей GPT-5.6, представив три различных варианта: Sol в качестве флагмана, Terra для сбалансированной повседневной работы и Luna для быстрых и доступных задач. Компания планирует сделать эти модели общедоступными в ближайшие недели после этого начального этапа с доверенными партнерами.
Пользователь Reddit приобрел восемь серверных карт Tesla T4 у списанных VDI-серверов и ищет рекомендации, как использовать оставшиеся устройства. Одна карта уже работает в шасси DEG1, но для остальных нужен сценарий использования или стратегия конфигурации.
Пользователь r/LocalLLaMA рассматривает обновление аппаратного обеспечения: переход от двух GPU RTX 3090 к четырем картам RTX 5070 Ti, конкретно оценивая влияние на производительность при однопоточном выводе.
Авторы открыли исходный код инструмента для оценки моделей «зрение-язык» (VLM), который позволяет пользователям тестировать модели на своих собственных видеоданных с полной воспроизводимостью благодаря отслеживаемым запускам. Этот инструмент связывает каждый результат с его конкретным входными данными и конфигурацией, обеспечивая точную оценку точности, задержки и стоимости.
Пост в сообществе r/LocalLLaMA просит пользователей поделиться локальными ИИ-рабочими процессами, которые значительно улучшили их продуктивность или полезность. Автор специально приглашает предложения по RAG, MCP, агентам для программирования, организации промптов, индексации документов и автоматизации.
Пользователь Reddit ищет рекомендации по оборудованию для запуска нескольких моделей малого и среднего размера локально для задач парсинга данных, извлечения информации и рассуждений. Пользователь намерен использовать эту конфигурацию для построения моделей, тестирования, создания LoRA и дистилляции, оставляя крупные облачные модели, такие как Opus, для сложных задач.
Пользователь жалуется на настройки разрешения изображений по умолчанию в Gemma 4, отмечая, что модель испытывает трудности с расшифровкой мелкого текста и крупных композиционных элементов по сравнению с конкурентами, такими как Qwen 3.6.
Пользователь Reddit просит оценить план продажи своей Zotac Solid RTX 5090 с 128 ГБ ОЗУ и замены её на пять карт RTX 5060 Ti 16 ГБ.
Предоставленный исходный контент состоит исключительно из заголовка и метаданных поста на Reddit без какого-либо сопроводительного текста статьи или существенной информации.
Пользователь сообщества r/LocalLLaMA рассматривает возможность обновления оборудования, чтобы повысить скорость и возможности вывода моделей Qwen, объединив будущую RTX 5080 со своей текущей RTX 4060. Пользователь стремится достичь скорости не менее 20-40 токенов в секунду при запуске моделей Qwen 27B, используя объединенные 24 ГБ VRAM с помощью разделения тензоров или слоев в llama.cpp или vLLm. Он оценивает эту асимметричную конфигурацию с двумя GPU по сравнению с другими вариантами, такими как AMD R9700 AI Pro или 7900XTX, приводя данные бенчмарков, которые указывают на ограниченный прирост производительности карт AMD относительно их стоимости.
Пользователь опубликовал интерактивный объяснитель по теме спекулятивного декодирования и многозадачного предсказания (MTP). Ресурс доступен по ссылке, указанной в исходном сообщении.
Пользователь сообщает о запуске Qwen3.6 27B MTP с llama.cpp на рабочей станции RTX PRO 6000 Blackwell, чтобы снизить зависимость от Claude, отмечая, что модель сопоставима с Sonnet, но страдает от проблем со стабильностью во время кодовых сессий.
Пользователь Reddit интересуется, тестировали ли другие модель Ornith-1.0 9B. Пользователь конкретно спрашивает, стоит ли рассмотреть её использование вместо вариантов Qwen2.5-9B.
Пользователь Reddit утверждает, что расхождение Кульбака-Лейблера (KL) является ненадежной метрикой для измерения разницы между аблитерированной моделью и ее базовой версией. Автор отмечает, что KL можно представить множеством способов, она полностью зависит от оценочных промптов и часто манипулируется через first-token KL, чтобы сделать модели более привлекательными.
Пользователь сообщает, что использование режима разделения тензоров в llama cpp вызывает зацикливание при вызове инструментов и построении цепочек рассуждений при запуске моделей Qwen 27B и Gemma 4 26B (MoE) на RTX 5080 и двух RTX 5060 Ti.