Тимоти Б. Ли о больших языковых моделях и кривых обучения
Тимоти Б. Ли критикует представление о том, что использование больших языковых моделей не требует никаких навыков или кривой обучения.
Тимоти Б. Ли критикует представление о том, что использование больших языковых моделей не требует никаких навыков или кривой обучения.
Пользователь делится скриптом конфигурации bash для запуска модели Qwen3.6-35B-A3B IQ4_XS с использованием бэкенда Vulkan в llama.cpp на GPU AMD 7900 XTX под управлением Ubuntu.
Пользователь обновил бюджетный ПК, добавив две RTX 3090 и одну Intel Arc A770, чтобы протестировать производительность мульти-GPU инференса с помощью llama.cpp. Основной вывод заключается в том, что бэкенд Vulkan вызывает чрезмерные накладные расходы на память по сравнению с CUDA, что делает его непригодным для смешанных конфигураций от разных производителей.
Pull request, отправленный в репозиторий ggml-org/llama.cpp, направлен на повышение жизнеспособности тензорного параллелизма Vulkan. Автор, идентифицированный как Piotr, реализовал изменения, призванные сделать эту функцию более удобной для использования.
Разработчик с 45-летним опытом в разработке программного обеспечения завершает создание локально-ориентированного фреймворка для запуска локальных моделей и моделей через API, включающего логику работы с несколькими агентами. Автор потратил шесть месяцев на разработку инструментов для улучшения рабочего процесса с локальными LLM и теперь спрашивает сообщество, какие функции могли бы улучшить их опыт.
Статья ставит под сомнение обоснование классификации Wall Street акций Intel как инвестиций в «лопатки и кирки» для ИИ, задаваясь вопросом, кто на самом деле покупает оборудование Intel для центров обработки данных с ИИ.
Пользователь Reddit планирует развернуть машину с несколькими GPU для обслуживания моделей Coding и Hermes, ища решения, которые позволяют гибко менять конфигурации без ручного вмешательства.
Автор утверждает, что приобретение нового оборудования следует использовать для контролируемой тонкой настройки (SFT) и усиленной тонкой настройки (RFT), а не для стандартного бенчмаркинга моделей. Этот подход предлагает жизнеспособный путь к монетизации за счет использования открытых моделей, особенно по мере того, как проприетарные API становятся менее доступными или более дорогими.
Фернандо Иаррасаваль организовал челлендж на hackmyclaw.com, чтобы проверить, смогут ли 6000 попыток утечьнуть секреты из его инстанса OpenClaw с использованием модели Opus 4.6.
Эндрю Несбит опубликовал спекулятивный отчет об инциденте, описывающий сценарий, в котором два агента ИИ-рецензирования от конкурирующих поставщиков попадают в цикл разногласий относительно безопасности пакета 'foxhole-lz4'.
Разработчик создал потоковую модель преобразования медицинской речи в текст, которая работает полностью на устройстве, продемонстрированную с помощью MLX на MacBook. В настоящее время проект проходит дополнительные оценки, а открытый вес планируется выпустить на следующей неделе.
В данной рецензии оценивается книга Гульельмо Иоддзиа «Доменно-специфичные малые языковые модели», в которой предлагается сдвиг парадигмы от универсальных больших языковых моделей к специализированным, дообученным малым языковым моделям (SLM). Рецензент утверждает, что SLM обеспечивают лучший контроль, прозрачность и экономическую эффективность для узких задач по сравнению с хайпом вокруг искусственного общего интеллекта.
В статье описывается инженерный подход к созданию локального ИИ-ассистента, который преобразует сырые скриншоты и расшифровки встреч в данные, доступные для запросов, используя только модели, эффективно работающие на ноутбуках. Система использует фреймворк Apple Vision для OCR, дистилляцию во время простоя модели Gemma 4B и гибридный поиск для избежания узких мест производительности.
OpenAI запустила ограниченный предпросмотр серии моделей GPT-5.6, представив три различных варианта: Sol в качестве флагмана, Terra для сбалансированной повседневной работы и Luna для быстрых и доступных задач. Компания планирует сделать эти модели общедоступными в ближайшие недели после этого начального этапа с доверенными партнерами.
Пользователь Reddit приобрел восемь серверных карт Tesla T4 у списанных VDI-серверов и ищет рекомендации, как использовать оставшиеся устройства. Одна карта уже работает в шасси DEG1, но для остальных нужен сценарий использования или стратегия конфигурации.
Пользователь r/LocalLLaMA рассматривает обновление аппаратного обеспечения: переход от двух GPU RTX 3090 к четырем картам RTX 5070 Ti, конкретно оценивая влияние на производительность при однопоточном выводе.
Авторы открыли исходный код инструмента для оценки моделей «зрение-язык» (VLM), который позволяет пользователям тестировать модели на своих собственных видеоданных с полной воспроизводимостью благодаря отслеживаемым запускам. Этот инструмент связывает каждый результат с его конкретным входными данными и конфигурацией, обеспечивая точную оценку точности, задержки и стоимости.
Пост в сообществе r/LocalLLaMA просит пользователей поделиться локальными ИИ-рабочими процессами, которые значительно улучшили их продуктивность или полезность. Автор специально приглашает предложения по RAG, MCP, агентам для программирования, организации промптов, индексации документов и автоматизации.
Пользователь Reddit ищет рекомендации по оборудованию для запуска нескольких моделей малого и среднего размера локально для задач парсинга данных, извлечения информации и рассуждений. Пользователь намерен использовать эту конфигурацию для построения моделей, тестирования, создания LoRA и дистилляции, оставляя крупные облачные модели, такие как Opus, для сложных задач.
Пользователь жалуется на настройки разрешения изображений по умолчанию в Gemma 4, отмечая, что модель испытывает трудности с расшифровкой мелкого текста и крупных композиционных элементов по сравнению с конкурентами, такими как Qwen 3.6.