Все статьи — korshunov.ai

Все статьи Страница 1 / 105

Пользователь просит совета по использованию 8 GPU Tesla T4

Пользователь Reddit приобрел восемь серверных карт Tesla T4 у списанных VDI-серверов и ищет рекомендации, как использовать оставшиеся устройства. Одна карта уже работает в шасси DEG1, но для остальных нужен сценарий использования или стратегия конфигурации.

media r/LocalLLaMA · 6 ч назад

Рассматривается апгрейд с 2 x RTX 3090 на 4 x 5070 TI

Пользователь r/LocalLLaMA рассматривает обновление аппаратного обеспечения: переход от двух GPU RTX 3090 к четырем картам RTX 5070 Ti, конкретно оценивая влияние на производительность при однопоточном выводе.

media r/LocalLLaMA · 6 ч назад

Открытие исходного кода инструмента для оценки VLM на ваших собственных видео с отслеживаемыми запусками

Авторы открыли исходный код инструмента для оценки моделей «зрение-язык» (VLM), который позволяет пользователям тестировать модели на своих собственных видеоданных с полной воспроизводимостью благодаря отслеживаемым запускам. Этот инструмент связывает каждый результат с его конкретным входными данными и конфигурацией, обеспечивая точную оценку точности, задержки и стоимости.

media r/LocalLLaMA · 6 ч назад

Обсуждение на Reddit: Локальные ИИ-рабочие процессы

Пост в сообществе r/LocalLLaMA просит пользователей поделиться локальными ИИ-рабочими процессами, которые значительно улучшили их продуктивность или полезность. Автор специально приглашает предложения по RAG, MCP, агентам для программирования, организации промптов, индексации документов и автоматизации.

media r/LocalLLaMA · 6 ч назад

Пользователь спрашивает, стоит ли купить один RTX Pro 6000 или два DGX Sparks для локальной разработки ИИ

Пользователь Reddit ищет рекомендации по оборудованию для запуска нескольких моделей малого и среднего размера локально для задач парсинга данных, извлечения информации и рассуждений. Пользователь намерен использовать эту конфигурацию для построения моделей, тестирования, создания LoRA и дистилляции, оставляя крупные облачные модели, такие как Opus, для сложных задач.

media r/LocalLLaMA · 6 ч назад

Gemma 4 12b нужны очки

Пользователь жалуется на настройки разрешения изображений по умолчанию в Gemma 4, отмечая, что модель испытывает трудности с расшифровкой мелкого текста и крупных композиционных элементов по сравнению с конкурентами, такими как Qwen 3.6.

media r/LocalLLaMA · 6 ч назад

Планирование небольшого AI-рига: 5 × RTX 5060 Ti 16 ГБ после продажи RTX 5090

Пользователь Reddit просит оценить план продажи своей Zotac Solid RTX 5090 с 128 ГБ ОЗУ и замены её на пять карт RTX 5060 Ti 16 ГБ.

media r/LocalLLaMA · 6 ч назад

сдвиг вайба: я вижу это приближающимся...

Предоставленный исходный контент состоит исключительно из заголовка и метаданных поста на Reddit без какого-либо сопроводительного текста статьи или существенной информации.

media r/LocalLLaMA · 6 ч назад

Пользователь Reddit предлагает объединить RTX 5080 и 4060 для локального вывода LLM

Пользователь сообщества r/LocalLLaMA рассматривает возможность обновления оборудования, чтобы повысить скорость и возможности вывода моделей Qwen, объединив будущую RTX 5080 со своей текущей RTX 4060. Пользователь стремится достичь скорости не менее 20-40 токенов в секунду при запуске моделей Qwen 27B, используя объединенные 24 ГБ VRAM с помощью разделения тензоров или слоев в llama.cpp или vLLm. Он оценивает эту асимметричную конфигурацию с двумя GPU по сравнению с другими вариантами, такими как AMD R9700 AI Pro или 7900XTX, приводя данные бенчмарков, которые указывают на ограниченный прирост производительности карт AMD относительно их стоимости.

media r/LocalLLaMA · 6 ч назад

Интерактивный объяснитель для спекулятивного декодирования и MTP

Пользователь опубликовал интерактивный объяснитель по теме спекулятивного декодирования и многозадачного предсказания (MTP). Ресурс доступен по ссылке, указанной в исходном сообщении.

media r/LocalLLaMA · 6 ч назад

Оптимизация llama.cpp + Qwen 27B на RTX PRO 6000 Blackwell для кодовых агентов

Пользователь сообщает о запуске Qwen3.6 27B MTP с llama.cpp на рабочей станции RTX PRO 6000 Blackwell, чтобы снизить зависимость от Claude, отмечая, что модель сопоставима с Sonnet, но страдает от проблем со стабильностью во время кодовых сессий.

media r/LocalLLaMA · 6 ч назад

Пользователь Reddit спрашивает об опыте использования модели Ornith-1.0 9B

Пользователь Reddit интересуется, тестировали ли другие модель Ornith-1.0 9B. Пользователь конкретно спрашивает, стоит ли рассмотреть её использование вместо вариантов Qwen2.5-9B.

media r/LocalLLaMA · 6 ч назад

KLD имеет недостатки при аблитерации

Пользователь Reddit утверждает, что расхождение Кульбака-Лейблера (KL) является ненадежной метрикой для измерения разницы между аблитерированной моделью и ее базовой версией. Автор отмечает, что KL можно представить множеством способов, она полностью зависит от оценочных промптов и часто манипулируется через first-token KL, чтобы сделать модели более привлекательными.

media r/LocalLLaMA · 6 ч назад

Вызывает ли режим разделения тензоров llama cpp проблемы?

Пользователь сообщает, что использование режима разделения тензоров в llama cpp вызывает зацикливание при вызове инструментов и построении цепочек рассуждений при запуске моделей Qwen 27B и Gemma 4 26B (MoE) на RTX 5080 и двух RTX 5060 Ti.

media r/LocalLLaMA · 6 ч назад

Сколько на самом деле занимает обработка вашего промпта при возобновлении долгой сессии?

Пользователь Reddit просит сообщество предоставить данные о том, сколько времени требуется для возобновления сессий кодинговых агентов с длинным контекстом в 100 тысяч токенов и более. Запрос адресован пользователям, которые запускают этих агентов локально.

media r/LocalLLaMA · 6 ч назад

Влияние конфигураций PCIe 5.0 x8/x4 против x8/x8 на инференс с двумя GPU

Пользователь спрашивает, вызывает ли использование двух GPU в конфигурации PCIe 5.0 x8/x4 вместо x8/x8 значительное падение производительности при инференсе LLM.

arxiv arXiv cs.CL · 6 ч назад

Композициональность и лексикон в эволюционной семантике

В данной статье представлен фреймворк эволюционного моделирования, который интегрирует формальную семантику, позволяя лексическим значениям и композиционным функциям совместно эволюционировать под давлением стремления к концептуальной простоте и коммуникативной точности.

arxiv arXiv cs.CL · 6 ч назад

Преодоление разрыва между речью и мышлением: понимание динамики диалога в контекстах совместного решения задач

В данной статье представлен концептуальный фреймворк для анализа динамики диалога в контекстах совместного решения задач, с особым акцентом на взаимодействия человек-ИИ и многоагентные взаимодействия. Авторы утверждают, что понимание этих диалогических взаимодействий имеет решающее значение для оптимизации партнерства по мере того, как интеллектуальные системы приобретают автономные способности к рассуждению.

arxiv arXiv cs.CL · 6 ч назад

Языковые модели как базы знаний для конкретных задач: анализ интерпретируемости

В данном исследовании изучается, функционируют ли языковые модели как последовательные базы знаний, анализируя, остаются ли факты, полученные в ходе одной задачи, доступными в других. Исследование показывает, что языковые модели кодируют знания специфичным для задачи образом, при этом различные подмножества параметров лежат в основе разных задач для одного и того же факта.

arxiv arXiv cs.CL · 7 ч назад

CARVE: Содержательно-ориентированная рекуррентная модель с эффективностью значений для чанк-параллельного линейного внимания

Архитектура CARVE устраняет три критических недостатка ведущей модели рекуррентной сети GDN-2 на основе правила дельты, ограничивая операции стирания осью ключей, что позволяет выполнять корректное решение треугольных чанков в форме WY и повышать эффективность использования значений. За счёт повторного использования тензора рекуррентного вывода в качестве сигнала содержимого и замены проекций вратарей записи для каждого значения на скаляры CARVE сохраняет битово-идентичную инициализацию по сравнению с GDN-2, одновременно решая проблемы слепой к памяти настройки вратарей.