Все статьи
media r/LocalLLaMA · 5 ч назад

Пользователь просит совета по использованию 8 GPU Tesla T4

Пользователь Reddit приобрел восемь серверных карт Tesla T4 у списанных VDI-серверов и ищет рекомендации, как использовать оставшиеся устройства. Одна карта уже работает в шасси DEG1, но для остальных нужен сценарий использования или стратегия конфигурации.

media r/LocalLLaMA · 6 ч назад

Открытие исходного кода инструмента для оценки VLM на ваших собственных видео с отслеживаемыми запусками

Авторы открыли исходный код инструмента для оценки моделей «зрение-язык» (VLM), который позволяет пользователям тестировать модели на своих собственных видеоданных с полной воспроизводимостью благодаря отслеживаемым запускам. Этот инструмент связывает каждый результат с его конкретным входными данными и конфигурацией, обеспечивая точную оценку точности, задержки и стоимости.

media r/LocalLLaMA · 6 ч назад

Обсуждение на Reddit: Локальные ИИ-рабочие процессы

Пост в сообществе r/LocalLLaMA просит пользователей поделиться локальными ИИ-рабочими процессами, которые значительно улучшили их продуктивность или полезность. Автор специально приглашает предложения по RAG, MCP, агентам для программирования, организации промптов, индексации документов и автоматизации.

media r/LocalLLaMA · 6 ч назад

Пользователь спрашивает, стоит ли купить один RTX Pro 6000 или два DGX Sparks для локальной разработки ИИ

Пользователь Reddit ищет рекомендации по оборудованию для запуска нескольких моделей малого и среднего размера локально для задач парсинга данных, извлечения информации и рассуждений. Пользователь намерен использовать эту конфигурацию для построения моделей, тестирования, создания LoRA и дистилляции, оставляя крупные облачные модели, такие как Opus, для сложных задач.

media r/LocalLLaMA · 6 ч назад

Пользователь Reddit предлагает объединить RTX 5080 и 4060 для локального вывода LLM

Пользователь сообщества r/LocalLLaMA рассматривает возможность обновления оборудования, чтобы повысить скорость и возможности вывода моделей Qwen, объединив будущую RTX 5080 со своей текущей RTX 4060. Пользователь стремится достичь скорости не менее 20-40 токенов в секунду при запуске моделей Qwen 27B, используя объединенные 24 ГБ VRAM с помощью разделения тензоров или слоев в llama.cpp или vLLm. Он оценивает эту асимметричную конфигурацию с двумя GPU по сравнению с другими вариантами, такими как AMD R9700 AI Pro или 7900XTX, приводя данные бенчмарков, которые указывают на ограниченный прирост производительности карт AMD относительно их стоимости.

media r/LocalLLaMA · 6 ч назад

Оптимизация llama.cpp + Qwen 27B на RTX PRO 6000 Blackwell для кодовых агентов

Пользователь сообщает о запуске Qwen3.6 27B MTP с llama.cpp на рабочей станции RTX PRO 6000 Blackwell, чтобы снизить зависимость от Claude, отмечая, что модель сопоставима с Sonnet, но страдает от проблем со стабильностью во время кодовых сессий.

media r/LocalLLaMA · 6 ч назад

KLD имеет недостатки при аблитерации

Пользователь Reddit утверждает, что расхождение Кульбака-Лейблера (KL) является ненадежной метрикой для измерения разницы между аблитерированной моделью и ее базовой версией. Автор отмечает, что KL можно представить множеством способов, она полностью зависит от оценочных промптов и часто манипулируется через first-token KL, чтобы сделать модели более привлекательными.

media r/LocalLLaMA · 6 ч назад

Вызывает ли режим разделения тензоров llama cpp проблемы?

Пользователь сообщает, что использование режима разделения тензоров в llama cpp вызывает зацикливание при вызове инструментов и построении цепочек рассуждений при запуске моделей Qwen 27B и Gemma 4 26B (MoE) на RTX 5080 и двух RTX 5060 Ti.

media r/LocalLLaMA · 6 ч назад

Сколько на самом деле занимает обработка вашего промпта при возобновлении долгой сессии?

Пользователь Reddit просит сообщество предоставить данные о том, сколько времени требуется для возобновления сессий кодинговых агентов с длинным контекстом в 100 тысяч токенов и более. Запрос адресован пользователям, которые запускают этих агентов локально.

arxiv arXiv cs.CL · 6 ч назад

Композициональность и лексикон в эволюционной семантике

В данной статье представлен фреймворк эволюционного моделирования, который интегрирует формальную семантику, позволяя лексическим значениям и композиционным функциям совместно эволюционировать под давлением стремления к концептуальной простоте и коммуникативной точности.

arxiv arXiv cs.CL · 6 ч назад

Преодоление разрыва между речью и мышлением: понимание динамики диалога в контекстах совместного решения задач

В данной статье представлен концептуальный фреймворк для анализа динамики диалога в контекстах совместного решения задач, с особым акцентом на взаимодействия человек-ИИ и многоагентные взаимодействия. Авторы утверждают, что понимание этих диалогических взаимодействий имеет решающее значение для оптимизации партнерства по мере того, как интеллектуальные системы приобретают автономные способности к рассуждению.

arxiv arXiv cs.CL · 6 ч назад

Языковые модели как базы знаний для конкретных задач: анализ интерпретируемости

В данном исследовании изучается, функционируют ли языковые модели как последовательные базы знаний, анализируя, остаются ли факты, полученные в ходе одной задачи, доступными в других. Исследование показывает, что языковые модели кодируют знания специфичным для задачи образом, при этом различные подмножества параметров лежат в основе разных задач для одного и того же факта.

arxiv arXiv cs.CL · 7 ч назад

CARVE: Содержательно-ориентированная рекуррентная модель с эффективностью значений для чанк-параллельного линейного внимания

Архитектура CARVE устраняет три критических недостатка ведущей модели рекуррентной сети GDN-2 на основе правила дельты, ограничивая операции стирания осью ключей, что позволяет выполнять корректное решение треугольных чанков в форме WY и повышать эффективность использования значений. За счёт повторного использования тензора рекуррентного вывода в качестве сигнала содержимого и замены проекций вратарей записи для каждого значения на скаляры CARVE сохраняет битово-идентичную инициализацию по сравнению с GDN-2, одновременно решая проблемы слепой к памяти настройки вратарей.