Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 41

¿Consejos? 2x 3090

Un usuario pide consejos sobre el uso de dos GPUs NVIDIA RTX 3090. La publicación incluye una imagen y enlaces a la presentación original en Reddit y los comentarios.

media r/LocalLLaMA · hace 2 h

Ahora puedes convertir cuantizaciones EXL3 en Mac con Apple Silicon

Los usuarios ahora pueden convertir y ejecutar modelos cuantizados EXL3 en Mac con Apple Silicon y 64GB+ de RAM. Las pruebas muestran que modelos como MiniCPM5 y Qwen3.6-27B logran un rendimiento comparable o ligeramente inferior a las conversiones basadas en tarjetas RTX, con EXL3 ofreciendo una calidad de cuantización superior en comparación con MLX.

media r/LocalLLaMA · hace 2 h

Cálculos rápidos sobre los costos de alojamiento colectivo para diffusiongemma en 2026

Un análisis de costos estima que alojar diffusiongemma a diferentes niveles de tokens por usuario genera costos mensuales por usuario que oscilan entre 1,7€ y 122,8€. El estudio encuentra que el uso de IA agéntica es económicamente insostenible para el alojamiento colectivo, aunque los costos podrían disminuir con nuevas GPUs o ASICs y un período de depreciación de la GPU más corto.

media r/LocalLLaMA · hace 2 h

Dos documentos de Word chateando mediante LLMs locales — ¿Casos de uso reales?

Un prototipo demuestra dos documentos de Word intercambiando contenido utilizando LLMs locales, con iteraciones sucesivas a lo largo de múltiples turnos. Los posibles casos de uso prácticos incluyen un documento de borrador y un documento de crítica que iteran juntos, o un documento de especificación y un documento de implementación colaborando, aunque la viabilidad de dichos flujos de trabajo sigue siendo incierta.

media r/LocalLLaMA · hace 2 h

¿Alguna opinión sobre Qwen3.6-27B@BF16 vs Step3.7@IQ4_XS?

El usuario pregunta qué modelo —Qwen3.6-27B en precisión BF16 o Step3.7 con cuantización IQ4_XS— tomaría decisiones más sensatas y autónomas con menos necesidad de guía humana. La consulta compara un modelo denso de alta precisión con un modelo MoE más grande pero de menor precisión, señalando los compromisos entre memoria y rendimiento.

media r/LocalLLaMA · hace 2 h

z.AI elogia al modelo de código abierto número 1

z.AI, que se clasifica como el número 2, ha elogiado públicamente al modelo de código abierto número 1. La publicación destaca la admiración por las capacidades del modelo, enfatizando su rendimiento y contribuciones a la comunidad.

media r/LocalLLaMA · hace 2 h

Proyecto de investigación: Inyección de intención táctica en lenguaje natural en políticas de agentes múltiples para fútbol

Un proyecto de investigación explora el uso de instrucciones tácticas en lenguaje natural proporcionadas por humanos para guiar agentes de IA autónomos en una simulación de fútbol. El sistema permite a los entrenadores humanos emitir directivas de alto nivel como 'presionar agresivamente' o 'explotar el lado izquierdo', que los agentes de IA adaptan en tiempo real dentro de un entorno dinámico y basado en equipos.

media r/LocalLLaMA · hace 2 h

¿Alguien aquí usa dos RTX 5090?

Un usuario pregunta si alguien ha construido recientemente una configuración con dos RTX 5090, señalando que su sistema actual con dos RTX 3090 funciona bien para el desarrollo de software. Menciona que actualizar a dos RTX 5090 es costoso y considera que los enchufes de su dormitorio podrían ser una limitación.

media r/LocalLLaMA · hace 2 h

Mejor LLM local para resumir historias en inglés

Un usuario pregunta cuál es el LLM local que actualmente tiene mejor rendimiento al resumir historias largas en inglés. La consulta destaca la necesidad de LLMs locales precisos capaces de manejar narrativas de varias páginas en inglés.

media r/LocalLLaMA · hace 2 h

GLM 5.2 UD IQ2_M produce la mejor imagen SVG de pelícano jamás vista

Un usuario comparte una imagen generada por el modelo GLM 5.2 UD IQ2_M, calificándola como la mejor imagen SVG de pelícano que ha visto. A pesar de la baja cuantización, el modelo demuestra fuertes capacidades, con el usuario señalando su potencial para funcionar significativamente mejor en configuraciones futuras de hardware de gama alta.

media r/LocalLLaMA · hace 2 h

SupraLabs lanza el mayor conjunto de datos de títulos de chat

SupraLabs ha lanzado un conjunto de datos curado de títulos de chat con 115K muestras, superando el récord anterior de 10K muestras. El conjunto filtrado está disponible como `SupraLabs/chat-titles-filtered-115K`, mientras que también se proporciona una versión sin filtrar con 150K muestras, junto con un conjunto de datos heredado de 12K.

media r/LocalLLaMA · hace 2 h

Mejores configuraciones para 48GB VRAM con Qwen 3.6 27B

Un usuario comparte configuraciones optimizadas para ejecutar Qwen 3.6 27B con cuantización Q8_0 en una configuración de RTX 4090 y RTX 3090 usando llama.cpp. La configuración incluye tensor split, 999 capas en GPU, contexto de 250k, decodificación especulativa y caché KV unificada, logrando un rendimiento de 75-100t/s con soporte para visión y MTP.

media r/LocalLLaMA · hace 2 h

Ayuda con un sistema RAG de documentos locales (almacenamiento + ingestión + consulta + resaltado)

Un usuario está diseñando una canalización local y sin conexión para recuperación de documentos y LLM, con funciones de almacenamiento, ingestión, consulta y resaltado. Busca consejos sobre bases de datos vectoriales (por ejemplo, pgvector en Postgres frente a Qdrant), viabilidad de GraphRAG sin conexión y herramientas de código abierto para el resaltado de documentos con citas.

media r/LocalLLaMA · hace 2 h

La 7900XTX con 24GB de VRAM ejecuta Qwen 3.6 27B con contexto de 131k

Un usuario informa haber ejecutado exitosamente un modelo Qwen 3.6 27B con cuantización Q6K+MTP y longitud de contexto de 131k en una 7900XTX con 24GB de VRAM. Esto se logra mediante la cuantización del kvcache (Q5_0/Q4_0), lo que reduce el uso de VRAM en un 12% en comparación con Q8, permitiendo que el modelo ejecute a 55-60 tokens por segundo con banderas de compilación específicas y argumentos de llama.cpp.

media r/LocalLLaMA · hace 2 h

Ofertas futuras de GPU de AMD para construcciones de LLM

AMD ha anunciado próximas ofertas de GPU que podrían soportar despliegues locales de modelos de lenguaje grande (LLM). Estas GPUs están diseñadas con mayor ancho de banda de memoria y capacidades de cómputo, haciéndolas adecuadas para inferencia y entrenamiento eficiente de LLM en rigs locales dedicados.

media r/LocalLLaMA · hace 2 h

Resultados de las pruebas de rendimiento de llama.cpp B70 con SYCL

Las pruebas muestran que llama.cpp B70 con el backend SYCL tiene un buen rendimiento en modelos como gemma4 12B y 26B, alcanzando un throughput de hasta 5662.45 t/s para el modelo E2B. El rendimiento cae significativamente en modo tg128, con qwen35 27B alcanzando solo 15.42 t/s, lo que indica margen para optimización.

media r/LocalLLaMA · hace 2 h

IA local para archivos de oficina locales

Un usuario de Reddit pregunta qué agente de IA es mejor para manejar archivos de oficina locales como Excel, PDF, Word y JSON. La publicación busca experiencias de usuarios y flujos de trabajo implementados para este tipo de tareas.

media r/LocalLLaMA · hace 2 h

Problema de llamada de herramientas en Qwen3.6 27B 8K de código abierto

Los usuarios informan que el modelo Qwen3.6 27B 8K a veces deja de procesar después de generar una llamada de herramienta, especialmente cuando el usuario se aleja. El problema se puede resolver pegando manualmente la llamada de herramienta de nuevo en el prompt, permitiendo que el modelo reanude la ejecución. La llamada de herramienta implica una función bash para encontrar pruebas que pasan en una base de código.

media r/LocalLLaMA · hace 2 h

¿Cuál es el mejor libro para aprender las matemáticas de ML/Aprendizaje Profundo?

Un usuario solicita recomendaciones de libros para construir una sólida base matemática que le permita comprender y contribuir al aprendizaje automático y al aprendizaje profundo, especialmente dada su interés en arquitecturas de IA y modelos de lenguaje grandes. Reconoce que la comprensión intuitiva es limitada sin una adecuada formación matemática y busca recursos estructurados que complementen su aprendizaje actual a través de canales como 3b1b.

media r/LocalLLaMA · hace 2 h

Agente local en 4090 - buscando configuraciones de LM Studio

Un usuario reporta una generación lenta de tokens al ejecutar un agente local en una 4090 con 24GB de VRAM, a pesar de ajustar la configuración del contexto y el batching. Señala que Gemma4 es más rápida pero produce tokens incorrectos como <code></tool_call></code>, y busca configuraciones recomendadas y explicaciones para parámetros como top_p y top_k.