Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 41

Gemma 4 31B Q6 funciona a 8-9 t/s en dos tarjetas 9060 XT

Un usuario informa que ejecuta Gemma 4 31B Q6 en dos tarjetas NVIDIA 9060 XT de 16GB, logrando un rendimiento constante de 8-9 tokens por segundo. Señalan que el rendimiento es utilizable pero está por debajo de las expectativas, sugiriendo posibles optimizaciones o limitaciones de hardware.

media r/LocalLLaMA · hace 1 h En vivo

Comparación entre Gemma 4 31B Q6 y Gemma 4 31B QAT

Una discusión en Reddit compara los modelos Gemma 4 31B Q6 y Gemma 4 31B QAT, centrándose en el rendimiento para tareas de escritura creativa. Los usuarios buscan orientación sobre qué variante ofrece mejores resultados generales, con preguntas sobre KLD (Divergencia de Kullback-Leibler) como métrica de calidad del modelo.

media r/LocalLLaMA · hace 1 h En vivo

Comparación de modelos locales de texto a imagen: La prueba definitiva

Una evaluación analizó 192 prompts en modelos locales de texto a imagen en un GX10 Spark, evaluando capacidades como comprensión de texto, generación de rostros y composición espacial. Los resultados están disponibles en ImageBench, con comparaciones a APIs de vanguardia usando modelos de lenguaje visuales, y todos los prompts e imágenes son de acceso público.

media r/LocalLLaMA · hace 1 h En vivo

Flujo de trabajo para programadores con configuración lenta de LLM local

Los usuarios comparten sus flujos de trabajo para codificar con LLMs locales cuando la generación de tokens es inferior a 10 tokens por segundo. Las estrategias comunes incluyen el uso de prompts concisos, aprovechar modelos locales con contexto mínimo y agrupar consultas para maximizar la eficiencia.

media r/LocalLLaMA · hace 1 h En vivo

¿Cuál es tu flujo de trabajo favorito para convertir PDF con estructura compleja a Markdown?

Un usuario pregunta sobre herramientas para convertir PDFs con estructuras complejas como tablas y cajas flotantes a Markdown. Ha probado markitdown, Docling y Mineru, y busca recomendaciones para mejores alternativas.

media r/LocalLLaMA · hace 1 h En vivo

Recomendaciones de agentes para la configuración de un proyecto web en Python

Un usuario busca recomendaciones del stack de software para construir un proyecto web en Python en PyCharm utilizando LLMs locales. Su objetivo es aprovechar sistemas de agentes que puedan generar planes, ejecutar código y realizar pruebas, con experiencia previa en los modelos GPT-OSS y Qwen mostrando diferencias de rendimiento y calidad.

media r/LocalLLaMA · hace 1 h En vivo

Finalmente viendo beneficios de MTP después de eliminar GGML_CUDA_ALLREDUCE

Un usuario reportó que eliminar la variable de entorno GGML_CUDA_ALLREDUCE llevó a una mejora notable en el throughput (TPS) para MTP en inferencia de LLM local. El cambio, que previamente se consideraba beneficioso, redujo inesperadamente la sobrecarga y mejoró el rendimiento, especialmente después de extensos ensayos de configuración.

media r/LocalLLaMA · hace 1 h En vivo

El agente Hermes se ve feo y tiene una mala experiencia de usuario

Un usuario expresa decepción con la interfaz web de Hermes Agent, citando fuentes y gráficos feos, así como una experiencia de usuario lenta tanto en las interfaces web como de terminal. A pesar de su promesa de funciones integradas y facilidad de uso, el usuario lo encuentra significativamente más lento y menos intuitivo que Pi Mono Agent, especialmente cuando se usa con los modelos Qwen3.6-35B y Gemma4-26B.

media r/LocalLLaMA · hace 1 h En vivo

Tabla de clasificación para modelos cuantizados, ¿similar al análisis artificial?

La tabla de clasificación de modelos del análisis artificial ayuda a comparar la inteligencia de los modelos, pero ignora los efectos de la cuantización en los modelos abiertos. Los usuarios preguntan si hay una mejor manera de comparar modelos abiertos cuantizados con los propietarios sin ejecutarlos directamente.

media r/LocalLLaMA · hace 1 h En vivo

No es un nuevo modelo, solo un Feliz Día del Padre y un agradecimiento

Un usuario de Reddit expresa su gratitud a la comunidad LocalLLaMA, compartiendo que el post no trata sobre un nuevo modelo sino un agradecimiento personal. Como padre, destaca el valor de la comunidad como refugio durante la vida familiar, apreciando las interacciones sobre configuración, hardware y ajuste de modelos.

media r/LocalLLaMA · hace 1 h En vivo

Optimización de la inferencia de LLM local: La guía completa

Una guía exhaustiva sobre la optimización de la inferencia de LLM local abarca la gestión de VRAM, el caché KV, la colocación de MoE, MTP, la optimización de CPU y los problemas comunes de falta de memoria. La guía está disponible en https://carteakey.dev/blog/local-inference/local-llm-optimization/ e incluye solicitudes de comentarios del autor.

media r/LocalLLaMA · hace 1 h En vivo

GLM-5.2 lanzado en el benchmark DeepSWE

GLM-5.2 ha sido evaluado en el benchmark DeepSWE, con el rendimiento destacado en la esquina superior derecha de la visualización. La publicación señala que las puntuaciones disminuyen a medida que aumenta el precio, y remite al sitio web de DeepSWE y ArtificialAnalysis para evaluaciones alternativas, mientras aborda críticas y contexto histórico sobre la validez del benchmark.

blog Simon Willison · hace 1 h En vivo

Cloudflare lanza cuentas temporales para agentes de IA

Cloudflare ahora permite a los usuarios implementar aplicaciones de Workers sin una cuenta permanente mediante el comando npx wrangler deploy --temporary. Cada implementación se ejecuta en un proyecto efímero que permanece activo durante 60 minutos, con un enlace de reclamación que expira en menos de una hora si no se reclama la propiedad.

blog Simon Willison · hace 1 h En vivo

Lanzamiento de sqlite-utils 4.0rc1

sqlite-utils 4.0rc1 introduce soporte para migraciones y transacciones anidadas. El lanzamiento está documentado en el blog de Simon Willison.

blog Simon Willison · hace 1 h En vivo

sqlite-utils 4.0rc1 añade migraciones y transacciones anidadas

sqlite-utils 4.0rc1 introduce migraciones de base de datos y db.atomic() para transacciones anidadas. Las migraciones admiten cambios de esquema basados en scripts mediante una API simplificada, mientras que db.atomic() permite transacciones anidadas a través de puntos de guardado, mejorando el manejo de errores y la integridad de los datos. La versión incluye cambios incompatibles con versiones anteriores, como un comportamiento actualizado de upsert y la eliminación del soporte para Python 3.8, con opciones para mantener comportamientos antiguos.

media r/LocalLLaMA · hace 1 h En vivo

Qwen 27B para planificación, Qwen 35B-A3B para ejecución

Un usuario explora el uso de Qwen 27B para la planificación de tareas a largo plazo y Qwen 35B-A3B para una ejecución rápida, señalando que el modelo de 27B funciona a 7-10 tokens por segundo y el de 35B-A3B a ~18 tokens por segundo. El usuario considera alternar entre modelos para aprovechar sus diferentes fortalezas, aunque actualmente usa exclusivamente el 35B-A3B y cuestiona si la brecha de inteligencia entre los modelos es significativa.

media r/LocalLLaMA · hace 1 h En vivo

Resultados actualizados del benchmark de modelos de visión y recomendaciones

Un benchmark revisado de modelos de lenguaje visual locales evalúa 23 modelos en 30 imágenes con 3 pruebas cada una, totalizando 2.070 pruebas y entre 60 y 70 horas de inferencia. El modelo con mejor rendimiento es Qwen3.6 27B (nothink) en Q4 con una puntuación de 79.6, seguido por Qwen3.5 4B (nothink) en Q4, y Qwen3-VL 8B en Q8. Los hallazgos clave incluyen que el modo de pensamiento degrada el rendimiento visual, los modelos MoE tienen un rendimiento inferior en comparación con los modelos densos, y la cuantización Q8 no mejora universalmente los resultados.

media r/LocalLLaMA · hace 1 h En vivo

Qwen 3.6 27B Apostate lanzado con seguridad eliminada

El modelo Qwen 3.6 27B ha sido modificado usando Apostate para eliminar la alineación de seguridad, reduciendo su tasa de rechazo del 92% al 7.6%. Este cambio tiene un impacto mínimo en las capacidades del modelo, con una divergencia KL de 0.120.

media r/LocalLLaMA · hace 1 h En vivo

Hice un fork de ik_llama.cpp y añadí el modo espejo --numa

Un nuevo fork de ik_llama.cpp añade un modo espejo --numa que duplica los pesos del modelo y la caché KV entre los sockets de CPU, permitiendo una utilización completa de los sistemas multi-socket. Esto reduce las penalizaciones por acceso a memoria remota y mejora el throughput de inferencia hasta 1.6x en los modelos probados, aunque requiere el doble de RAM.

media r/LocalLLaMA · hace 1 h En vivo

Preentrené y postentrené un LLM de 500M parámetros y un generador de imágenes de 330M parámetros desde cero

El autor preentrenó un modelo de lenguaje de 500M parámetros y un generador de imágenes de 330M parámetros desde cero utilizando 40B tokens de fineweb. El generador de imágenes se inspiró en la arquitectura DreamLite de ByteDance y se entrenó con una mezcla de conjuntos de datos de MidJourney, Flux y CCW3.