Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 129

Mejor LLM local para resumir historias en inglés

Un usuario pregunta cuál es el LLM local que actualmente tiene mejor rendimiento al resumir historias largas en inglés. La consulta destaca la necesidad de LLMs locales precisos capaces de manejar narrativas de varias páginas en inglés.

media r/LocalLLaMA · hace 11 d

GLM 5.2 UD IQ2_M produce la mejor imagen SVG de pelícano jamás vista

Un usuario comparte una imagen generada por el modelo GLM 5.2 UD IQ2_M, calificándola como la mejor imagen SVG de pelícano que ha visto. A pesar de la baja cuantización, el modelo demuestra fuertes capacidades, con el usuario señalando su potencial para funcionar significativamente mejor en configuraciones futuras de hardware de gama alta.

github llama.cpp · hace 11 d

ggml optimiza AMX con aplanamiento de particiones

El proyecto ggml ha optimizado el rendimiento de AMX aplanando la partición sobre n_batch * M, asegurando que todos los hilos participen en la cuantización. Este cambio mejora la velocidad hasta 1.47x en diversos modelos y configuraciones de hardware en plataformas de CPU y GPU, con resultados que muestran ganancias consistentes en el tiempo de inferencia.

github llama.cpp · hace 11 d

Corrección del indexador DSA de GLM-5.2: tensores marcados como no requeridos

El indexador DSA del modelo GLM-5.2 se cargó incorrectamente en todas las capas, provocando fallos por tensores faltantes. La actualización marca los tensores del indexador como TENSOR_NOT_REQUIRED, permitiendo que las capas sin un indexador se carguen como nullptr y habilitando la atención MLA completa.

github llama.cpp · hace 11 d

Interfaz web precompilada de Docker para s390x

Se ha enviado una solicitud de extracción para agregar una interfaz web precompilada para la arquitectura s390x en Docker. El cambio está actualmente pendiente de lanzamiento y aún no se ha publicado.

media r/LocalLLaMA · hace 11 d

SupraLabs lanza el mayor conjunto de datos de títulos de chat

SupraLabs ha lanzado un conjunto de datos curado de títulos de chat con 115K muestras, superando el récord anterior de 10K muestras. El conjunto filtrado está disponible como `SupraLabs/chat-titles-filtered-115K`, mientras que también se proporciona una versión sin filtrar con 150K muestras, junto con un conjunto de datos heredado de 12K.

media Latent Space · hace 11 d

Suscriptores de Latent Space obtienen un descuento de $250 para AIE WF 2026

Los suscriptores de Latent Space reciben un descuento por tiempo limitado de $250 en las entradas para AIE WF 2026. Los asistentes también reciben $40k en créditos de patrocinadores de empresas como Warp, Datadog, SourceGraph, Stripe y Fireworks.

media r/LocalLLaMA · hace 11 d

Mejores configuraciones para 48GB VRAM con Qwen 3.6 27B

Un usuario comparte configuraciones optimizadas para ejecutar Qwen 3.6 27B con cuantización Q8_0 en una configuración de RTX 4090 y RTX 3090 usando llama.cpp. La configuración incluye tensor split, 999 capas en GPU, contexto de 250k, decodificación especulativa y caché KV unificada, logrando un rendimiento de 75-100t/s con soporte para visión y MTP.

media r/LocalLLaMA · hace 11 d

Ayuda con un sistema RAG de documentos locales (almacenamiento + ingestión + consulta + resaltado)

Un usuario está diseñando una canalización local y sin conexión para recuperación de documentos y LLM, con funciones de almacenamiento, ingestión, consulta y resaltado. Busca consejos sobre bases de datos vectoriales (por ejemplo, pgvector en Postgres frente a Qdrant), viabilidad de GraphRAG sin conexión y herramientas de código abierto para el resaltado de documentos con citas.

media r/LocalLLaMA · hace 11 d

La 7900XTX con 24GB de VRAM ejecuta Qwen 3.6 27B con contexto de 131k

Un usuario informa haber ejecutado exitosamente un modelo Qwen 3.6 27B con cuantización Q6K+MTP y longitud de contexto de 131k en una 7900XTX con 24GB de VRAM. Esto se logra mediante la cuantización del kvcache (Q5_0/Q4_0), lo que reduce el uso de VRAM en un 12% en comparación con Q8, permitiendo que el modelo ejecute a 55-60 tokens por segundo con banderas de compilación específicas y argumentos de llama.cpp.

media r/LocalLLaMA · hace 11 d

GLM 5.2 alcanza el 98% de inteligencia máxima con menos de la mitad de tokens

GLM 5.2 demuestra el 98% de su inteligencia máxima en tareas de codificación utilizando menos de la mitad de su presupuesto total de tokens, según un informe técnico de z_ai. La eficiencia de razonamiento del modelo ha mejorado significativamente, con un aumento en el uso de tokens de 16.7k a 36.7k entre GLM 5.1 y GLM 5.2, aunque las configuraciones de alto nivel pueden sobrecargar el rendimiento del hardware local.

media r/LocalLLaMA · hace 11 d

Ofertas futuras de GPU de AMD para construcciones de LLM

AMD ha anunciado próximas ofertas de GPU que podrían soportar despliegues locales de modelos de lenguaje grande (LLM). Estas GPUs están diseñadas con mayor ancho de banda de memoria y capacidades de cómputo, haciéndolas adecuadas para inferencia y entrenamiento eficiente de LLM en rigs locales dedicados.

media r/LocalLLaMA · hace 11 d

Resultados de las pruebas de rendimiento de llama.cpp B70 con SYCL

Las pruebas muestran que llama.cpp B70 con el backend SYCL tiene un buen rendimiento en modelos como gemma4 12B y 26B, alcanzando un throughput de hasta 5662.45 t/s para el modelo E2B. El rendimiento cae significativamente en modo tg128, con qwen35 27B alcanzando solo 15.42 t/s, lo que indica margen para optimización.

media r/LocalLLaMA · hace 11 d

IA local para archivos de oficina locales

Un usuario de Reddit pregunta qué agente de IA es mejor para manejar archivos de oficina locales como Excel, PDF, Word y JSON. La publicación busca experiencias de usuarios y flujos de trabajo implementados para este tipo de tareas.

media r/LocalLLaMA · hace 11 d

Problema de llamada de herramientas en Qwen3.6 27B 8K de código abierto

Los usuarios informan que el modelo Qwen3.6 27B 8K a veces deja de procesar después de generar una llamada de herramienta, especialmente cuando el usuario se aleja. El problema se puede resolver pegando manualmente la llamada de herramienta de nuevo en el prompt, permitiendo que el modelo reanude la ejecución. La llamada de herramienta implica una función bash para encontrar pruebas que pasan en una base de código.

media r/LocalLLaMA · hace 11 d

¿Cuál es el mejor libro para aprender las matemáticas de ML/Aprendizaje Profundo?

Un usuario solicita recomendaciones de libros para construir una sólida base matemática que le permita comprender y contribuir al aprendizaje automático y al aprendizaje profundo, especialmente dada su interés en arquitecturas de IA y modelos de lenguaje grandes. Reconoce que la comprensión intuitiva es limitada sin una adecuada formación matemática y busca recursos estructurados que complementen su aprendizaje actual a través de canales como 3b1b.

github Open Interpreter · hace 11 d

Lanzamiento de Rust 0.0.15

Se ha lanzado la versión 0.0.15 de Rust. Esta versión temprana forma parte de la fase inicial de desarrollo de Rust e incluye características fundamentales para el lenguaje.

github Open Interpreter · hace 11 d

Open Interpreter 0.0.16 lanzado

Open Interpreter ha lanzado la versión 0.0.16. La actualización introduce nuevas características y mejoras en su funcionalidad principal, mejorando las capacidades de interacción con el usuario y ejecución de tareas.

github Open Interpreter · hace 11 d

Open Interpreter 0.0.17 lanzado

Open Interpreter ha lanzado la versión 0.0.17. La actualización introduce nuevas características y mejoras en su funcionalidad principal, mejorando las capacidades de interacción con el usuario y ejecución de tareas.

media r/LocalLLaMA · hace 11 d

Acceso web de agente local mediante SearXNG y Scrapling

Un agente local puede acceder a la web sin APIs pagas utilizando SearXNG autoalojado para la búsqueda y Scrapling con Trafilatura para la extracción de páginas. La configuración evita dependencias de proveedores, utiliza herramientas de código abierto y entrega resultados de búsqueda y contenido de página en formato Markdown, con alternativas para CAPTCHAs y desafíos de seguridad.