Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 129

SupraLabs lanza el mayor conjunto de datos de títulos de chat

SupraLabs ha lanzado un conjunto de datos curado de títulos de chat con 115K muestras, superando el récord anterior de 10K muestras. El conjunto filtrado está disponible como `SupraLabs/chat-titles-filtered-115K`, mientras que también se proporciona una versión sin filtrar con 150K muestras, junto con un conjunto de datos heredado de 12K.

media Latent Space · hace 12 d

Suscriptores de Latent Space obtienen un descuento de $250 para AIE WF 2026

Los suscriptores de Latent Space reciben un descuento por tiempo limitado de $250 en las entradas para AIE WF 2026. Los asistentes también reciben $40k en créditos de patrocinadores de empresas como Warp, Datadog, SourceGraph, Stripe y Fireworks.

media r/LocalLLaMA · hace 12 d

Mejores configuraciones para 48GB VRAM con Qwen 3.6 27B

Un usuario comparte configuraciones optimizadas para ejecutar Qwen 3.6 27B con cuantización Q8_0 en una configuración de RTX 4090 y RTX 3090 usando llama.cpp. La configuración incluye tensor split, 999 capas en GPU, contexto de 250k, decodificación especulativa y caché KV unificada, logrando un rendimiento de 75-100t/s con soporte para visión y MTP.

media r/LocalLLaMA · hace 12 d

Ayuda con un sistema RAG de documentos locales (almacenamiento + ingestión + consulta + resaltado)

Un usuario está diseñando una canalización local y sin conexión para recuperación de documentos y LLM, con funciones de almacenamiento, ingestión, consulta y resaltado. Busca consejos sobre bases de datos vectoriales (por ejemplo, pgvector en Postgres frente a Qdrant), viabilidad de GraphRAG sin conexión y herramientas de código abierto para el resaltado de documentos con citas.

media r/LocalLLaMA · hace 12 d

La 7900XTX con 24GB de VRAM ejecuta Qwen 3.6 27B con contexto de 131k

Un usuario informa haber ejecutado exitosamente un modelo Qwen 3.6 27B con cuantización Q6K+MTP y longitud de contexto de 131k en una 7900XTX con 24GB de VRAM. Esto se logra mediante la cuantización del kvcache (Q5_0/Q4_0), lo que reduce el uso de VRAM en un 12% en comparación con Q8, permitiendo que el modelo ejecute a 55-60 tokens por segundo con banderas de compilación específicas y argumentos de llama.cpp.

media r/LocalLLaMA · hace 12 d

GLM 5.2 alcanza el 98% de inteligencia máxima con menos de la mitad de tokens

GLM 5.2 demuestra el 98% de su inteligencia máxima en tareas de codificación utilizando menos de la mitad de su presupuesto total de tokens, según un informe técnico de z_ai. La eficiencia de razonamiento del modelo ha mejorado significativamente, con un aumento en el uso de tokens de 16.7k a 36.7k entre GLM 5.1 y GLM 5.2, aunque las configuraciones de alto nivel pueden sobrecargar el rendimiento del hardware local.

media r/LocalLLaMA · hace 12 d

Ofertas futuras de GPU de AMD para construcciones de LLM

AMD ha anunciado próximas ofertas de GPU que podrían soportar despliegues locales de modelos de lenguaje grande (LLM). Estas GPUs están diseñadas con mayor ancho de banda de memoria y capacidades de cómputo, haciéndolas adecuadas para inferencia y entrenamiento eficiente de LLM en rigs locales dedicados.

media r/LocalLLaMA · hace 12 d

Resultados de las pruebas de rendimiento de llama.cpp B70 con SYCL

Las pruebas muestran que llama.cpp B70 con el backend SYCL tiene un buen rendimiento en modelos como gemma4 12B y 26B, alcanzando un throughput de hasta 5662.45 t/s para el modelo E2B. El rendimiento cae significativamente en modo tg128, con qwen35 27B alcanzando solo 15.42 t/s, lo que indica margen para optimización.

media r/LocalLLaMA · hace 12 d

IA local para archivos de oficina locales

Un usuario de Reddit pregunta qué agente de IA es mejor para manejar archivos de oficina locales como Excel, PDF, Word y JSON. La publicación busca experiencias de usuarios y flujos de trabajo implementados para este tipo de tareas.

media r/LocalLLaMA · hace 12 d

Problema de llamada de herramientas en Qwen3.6 27B 8K de código abierto

Los usuarios informan que el modelo Qwen3.6 27B 8K a veces deja de procesar después de generar una llamada de herramienta, especialmente cuando el usuario se aleja. El problema se puede resolver pegando manualmente la llamada de herramienta de nuevo en el prompt, permitiendo que el modelo reanude la ejecución. La llamada de herramienta implica una función bash para encontrar pruebas que pasan en una base de código.

media r/LocalLLaMA · hace 12 d

¿Cuál es el mejor libro para aprender las matemáticas de ML/Aprendizaje Profundo?

Un usuario solicita recomendaciones de libros para construir una sólida base matemática que le permita comprender y contribuir al aprendizaje automático y al aprendizaje profundo, especialmente dada su interés en arquitecturas de IA y modelos de lenguaje grandes. Reconoce que la comprensión intuitiva es limitada sin una adecuada formación matemática y busca recursos estructurados que complementen su aprendizaje actual a través de canales como 3b1b.

github Open Interpreter · hace 12 d

Lanzamiento de Rust 0.0.15

Se ha lanzado la versión 0.0.15 de Rust. Esta versión temprana forma parte de la fase inicial de desarrollo de Rust e incluye características fundamentales para el lenguaje.

github Open Interpreter · hace 12 d

Open Interpreter 0.0.16 lanzado

Open Interpreter ha lanzado la versión 0.0.16. La actualización introduce nuevas características y mejoras en su funcionalidad principal, mejorando las capacidades de interacción con el usuario y ejecución de tareas.

github Open Interpreter · hace 12 d

Open Interpreter 0.0.17 lanzado

Open Interpreter ha lanzado la versión 0.0.17. La actualización introduce nuevas características y mejoras en su funcionalidad principal, mejorando las capacidades de interacción con el usuario y ejecución de tareas.

media r/LocalLLaMA · hace 12 d

Acceso web de agente local mediante SearXNG y Scrapling

Un agente local puede acceder a la web sin APIs pagas utilizando SearXNG autoalojado para la búsqueda y Scrapling con Trafilatura para la extracción de páginas. La configuración evita dependencias de proveedores, utiliza herramientas de código abierto y entrega resultados de búsqueda y contenido de página en formato Markdown, con alternativas para CAPTCHAs y desafíos de seguridad.

media r/LocalLLaMA · hace 12 d

Agente local en 4090 - buscando configuraciones de LM Studio

Un usuario reporta una generación lenta de tokens al ejecutar un agente local en una 4090 con 24GB de VRAM, a pesar de ajustar la configuración del contexto y el batching. Señala que Gemma4 es más rápida pero produce tokens incorrectos como <code></tool_call></code>, y busca configuraciones recomendadas y explicaciones para parámetros como top_p y top_k.

media r/LocalLLaMA · hace 12 d

SupraLabs lanza supra-title-FFT-preview con 115K muestras

SupraLabs ha lanzado supra-title-FFT-preview, un modelo de generación de títulos para chat entrenado con 115K muestras de un conjunto de datos filtrado, ampliando la cobertura más allá de su anterior modelo de 12K muestras. El modelo utiliza ajuste fino completo en LiquidAI/LFM2.5-350M-Base con precisión BF16 y está diseñado para la generación única de títulos de chat, disponible a través de Hugging Face y compatible con carga directa o despliegue con vLLM.

media r/LocalLLaMA · hace 12 d

Consumo de energía y advertencia de cable de la RTX 5090 MSI

La RTX 5090 MSI consume entre 475 y 500W durante la inferencia o el entrenamiento por difusión. El usuario informa que no hay problemas con el cable de alimentación, enfatizando que no debe doblarse para garantizar un funcionamiento seguro y estable.

media r/LocalLLaMA · hace 12 d

Álgebra de Atención — una gramática que traduce lenguaje natural a espectrogramas

Álgebra de Atención es un prototipo que traduce lenguaje natural a expresiones algebraicas, las mapea a dinámicas matemáticas y visualiza el resultado como un espectrograma. Trata el lenguaje como una proyección con pérdida de estados de alta dimensión, proponiendo que los patrones de atención crudos agrupados en funciones sirven como el 'ADN' del texto, permitiendo cadenas de razonamiento eficientes al reducir el uso de tokens de 20k a 4k.

github llama.cpp · hace 12 d

LLaMA.cpp lanza b9732: nuevos binarios y actualizaciones

LLaMA.cpp publica la versión b9732 con binarios actualizados para macOS, Linux, Android, Windows y openEuler. La publicación incluye comunicación refactorizada entre hijo y enrutador, correcciones al manejo de despertar, mejoras en update_status() y documentación.