Interfaz web precompilada de Docker para s390x
Se ha enviado una solicitud de extracción para agregar una interfaz web precompilada para la arquitectura s390x en Docker. El cambio está actualmente pendiente de lanzamiento y aún no se ha publicado.
Se ha enviado una solicitud de extracción para agregar una interfaz web precompilada para la arquitectura s390x en Docker. El cambio está actualmente pendiente de lanzamiento y aún no se ha publicado.
SupraLabs ha lanzado un conjunto de datos curado de títulos de chat con 115K muestras, superando el récord anterior de 10K muestras. El conjunto filtrado está disponible como `SupraLabs/chat-titles-filtered-115K`, mientras que también se proporciona una versión sin filtrar con 150K muestras, junto con un conjunto de datos heredado de 12K.
Los suscriptores de Latent Space reciben un descuento por tiempo limitado de $250 en las entradas para AIE WF 2026. Los asistentes también reciben $40k en créditos de patrocinadores de empresas como Warp, Datadog, SourceGraph, Stripe y Fireworks.
Un usuario comparte configuraciones optimizadas para ejecutar Qwen 3.6 27B con cuantización Q8_0 en una configuración de RTX 4090 y RTX 3090 usando llama.cpp. La configuración incluye tensor split, 999 capas en GPU, contexto de 250k, decodificación especulativa y caché KV unificada, logrando un rendimiento de 75-100t/s con soporte para visión y MTP.
Un usuario está diseñando una canalización local y sin conexión para recuperación de documentos y LLM, con funciones de almacenamiento, ingestión, consulta y resaltado. Busca consejos sobre bases de datos vectoriales (por ejemplo, pgvector en Postgres frente a Qdrant), viabilidad de GraphRAG sin conexión y herramientas de código abierto para el resaltado de documentos con citas.
Un usuario informa haber ejecutado exitosamente un modelo Qwen 3.6 27B con cuantización Q6K+MTP y longitud de contexto de 131k en una 7900XTX con 24GB de VRAM. Esto se logra mediante la cuantización del kvcache (Q5_0/Q4_0), lo que reduce el uso de VRAM en un 12% en comparación con Q8, permitiendo que el modelo ejecute a 55-60 tokens por segundo con banderas de compilación específicas y argumentos de llama.cpp.
GLM 5.2 demuestra el 98% de su inteligencia máxima en tareas de codificación utilizando menos de la mitad de su presupuesto total de tokens, según un informe técnico de z_ai. La eficiencia de razonamiento del modelo ha mejorado significativamente, con un aumento en el uso de tokens de 16.7k a 36.7k entre GLM 5.1 y GLM 5.2, aunque las configuraciones de alto nivel pueden sobrecargar el rendimiento del hardware local.
AMD ha anunciado próximas ofertas de GPU que podrían soportar despliegues locales de modelos de lenguaje grande (LLM). Estas GPUs están diseñadas con mayor ancho de banda de memoria y capacidades de cómputo, haciéndolas adecuadas para inferencia y entrenamiento eficiente de LLM en rigs locales dedicados.
Las pruebas muestran que llama.cpp B70 con el backend SYCL tiene un buen rendimiento en modelos como gemma4 12B y 26B, alcanzando un throughput de hasta 5662.45 t/s para el modelo E2B. El rendimiento cae significativamente en modo tg128, con qwen35 27B alcanzando solo 15.42 t/s, lo que indica margen para optimización.
Un usuario de Reddit pregunta qué agente de IA es mejor para manejar archivos de oficina locales como Excel, PDF, Word y JSON. La publicación busca experiencias de usuarios y flujos de trabajo implementados para este tipo de tareas.
Los usuarios informan que el modelo Qwen3.6 27B 8K a veces deja de procesar después de generar una llamada de herramienta, especialmente cuando el usuario se aleja. El problema se puede resolver pegando manualmente la llamada de herramienta de nuevo en el prompt, permitiendo que el modelo reanude la ejecución. La llamada de herramienta implica una función bash para encontrar pruebas que pasan en una base de código.
Un usuario solicita recomendaciones de libros para construir una sólida base matemática que le permita comprender y contribuir al aprendizaje automático y al aprendizaje profundo, especialmente dada su interés en arquitecturas de IA y modelos de lenguaje grandes. Reconoce que la comprensión intuitiva es limitada sin una adecuada formación matemática y busca recursos estructurados que complementen su aprendizaje actual a través de canales como 3b1b.
Se ha lanzado la versión 0.0.15 de Rust. Esta versión temprana forma parte de la fase inicial de desarrollo de Rust e incluye características fundamentales para el lenguaje.
Open Interpreter ha lanzado la versión 0.0.16. La actualización introduce nuevas características y mejoras en su funcionalidad principal, mejorando las capacidades de interacción con el usuario y ejecución de tareas.
Open Interpreter ha lanzado la versión 0.0.17. La actualización introduce nuevas características y mejoras en su funcionalidad principal, mejorando las capacidades de interacción con el usuario y ejecución de tareas.
Un agente local puede acceder a la web sin APIs pagas utilizando SearXNG autoalojado para la búsqueda y Scrapling con Trafilatura para la extracción de páginas. La configuración evita dependencias de proveedores, utiliza herramientas de código abierto y entrega resultados de búsqueda y contenido de página en formato Markdown, con alternativas para CAPTCHAs y desafíos de seguridad.
Un usuario reporta una generación lenta de tokens al ejecutar un agente local en una 4090 con 24GB de VRAM, a pesar de ajustar la configuración del contexto y el batching. Señala que Gemma4 es más rápida pero produce tokens incorrectos como <code></tool_call></code>, y busca configuraciones recomendadas y explicaciones para parámetros como top_p y top_k.
SupraLabs ha lanzado supra-title-FFT-preview, un modelo de generación de títulos para chat entrenado con 115K muestras de un conjunto de datos filtrado, ampliando la cobertura más allá de su anterior modelo de 12K muestras. El modelo utiliza ajuste fino completo en LiquidAI/LFM2.5-350M-Base con precisión BF16 y está diseñado para la generación única de títulos de chat, disponible a través de Hugging Face y compatible con carga directa o despliegue con vLLM.
La RTX 5090 MSI consume entre 475 y 500W durante la inferencia o el entrenamiento por difusión. El usuario informa que no hay problemas con el cable de alimentación, enfatizando que no debe doblarse para garantizar un funcionamiento seguro y estable.
Álgebra de Atención es un prototipo que traduce lenguaje natural a expresiones algebraicas, las mapea a dinámicas matemáticas y visualiza el resultado como un espectrograma. Trata el lenguaje como una proyección con pérdida de estados de alta dimensión, proponiendo que los patrones de atención crudos agrupados en funciones sirven como el 'ADN' del texto, permitiendo cadenas de razonamiento eficientes al reducir el uso de tokens de 20k a 4k.