Todos los artículos — korshunov.ai — noticias de ML

Todos los artículos Página 1 / 41

media r/LocalLLaMA · hace 1 h En vivo

Tablero donde cada casilla es un agente

Un proyecto llamado Jaz presenta un tablero donde cada casilla funciona como un agente independiente responsable de mantener su propio estado. El sistema es de código abierto y está disponible en GitHub, con una demostración en vivo en jaz.chat, que requiere un agente de codificación como Claude Code o Codex para operar.

media r/LocalLLaMA · hace 2 h

La red neuronal profunda convierte imágenes en juegos jugables localmente

Una red neuronal profunda que se ejecuta localmente puede convertir cualquier imagen en un juego jugable, utilizando un modelo pequeño similar a Transformer entrenado desde cero. El modelo, que se ejecuta en una RTX 5090, genera secuencias de juegos de forma autoregresiva con entrada de teclado en tiempo real, aunque actualmente sufre de problemas de movimiento y contexto.

media r/LocalLLaMA · hace 2 h

Decisión de compra de la R9700 en medio del aumento de precios de las GPU

Un usuario expresa su frustración con los precios de Nvidia, habiendo comprado dos tarjetas R9700 a pesar de los precios actuales de la RTX 5090 en $7,000 y la RTX 6000 Pro en $13,500. Cuestiona si la R9700 fue un error dados los importantes aumentos de precio de las nuevas GPU de Nvidia.

media r/LocalLLaMA · hace 2 h

¿Consejos? 2x 3090

Un usuario pide consejos sobre el uso de dos GPUs NVIDIA RTX 3090. La publicación incluye una imagen y enlaces a la presentación original en Reddit y los comentarios.

media r/LocalLLaMA · hace 2 h

Ahora puedes convertir cuantizaciones EXL3 en Mac con Apple Silicon

Los usuarios ahora pueden convertir y ejecutar modelos cuantizados EXL3 en Mac con Apple Silicon y 64GB+ de RAM. Las pruebas muestran que modelos como MiniCPM5 y Qwen3.6-27B logran un rendimiento comparable o ligeramente inferior a las conversiones basadas en tarjetas RTX, con EXL3 ofreciendo una calidad de cuantización superior en comparación con MLX.

media r/LocalLLaMA · hace 2 h

Cálculos rápidos sobre los costos de alojamiento colectivo para diffusiongemma en 2026

Un análisis de costos estima que alojar diffusiongemma a diferentes niveles de tokens por usuario genera costos mensuales por usuario que oscilan entre 1,7€ y 122,8€. El estudio encuentra que el uso de IA agéntica es económicamente insostenible para el alojamiento colectivo, aunque los costos podrían disminuir con nuevas GPUs o ASICs y un período de depreciación de la GPU más corto.

media r/LocalLLaMA · hace 2 h

Dos documentos de Word chateando mediante LLMs locales — ¿Casos de uso reales?

Un prototipo demuestra dos documentos de Word intercambiando contenido utilizando LLMs locales, con iteraciones sucesivas a lo largo de múltiples turnos. Los posibles casos de uso prácticos incluyen un documento de borrador y un documento de crítica que iteran juntos, o un documento de especificación y un documento de implementación colaborando, aunque la viabilidad de dichos flujos de trabajo sigue siendo incierta.

media r/LocalLLaMA · hace 2 h

¿Alguna opinión sobre Qwen3.6-27B@BF16 vs Step3.7@IQ4_XS?

El usuario pregunta qué modelo —Qwen3.6-27B en precisión BF16 o Step3.7 con cuantización IQ4_XS— tomaría decisiones más sensatas y autónomas con menos necesidad de guía humana. La consulta compara un modelo denso de alta precisión con un modelo MoE más grande pero de menor precisión, señalando los compromisos entre memoria y rendimiento.

media r/LocalLLaMA · hace 2 h

z.AI elogia al modelo de código abierto número 1

z.AI, que se clasifica como el número 2, ha elogiado públicamente al modelo de código abierto número 1. La publicación destaca la admiración por las capacidades del modelo, enfatizando su rendimiento y contribuciones a la comunidad.

media r/LocalLLaMA · hace 2 h

Proyecto de investigación: Inyección de intención táctica en lenguaje natural en políticas de agentes múltiples para fútbol

Un proyecto de investigación explora el uso de instrucciones tácticas en lenguaje natural proporcionadas por humanos para guiar agentes de IA autónomos en una simulación de fútbol. El sistema permite a los entrenadores humanos emitir directivas de alto nivel como 'presionar agresivamente' o 'explotar el lado izquierdo', que los agentes de IA adaptan en tiempo real dentro de un entorno dinámico y basado en equipos.

media r/LocalLLaMA · hace 2 h

¿Alguien aquí usa dos RTX 5090?

Un usuario pregunta si alguien ha construido recientemente una configuración con dos RTX 5090, señalando que su sistema actual con dos RTX 3090 funciona bien para el desarrollo de software. Menciona que actualizar a dos RTX 5090 es costoso y considera que los enchufes de su dormitorio podrían ser una limitación.

media r/LocalLLaMA · hace 2 h

Mejor LLM local para resumir historias en inglés

Un usuario pregunta cuál es el LLM local que actualmente tiene mejor rendimiento al resumir historias largas en inglés. La consulta destaca la necesidad de LLMs locales precisos capaces de manejar narrativas de varias páginas en inglés.

media r/LocalLLaMA · hace 2 h

GLM 5.2 UD IQ2_M produce la mejor imagen SVG de pelícano jamás vista

Un usuario comparte una imagen generada por el modelo GLM 5.2 UD IQ2_M, calificándola como la mejor imagen SVG de pelícano que ha visto. A pesar de la baja cuantización, el modelo demuestra fuertes capacidades, con el usuario señalando su potencial para funcionar significativamente mejor en configuraciones futuras de hardware de gama alta.

media r/LocalLLaMA · hace 2 h

SupraLabs lanza el mayor conjunto de datos de títulos de chat

SupraLabs ha lanzado un conjunto de datos curado de títulos de chat con 115K muestras, superando el récord anterior de 10K muestras. El conjunto filtrado está disponible como `SupraLabs/chat-titles-filtered-115K`, mientras que también se proporciona una versión sin filtrar con 150K muestras, junto con un conjunto de datos heredado de 12K.

media r/LocalLLaMA · hace 2 h

Mejores configuraciones para 48GB VRAM con Qwen 3.6 27B

Un usuario comparte configuraciones optimizadas para ejecutar Qwen 3.6 27B con cuantización Q8_0 en una configuración de RTX 4090 y RTX 3090 usando llama.cpp. La configuración incluye tensor split, 999 capas en GPU, contexto de 250k, decodificación especulativa y caché KV unificada, logrando un rendimiento de 75-100t/s con soporte para visión y MTP.

media r/LocalLLaMA · hace 2 h

Ayuda con un sistema RAG de documentos locales (almacenamiento + ingestión + consulta + resaltado)

Un usuario está diseñando una canalización local y sin conexión para recuperación de documentos y LLM, con funciones de almacenamiento, ingestión, consulta y resaltado. Busca consejos sobre bases de datos vectoriales (por ejemplo, pgvector en Postgres frente a Qdrant), viabilidad de GraphRAG sin conexión y herramientas de código abierto para el resaltado de documentos con citas.

media r/LocalLLaMA · hace 2 h

La 7900XTX con 24GB de VRAM ejecuta Qwen 3.6 27B con contexto de 131k

Un usuario informa haber ejecutado exitosamente un modelo Qwen 3.6 27B con cuantización Q6K+MTP y longitud de contexto de 131k en una 7900XTX con 24GB de VRAM. Esto se logra mediante la cuantización del kvcache (Q5_0/Q4_0), lo que reduce el uso de VRAM en un 12% en comparación con Q8, permitiendo que el modelo ejecute a 55-60 tokens por segundo con banderas de compilación específicas y argumentos de llama.cpp.

media r/LocalLLaMA · hace 2 h

Ofertas futuras de GPU de AMD para construcciones de LLM

AMD ha anunciado próximas ofertas de GPU que podrían soportar despliegues locales de modelos de lenguaje grande (LLM). Estas GPUs están diseñadas con mayor ancho de banda de memoria y capacidades de cómputo, haciéndolas adecuadas para inferencia y entrenamiento eficiente de LLM en rigs locales dedicados.

media r/LocalLLaMA · hace 2 h

Resultados de las pruebas de rendimiento de llama.cpp B70 con SYCL

Las pruebas muestran que llama.cpp B70 con el backend SYCL tiene un buen rendimiento en modelos como gemma4 12B y 26B, alcanzando un throughput de hasta 5662.45 t/s para el modelo E2B. El rendimiento cae significativamente en modo tg128, con qwen35 27B alcanzando solo 15.42 t/s, lo que indica margen para optimización.

media r/LocalLLaMA · hace 2 h

IA local para archivos de oficina locales

Un usuario de Reddit pregunta qué agente de IA es mejor para manejar archivos de oficina locales como Excel, PDF, Word y JSON. La publicación busca experiencias de usuarios y flujos de trabajo implementados para este tipo de tareas.