Todos los artículos — korshunov.ai — noticias de ML

Todos los artículos Página 1 / 41

media r/LocalLLaMA · hace 2 h

Serie gratuita de 15 partes sobre los internals de LLM basada en Gemma 4 12B

Escribí una serie gratuita de 15 partes que detalla los internals de LLM, utilizando Gemma 4 12B como ejemplo principal. Cada parte cubre aspectos técnicos desde la tokenización hasta el servicio, con matemáticas reales, formas de tensores y restricciones de hardware. La serie incluye un Deep Dive complementario en vLLM y es completamente accesible sin muros de pago ni correo electrónico.

media r/LocalLLaMA · hace 2 h

La extensión Qwen Code Companion ahora es de código abierto

La extensión Qwen Code Companion para VSCode ya está disponible en el marketplace y se ha publicado como código abierto en https://github.com/QwenLM/qwen-code. Los usuarios reportan que funciona bien con modelos alojados en LM Studio, superando a otras herramientas de LLM locales como continue, kilo, cline y roo, con una configuración mínima necesaria.

media r/LocalLLaMA · hace 2 h

Gemma 4 26b a4b destaca en consultas lingüísticas y científicas

Un usuario afirma que Gemma 4 26b a4b es el mejor modelo que ha probado para el aprendizaje de idiomas y consultas científicas, superando a Qwen 3.5/3.6 en estos dominios. El artículo destaca una brecha en los modelos MOE pequeños disponibles entre 20b y 30b, sugiriendo la necesidad de más opciones más allá de las tareas de codificación y agentes.

media r/LocalLLaMA · hace 2 h

Luchando por completar los créditos del plan de tokens Xiaomi Mimo-v2.5-pro antes de que venzan

Un usuario tiene 24B créditos de tokens de un concurso de planes de tokens de Xiaomi, valorados en $50 pero obtenidos gratis. Informa un alto consumo de tokens durante el uso, soporte limitado para herramientas y ahora está preocupado por desperdiciar los créditos debido a su expiración en cuatro días. El modelo es elogiado por su tasa de aciertos en caché del 90% y una reducción del 99% en el precio de los accesos a la caché, con el usuario señalando que funciona bien en tareas de codificación y planificación.

media r/LocalLLaMA · hace 2 h

Tablero donde cada casilla es un agente

Un proyecto llamado Jaz presenta un tablero donde cada casilla funciona como un agente independiente responsable de mantener su propio estado. El sistema es de código abierto y está disponible en GitHub, con una demostración en vivo en jaz.chat, que requiere un agente de codificación como Claude Code o Codex para operar.

media r/LocalLLaMA · hace 2 h

La red neuronal profunda convierte imágenes en juegos jugables localmente

Una red neuronal profunda que se ejecuta localmente puede convertir cualquier imagen en un juego jugable, utilizando un modelo pequeño similar a Transformer entrenado desde cero. El modelo, que se ejecuta en una RTX 5090, genera secuencias de juegos de forma autoregresiva con entrada de teclado en tiempo real, aunque actualmente sufre de problemas de movimiento y contexto.

media r/LocalLLaMA · hace 2 h

Decisión de compra de la R9700 en medio del aumento de precios de las GPU

Un usuario expresa su frustración con los precios de Nvidia, habiendo comprado dos tarjetas R9700 a pesar de los precios actuales de la RTX 5090 en $7,000 y la RTX 6000 Pro en $13,500. Cuestiona si la R9700 fue un error dados los importantes aumentos de precio de las nuevas GPU de Nvidia.

media r/LocalLLaMA · hace 2 h

¿Consejos? 2x 3090

Un usuario pide consejos sobre el uso de dos GPUs NVIDIA RTX 3090. La publicación incluye una imagen y enlaces a la presentación original en Reddit y los comentarios.

media r/LocalLLaMA · hace 2 h

Ahora puedes convertir cuantizaciones EXL3 en Mac con Apple Silicon

Los usuarios ahora pueden convertir y ejecutar modelos cuantizados EXL3 en Mac con Apple Silicon y 64GB+ de RAM. Las pruebas muestran que modelos como MiniCPM5 y Qwen3.6-27B logran un rendimiento comparable o ligeramente inferior a las conversiones basadas en tarjetas RTX, con EXL3 ofreciendo una calidad de cuantización superior en comparación con MLX.

media r/LocalLLaMA · hace 2 h

Cálculos rápidos sobre los costos de alojamiento colectivo para diffusiongemma en 2026

Un análisis de costos estima que alojar diffusiongemma a diferentes niveles de tokens por usuario genera costos mensuales por usuario que oscilan entre 1,7€ y 122,8€. El estudio encuentra que el uso de IA agéntica es económicamente insostenible para el alojamiento colectivo, aunque los costos podrían disminuir con nuevas GPUs o ASICs y un período de depreciación de la GPU más corto.

media r/LocalLLaMA · hace 2 h

Dos documentos de Word chateando mediante LLMs locales — ¿Casos de uso reales?

Un prototipo demuestra dos documentos de Word intercambiando contenido utilizando LLMs locales, con iteraciones sucesivas a lo largo de múltiples turnos. Los posibles casos de uso prácticos incluyen un documento de borrador y un documento de crítica que iteran juntos, o un documento de especificación y un documento de implementación colaborando, aunque la viabilidad de dichos flujos de trabajo sigue siendo incierta.

media r/LocalLLaMA · hace 2 h

¿Alguna opinión sobre Qwen3.6-27B@BF16 vs Step3.7@IQ4_XS?

El usuario pregunta qué modelo —Qwen3.6-27B en precisión BF16 o Step3.7 con cuantización IQ4_XS— tomaría decisiones más sensatas y autónomas con menos necesidad de guía humana. La consulta compara un modelo denso de alta precisión con un modelo MoE más grande pero de menor precisión, señalando los compromisos entre memoria y rendimiento.

media r/LocalLLaMA · hace 2 h

z.AI elogia al modelo de código abierto número 1

z.AI, que se clasifica como el número 2, ha elogiado públicamente al modelo de código abierto número 1. La publicación destaca la admiración por las capacidades del modelo, enfatizando su rendimiento y contribuciones a la comunidad.

media r/LocalLLaMA · hace 2 h

Proyecto de investigación: Inyección de intención táctica en lenguaje natural en políticas de agentes múltiples para fútbol

Un proyecto de investigación explora el uso de instrucciones tácticas en lenguaje natural proporcionadas por humanos para guiar agentes de IA autónomos en una simulación de fútbol. El sistema permite a los entrenadores humanos emitir directivas de alto nivel como 'presionar agresivamente' o 'explotar el lado izquierdo', que los agentes de IA adaptan en tiempo real dentro de un entorno dinámico y basado en equipos.

media r/LocalLLaMA · hace 2 h

¿Alguien aquí usa dos RTX 5090?

Un usuario pregunta si alguien ha construido recientemente una configuración con dos RTX 5090, señalando que su sistema actual con dos RTX 3090 funciona bien para el desarrollo de software. Menciona que actualizar a dos RTX 5090 es costoso y considera que los enchufes de su dormitorio podrían ser una limitación.

media r/LocalLLaMA · hace 2 h

Mejor LLM local para resumir historias en inglés

Un usuario pregunta cuál es el LLM local que actualmente tiene mejor rendimiento al resumir historias largas en inglés. La consulta destaca la necesidad de LLMs locales precisos capaces de manejar narrativas de varias páginas en inglés.

media r/LocalLLaMA · hace 2 h

GLM 5.2 UD IQ2_M produce la mejor imagen SVG de pelícano jamás vista

Un usuario comparte una imagen generada por el modelo GLM 5.2 UD IQ2_M, calificándola como la mejor imagen SVG de pelícano que ha visto. A pesar de la baja cuantización, el modelo demuestra fuertes capacidades, con el usuario señalando su potencial para funcionar significativamente mejor en configuraciones futuras de hardware de gama alta.

media r/LocalLLaMA · hace 2 h

SupraLabs lanza el mayor conjunto de datos de títulos de chat

SupraLabs ha lanzado un conjunto de datos curado de títulos de chat con 115K muestras, superando el récord anterior de 10K muestras. El conjunto filtrado está disponible como `SupraLabs/chat-titles-filtered-115K`, mientras que también se proporciona una versión sin filtrar con 150K muestras, junto con un conjunto de datos heredado de 12K.

media r/LocalLLaMA · hace 2 h

Mejores configuraciones para 48GB VRAM con Qwen 3.6 27B

Un usuario comparte configuraciones optimizadas para ejecutar Qwen 3.6 27B con cuantización Q8_0 en una configuración de RTX 4090 y RTX 3090 usando llama.cpp. La configuración incluye tensor split, 999 capas en GPU, contexto de 250k, decodificación especulativa y caché KV unificada, logrando un rendimiento de 75-100t/s con soporte para visión y MTP.

media r/LocalLLaMA · hace 2 h

Ayuda con un sistema RAG de documentos locales (almacenamiento + ingestión + consulta + resaltado)

Un usuario está diseñando una canalización local y sin conexión para recuperación de documentos y LLM, con funciones de almacenamiento, ingestión, consulta y resaltado. Busca consejos sobre bases de datos vectoriales (por ejemplo, pgvector en Postgres frente a Qdrant), viabilidad de GraphRAG sin conexión y herramientas de código abierto para el resaltado de documentos con citas.