Todos los artículos — korshunov.ai — noticias de ML

Todos los artículos Página 1 / 30

media r/LocalLLaMA · hace 2 h

Configuración de implementación Docker SGLang GLM-5.2-FP8 HGX-H200

Un usuario comparte una configuración de Docker para ejecutar GLM-5.2-FP8 en hardware HGX-H200 utilizando SGLang. La configuración logra una longitud de contexto de 262k y 70 tokens por segundo con paralelismo tensorial de 8, usando una fracción de memoria de 0.83. El usuario señala que las recetas oficiales de vLLM no funcionan en H200 debido a limitaciones de cuantización FP8 del caché KV en la arquitectura DSV3.

media r/LocalLLaMA · hace 2 h

Construimos un kit de interfaz de usuario de código abierto para RAG/documentos y agentes

Extend AI ha lanzado un kit de interfaz de usuario de código abierto con 15 componentes para visores de PDF, DOCX y XLSX, que incluyen citas de cajas delimitadoras, carga de archivos, firma electrónica y sistemas de archivos. El conjunto de herramientas, con licencia MIT y totalmente personalizable, fue inicialmente interno pero ahora es de código abierto debido a la demanda de los clientes, y se mantiene para escalabilidad y manejo de casos extremos en el procesamiento de documentos de alto volumen.

media r/LocalLLaMA · hace 2 h

LoopCoder-V2: Modelo PLT de dos bucles logra la mejor relación ganancia-coste

LoopCoder-V2 es un modelo de código ajustado con instrucciones de 7B basado en Parallel Loop Transformer (PLT), entrenado con 18T tokens de datos mixtos de texto y código. La variante de dos bucles logra el mejor equilibrio entre ganancia y coste, mejorando SWE-bench Verified de 43.0 a 64.4, mientras que tres o más bucles provocan regresión debido al aumento del desajuste posicional y actualizaciones inestables.

media r/LocalLLaMA · hace 2 h

GameCraft-Bench: ¿Pueden los agentes construir juegos jugables de extremo a extremo en un motor de juego real?

GameCraft-Bench evalúa si los modelos de lenguaje grandes pueden construir juegos jugables de extremo a extremo utilizando un motor de juego real. El benchmark incluye evaluaciones de modelos principales como Opus-4.7 y GPT-5.5, con interés en cómo los modelos de tamaño mediano (por ejemplo, 30-70B parámetros) se desempeñan en tareas de desarrollo de juegos.

media r/LocalLLaMA · hace 2 h

Gemma 4 E2B se ejecuta a 255 tok/s en el navegador usando WebGPU

Gemma 4 E2B alcanza 255 tokens por segundo en el navegador en un M4 Max utilizando kernels de WebGPU. La demostración y los kernels ya están disponibles en Hugging Face para uso público.

blog Simon Willison · hace 2 h

La IA exige más disciplina de ingeniería

En 2025, la economía de la producción de código cambió drásticamente, haciendo que la generación de código sea efectivamente gratuita e instantánea. Este cambio provocó un cambio cultural en el desarrollo de software, donde las líneas de código pasaron de ser cuidadosamente curadas a ser desechables y regenerables.

media r/LocalLLaMA · hace 2 h

¿A alguien más no le aparece la interfaz web en la última versión de llama.cpp b9680?

Los usuarios reportan que la interfaz web está ausente en la última versión de llama.cpp b9680, mientras que la versión b9664 funciona correctamente. El problema fue reportado en un issue de GitHub y confirmado mediante el uso de Docker.

media r/LocalLLaMA · hace 2 h

Hacer que los modelos económicos rindan más allá de su peso con un marco de trabajo Rust inteligente

Un nuevo marco de trabajo basado en Rust permite a los modelos de lenguaje pequeños lograr un rendimiento comparable al de modelos más grandes, utilizando una gestión eficiente de la memoria y computación optimizada. El enfoque reduce la demanda de recursos sin sacrificar precisión, haciendo que la IA avanzada sea accesible para entornos con recursos limitados.

media r/LocalLLaMA · hace 2 h

TRELLIS.2 ahora se ejecuta de forma nativa en MLX

TRELLIS.2 ha sido portado para ejecutarse de forma nativa en MLX para Apple Silicon. El modelo admite entradas de imagen de 512x512 y 1024x1024, con tiempos de generación de aproximadamente 70 segundos para 512x517 y de 300 a 700 segundos para 1024x1024 en un M4 Max con 128GB de memoria unificada.

media r/LocalLLaMA · hace 2 h

GLM 5.2 en 4x Sparks: ¿Razonable?

Un usuario pregunta si es factible ejecutar GLM-5.2 en cuatro chips Ascend GX10 (DGX Sparks). Indaga sobre la cuantización de 4 bits utilizando 512GB de memoria unificada y estima las velocidades de tokens de entrada y salida para una longitud de contexto de 100k, señalando que no hay datos de rendimiento disponibles en línea.

media Interconnects · hace 2 h

Estado de los Interconexos Blog Mitad de 2026

El autor describe tres objetivos principales: aclarar la evolución de los modelos de IA de vanguardia, construir un ecosistema de IA abierto y crear instituciones que apoyen estas misiones. Interconnects actúa como una voz cruda e independiente para el pensamiento sobre IA de vanguardia, con una audiencia técnica dedicada de más de 70K suscriptores. El blog mantiene comentarios detrás de muro de pago para evitar ruido generado por IA, y el autor planea alcanzar los 1000 suscriptores pagados para el verano, enfatizando la sostenibilidad financiera e independencia en medio del aumento de los costos de servicios de IA.

media r/LocalLLaMA · hace 2 h

GLM-5.2 es un triunfo para la IA local

GLM-5.2, con 753B parámetros y una ventana de contexto de 1M tokens, ya está disponible en hardware local mediante cuantización. Su licencia MIT y su extenso conjunto de datos de entrenamiento permiten el ajuste fino por parte de la comunidad de modelos más pequeños, prometiendo mejoras significativas para configuraciones de IA local.

media r/LocalLLaMA · hace 2 h

Los bucles de captura de pantalla sin interfaz permiten que un agente local de 30B depure un FPS con raytracing en C puro

Un agente local de 30B, utilizando bucles de captura de pantalla sin interfaz, depura autónomamente una demo de FPS con raytracing en C puro capturando fotogramas en eventos clave e iterando sobre las correcciones. El agente construye un bucle recursivo de depuración visual, demostrando que simples mecanismos de retroalimentación pueden permitir que modelos pequeños resuelvan tareas complejas y basadas en lo visual.

media r/LocalLLaMA · hace 2 h

SIQ-1 Qwen3.6 logra un rendimiento destacado en autoresearch y benchmarking

El modelo SIQ-1, entrenado con PPO y recompensa verificable, supera a GLM-5.2 y Qwen-350B en tareas de parameter-golf, con salidas que se asemejan a Opus4.8. También supera a NEX y GPT-5.5 en la prueba bullshit-bench. El modelo y la versión GGUF están disponibles en Hugging Face, junto con una demo de agente compatible con ZeroGPU.

media r/LocalLLaMA · hace 2 h

RPG impulsado por LLM local con contenido generado persistente

El desarrollador lanzó un RPG impulsado por LLM local donde los NPCs, ubicaciones, objetos y misiones se generan como objetos persistentes dentro del juego. Estos elementos pueden revisitarse e interactuarse, y el juego integra LLMs en mecánicas centrales de RPG como diálogo, narración y progreso de misiones, mientras gestiona inventario, combate y guardados. El juego vendió aproximadamente 1,800 copias en su primera semana y tiene una calificación de tienda de 4.0, lo que indica el interés de los jugadores en experiencias de RPG impulsadas por IA.

media r/LocalLLaMA · hace 2 h

¿Se ha resuelto el problema de la aguja en el pajar?

Un usuario pregunta si la prueba 'aguja en el pajar', utilizada para evaluar el rendimiento del modelo, sigue siendo relevante o ha sido abandonada. La publicación reflexiona sobre su uso histórico en los lanzamientos de modelos y cuestiona si ahora se considera obsoleta o olvidada.

media r/LocalLLaMA · hace 2 h

Mejor estimación sobre cuánto tiempo veremos modelos de peso abierto de clase Fable 5

El lanzamiento de GLM 5.2 sugiere que los modelos de peso abierto han alcanzado a Opus 4.8. Los usuarios preguntan cuánto tiempo tomará ver modelos de peso abierto igualando el rendimiento de la clase Mythos o Fable desde China.

media r/LocalLLaMA · hace 2 h

Los modelos locales pasaron de ser mayormente inútiles a realmente útiles en un año

Los modelos locales evolucionaron de juguetes centrados principalmente en la privacidad a herramientas prácticas para programación, gestión privada de documentos y flujos de trabajo locales en un año. Aunque aún no logran reemplazar a los mejores modelos cerrados para tareas complejas que requieren planificación y corrección de errores, la mejora general en usabilidad y rendimiento es evidente.

media r/LocalLLaMA · hace 2 h

Un año construyendo un asistente de voz para el hogar completamente local

Un desarrollador pasó 12 meses construyendo un asistente de voz local y de código abierto inspirado en Alexa, documentando los desafíos y el progreso. El proyecto buscaba crear una alternativa centrada en la privacidad utilizando modelos locales, con mejoras y correcciones continuas.

media r/LocalLLaMA · hace 2 h

GLM-5.2: Diseñado para tareas de largo alcance

GLM-5.2 es un modelo de lenguaje diseñado específicamente para tareas de largo alcance. Su objetivo es manejar mejor el razonamiento complejo y multi-etapa, así como la planificación a largo plazo, mejorando su capacidad para mantener el contexto en secuencias extendidas.