Todos los artículos — korshunov.ai — noticias de ML

Todos los artículos Página 1 / 57

media r/LocalLLaMA · hace 1 h En vivo

Tmax-27B Agente Terminal para GPUs Pequeñas con Entrenamiento DPPO

Tmax-27B es un agente terminal basado en Qwen3.6-27B, entrenado con DPPO (RL), logrando 43% en Terminal Bench 2.0 y 69% en TB Lite. Para ejecutarse en GPUs de consumo, se cuantiza utilizando modelos GGUF calibrados por matriz de importancia desde 2 hasta 5 bits por peso, con una cabeza MTP injertada que permite descodificación especulativa. IQ2_XS a 8.5 GiB alcanza una tasa de éxito del 70% en tareas de codificación agéntica, superando la cuantización simple y demostrando generación estable de llamadas a herramientas.

media r/LocalLLaMA · hace 1 h En vivo

Gemma4-26B-A4B & 31B-QAT Uncensored Balanced Released with MTP Speed Boosts

HauhauCS ha lanzado dos nuevas versiones sin censura y equilibradas de los modelos Gemma 4: Gemma4-26B-A4B y Gemma4-31B-QAT. Ambas variantes incorporan cabezales de predicción multi-tokeno (MTP) para habilitar la decodificación especulativa, lo que resulta en mejoras significativas en la velocidad de inferencia. El modelo 26B-A4B logra un aumento de velocidad de aproximadamente el 35%, mientras que el modelo 31B experimenta un incremento del 53%, con una calidad de salida idéntica verificada por el mecanismo de redacción del modelo. Estos lanzamientos utilizan cuantización consciente de QAT, haciendo que Q4_K_M sea el formato óptimo ya que una mayor precisión no ofrece ganancias de calidad para estos modelos específicos. El 26B-A4B es una arquitectura de Mezcla de Expertos con aproximadamente 4 mil millones de parámetros activos por token, mientras que la variante 31B es un modelo denso que ofrece mayor capacidad para usuarios con suficiente VRAM. Ambos modelos incluyen soporte de visión a través de archivos mmproj y mantienen una ventana de contexto de 262K. El autor señala que las pruebas de GenRM resultaron en cero rechazos en 465 prompts, confirmando su naturaleza sin censura.

blog Simon Willison · hace 1 h En vivo

Simon Willison convierte los datos de compatibilidad del navegador MDN en una base de datos SQLite

Inspirado por el nuevo servicio MCP de MDN de Mozilla, Simon Willison ha convertido el repositorio mdn/browser-compat-data en una base de datos SQLite. El proyecto utiliza un script generado por Claude Code for web (Opus 4.8) para realizar esta conversión usando sqlite-utils. La base de datos resultante tiene aproximadamente 66MB de tamaño y está alojada en GitHub con cabeceras CORS abiertas para facilitar el acceso directo. Para automatizar el proceso, se construyó un flujo de trabajo de GitHub Actions usando Codex Desktop (GPT-5.5) para forzar el push de la base de datos actualizada a una rama huérfana llamada db. Los usuarios pueden descargar el archivo final browser-compat.db directamente desde el repositorio o explorar su contenido a través de Datasette Lite.

media r/LocalLLaMA · hace 1 h En vivo

GLM-5.2 en 4x DGX Spark: Reconstrucción de pasos de compilación faltantes para descodificación especulativa MTP

El autor implementó con éxito GLM-5.2 con descodificación especulativa MTP en un clúster de cuatro nodos NVIDIA GB10 (DGX Spark), alcanzando aproximadamente 9.4 tokens por segundo. Esta configuración utiliza vLLM con paralelismo de tensor, kernels Triton sparse-MLA portados y una poda determinista del 15% de expertos para ajustar los pesos AWQ-INT4. Un hallazgo crítico es que las instrucciones originales de construcción de la imagen Docker están incompletas, requiriendo la reconstrucción de parches faltantes para deep_gemm.py y sparse_attn_indexer.py. El autor también identificó que usar cualquier versión de vLLM distinta al commit específico fijado provoca que los pesos AWQ reales fallen durante la carga debido a errores de CUDA. Para replicar el entorno, los usuarios deben aplicar un script personalizado que incorpore kernels y funciones de enrutamiento a fallbacks sm12x. Los beneficios de rendimiento incluyen aproximadamente el doble de velocidad de las implementaciones anteriores de llama.cpp, aunque el ancho de banda entre nodos sigue siendo un cuello de botella para la escalabilidad dual-rail.

media r/LocalLLaMA · hace 1 h En vivo

Dock eGPU Oculink MINISFORUM DEG1 reacondicionado disponible por $59

Un dock eGPU Oculink MINISFORUM DEG1 reacondicionado está actualmente disponible por $59. El listado del producto destaca su sólida calidad de construcción, señalando que el dispositivo tiene suficiente peso para sujetar firmemente una tarjeta gráfica. A diferencia de algunas alternativas de menor costo, este dock incluye redrivers para garantizar la integridad de la señal. Un usuario que compró una unidad el año pasado reportó experiencias positivas con su rendimiento y estabilidad. El artículo se puede comprar directamente en la página de productos reacondicionados del fabricante.

media r/LocalLLaMA · hace 1 h En vivo

Consulta sobre agrupación de Nvidia DGX Spark y AMD Ryzen AI Max 395 para inferencia con memoria unificada

Un usuario preguntó sobre la viabilidad de agrupar un Nvidia DGX Spark con un AMD Ryzen AI Max 395 para ejecutar un único modelo de lenguaje grande. Ambos dispositivos cuentan con 128GB de memoria unificada, lo que ofrece una capacidad combinada potencial de aproximadamente 256GB menos la sobrecarga del sistema operativo. El DGX Spark está equipado con una interfaz de red de 200Gbit, mientras que el sistema AMD Strix actualmente solo tiene Ethernet de 5Gbit pero incluye una ranura PCIe Gen 4x4. El usuario señaló que DeepSeek v4 Flash puede caber en dos DGX Sparks y se preguntó si el Strix podría servir como un nodo alternativo. Para mejorar la conectividad, propusieron agregar un Mellanox ConnectX-6 QSFP+28 al sistema AMD para lograr un mayor ancho de banda en el enlace.

media r/LocalLLaMA · hace 1 h En vivo

Colony: Una simulación educativa de los mecanismos de atención de LLM mediante analogías basadas en agentes

Colony es un recurso educativo diseñado para explicar el mecanismo de atención de los Modelos de Lenguaje Grande a través de analogías simples que involucran agentes. La simulación sitúa a estos agentes dentro de un entorno de tablero inspirado en el Juego de la Vida de Conway. Cada agente en el sistema representa un rol específico dentro del mecanismo del bloque de autoatención de un LLM. Este enfoque visual permite a los usuarios observar cómo fluye y se interactúa la información durante el proceso de atención. El proyecto está disponible como una herramienta de código abierto para aquellos interesados en explorar estos conceptos sin matemáticas complejas. Sirve como una manera divertida y accesible de comprender el funcionamiento interno de los modelos transformadores.

media r/LocalLLaMA · hace 1 h En vivo

Un usuario observa que los chatbots en la nube parecen menos inteligentes que los modelos locales

Un usuario de Reddit informa que los chatbots en la nube como ChatGPT y Claude a menudo parecen menos capaces que los modelos de código abierto como Kimi o GLM al discutir conceptos abstractos. El autor señala que estos modelos comerciales frecuentemente saltan a conclusiones, simplifican en exceso las ideas y dependen de patrones de redacción repetitivos. Este descenso percibido en la inteligencia se atribuye a los system prompts diseñados para imponer una personalidad específica para el engagement del usuario. Si bien este comportamiento fue particularmente prominente durante la era de GPT-4o, según se informa persiste en las versiones actuales. El usuario cuestiona si acceder a estos modelos a través de la API raw elimina los system prompts restrictivos o si permanecen incrustados. La publicación busca comentarios de la comunidad sobre si los modelos en la nube funcionan mejor sin estas restricciones.

media r/LocalLLaMA · hace 1 h En vivo

Gefen: Una alternativa directa a AdamW con una reducción de memoria de 8x

Gefen se presenta como una alternativa directa al optimizador AdamW, afirmando una reducción octuple en el uso de memoria durante el entrenamiento. El proyecto incluye un repositorio de GitHub disponible en ndvbd/Gefen y un artículo de investigación correspondiente alojado en arXiv bajo el identificador 2606.13894. Esta presentación destaca el potencial de Gefen para optimizar la eficiencia de recursos en flujos de trabajo de aprendizaje automático. El material fuente proporcionado enlaza directamente con la documentación técnica y la base de código para su verificación adicional. No se detallan métricas de rendimiento adicionales ni benchmarks comparativos en el texto disponible.

media r/LocalLLaMA · hace 1 h En vivo

SDXL ejecutándose localmente en el navegador con WebGPU, de código abierto

Una extensión del navegador permite la generación local de imágenes utilizando modelos SDXL a través de WebGPU, ejecutándose en la GPU del usuario sin configuraciones externas. La herramienta admite dos modelos: SDXL-Lighting fp16 (7 GB) y una versión de 4 bits (3.6 GB), con requisitos que incluyen al menos 8 GB de VRAM para el modelo completo y un navegador con soporte de WebGPU (Chrome/Edge 122+ o Firefox más reciente).

arxiv arXiv cs.CL · hace 1 h En vivo

CANDLE: Deduplicación ligera de ruido en árabe mediante CTC

CANDLE es un sistema ligero que utiliza Clasificación Temporal Conectiva para deduplicar caracteres repetidos en texto árabe, sin depender de reglas manuales ni analizadores morfológicos. Logra una Tasa de Error de Oración del 5.37% y reduce la fertilidad del tokenizador hasta en un 12.8%, disminuyendo los costos de inferencia y mejorando el uso de la ventana de contexto.

media r/LocalLLaMA · hace 1 h En vivo

Ingeniería inversa de Windows Copilot para crear una API compatible con OpenAI gratuita

Un usuario ha creado una API local que replica la funcionalidad de GPT-4 compatible con OpenAI utilizando el servicio gratuito de Copilot de Microsoft. La herramienta inicia sesión en una cuenta de Microsoft una vez, se ejecuta localmente en un dispositivo Windows y expone un servidor en http://localhost:8000/v1 que admite streaming y conversaciones multironda sin requerir una clave de API ni facturación. Está diseñada para uso personal y educativo, y está disponible en GitHub en https://github.com/sums001/Windows-Copilot-API.

blog Simon Willison · hace 1 h En vivo

Tom MacWright sobre la Anonimato Accidental en las Solicitudes de Empleo

Tom MacWright observa que las solicitudes de empleo cada vez más incluyen contenido generado por LLM, incluyendo portafolios y proyectos de GitHub con mensajes de commit fabricados. Él señala que tales solicitudes revelan poco sobre los solicitantes, ya que carecen de autenticidad personal y expresión genuina.

media r/LocalLLaMA · hace 1 h En vivo

Sipp: Biblioteca de código abierto para inferencia en el navegador basada en llama.cpp

Sipp es una biblioteca de código abierto que permite la inferencia en el navegador utilizando llama.cpp. Permite a los usuarios ejecutar inferencia de modelos de lenguaje locales directamente en navegadores web sin depender de servicios en la nube. El proyecto está disponible en GitHub en https://github.com/noumena-labs/Sipp.

media r/LocalLLaMA · hace 1 h En vivo

Construye un LLM desde cero usando MLX

Un desarrollador creó un Nano LLM con 20.2M de parámetros en un MacBook Air utilizando el framework MLX. El proyecto demuestra que construir un modelo de lenguaje grande desde cero es factible con hardware mínimo y conocimientos básicos de Python.

media r/LocalLLaMA · hace 1 h En vivo

OpenAI y Broadcom presentan un chip de inferencia optimizado para LLM

Las pruebas iniciales muestran que el chip de primera generación ofrece un rendimiento por vatio significativamente mejor que las soluciones líderes actuales. Diseñado desde cero para los modelos de lenguaje grandes actuales y futuros, el chip amplía la plataforma de pila completa de OpenAI y se implementará a escala de gigavatios con socios de centros de datos en múltiples generaciones.

media r/LocalLLaMA · hace 1 h En vivo

Grandes noticias para los propietarios de AMD Strix Halo+: la NPU ya es utilizable

La NPU de AMD ahora es completamente utilizable, lo que permite modelos de IA híbridos en dispositivos Strix Halo+. Los usuarios pueden aprovechar el modo híbrido para combinar el rendimiento de la NPU y la iGPU, con herramientas como Lemonade y documentación oficial que facilitan las pruebas tempranas. La comunidad ahora está solicitando modelos híbridos compatibles con MTP para impulsar aún más el rendimiento.

media r/LocalLLaMA · hace 1 h En vivo

Mi micro-benchmark: ¿qué tan buenos son los LLM para simular el comportamiento de humedecimiento?

El autor evalúa a los LLM en la simulación del comportamiento de humedecimiento utilizando Surface Evolver, una herramienta de 1992 para modelar superficies líquidas. Los LLM se evalúan objetivamente comparando sus archivos generados contra implementaciones de referencia, con resultados que muestran el conteo de aprobaciones y los costos de tokens para cada modelo.

media r/LocalLLaMA · hace 1 h En vivo

El Tribunal Federal Suizo evalúa a Heretic para uso interno

El Tribunal Federal Suizo está evaluando el modelo de lenguaje Heretic para su propio uso con el fin de abordar problemas de sobre-alineación en solicitudes legales. Un artículo sobre la sobre-alineación en tribunales multilingües de derecho penal evalúa a Heretic, concluyendo positivamente, particularmente en la Sección 5.2.

media r/LocalLLaMA · hace 1 h En vivo

Los hacks de modelos aumentan la velocidad de GLM5.2 de 2.5 a más de 50 tok/s

Un usuario logró más de 50 tokens por segundo para GLM5.2 en su sistema GH200 combinando el cabezal MTP del repositorio FP8 de zai con el modelo cuantizado AWQ-INT4 de CyanKiwi. Este enfoque híbrido, implementado mediante un script de fusión y vLLM parcheado, alcanzó un mejor caso de ~55 tok/s con concurrencia 4x y ~45 tok/s para inferencia única, con transmisión desde RAM a VRAM.