Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 57

Gefen: Una alternativa directa a AdamW con una reducción de memoria de 8x

Gefen se presenta como una alternativa directa al optimizador AdamW, afirmando una reducción octuple en el uso de memoria durante el entrenamiento. El proyecto incluye un repositorio de GitHub disponible en ndvbd/Gefen y un artículo de investigación correspondiente alojado en arXiv bajo el identificador 2606.13894. Esta presentación destaca el potencial de Gefen para optimizar la eficiencia de recursos en flujos de trabajo de aprendizaje automático. El material fuente proporcionado enlaza directamente con la documentación técnica y la base de código para su verificación adicional. No se detallan métricas de rendimiento adicionales ni benchmarks comparativos en el texto disponible.

media r/LocalLLaMA · hace 1 h En vivo

SDXL ejecutándose localmente en el navegador con WebGPU, de código abierto

Una extensión del navegador permite la generación local de imágenes utilizando modelos SDXL a través de WebGPU, ejecutándose en la GPU del usuario sin configuraciones externas. La herramienta admite dos modelos: SDXL-Lighting fp16 (7 GB) y una versión de 4 bits (3.6 GB), con requisitos que incluyen al menos 8 GB de VRAM para el modelo completo y un navegador con soporte de WebGPU (Chrome/Edge 122+ o Firefox más reciente).

arxiv arXiv cs.CL · hace 1 h En vivo

CANDLE: Deduplicación ligera de ruido en árabe mediante CTC

CANDLE es un sistema ligero que utiliza Clasificación Temporal Conectiva para deduplicar caracteres repetidos en texto árabe, sin depender de reglas manuales ni analizadores morfológicos. Logra una Tasa de Error de Oración del 5.37% y reduce la fertilidad del tokenizador hasta en un 12.8%, disminuyendo los costos de inferencia y mejorando el uso de la ventana de contexto.

media r/LocalLLaMA · hace 1 h En vivo

Ingeniería inversa de Windows Copilot para crear una API compatible con OpenAI gratuita

Un usuario ha creado una API local que replica la funcionalidad de GPT-4 compatible con OpenAI utilizando el servicio gratuito de Copilot de Microsoft. La herramienta inicia sesión en una cuenta de Microsoft una vez, se ejecuta localmente en un dispositivo Windows y expone un servidor en http://localhost:8000/v1 que admite streaming y conversaciones multironda sin requerir una clave de API ni facturación. Está diseñada para uso personal y educativo, y está disponible en GitHub en https://github.com/sums001/Windows-Copilot-API.

blog Simon Willison · hace 1 h En vivo

Tom MacWright sobre la Anonimato Accidental en las Solicitudes de Empleo

Tom MacWright observa que las solicitudes de empleo cada vez más incluyen contenido generado por LLM, incluyendo portafolios y proyectos de GitHub con mensajes de commit fabricados. Él señala que tales solicitudes revelan poco sobre los solicitantes, ya que carecen de autenticidad personal y expresión genuina.

media r/LocalLLaMA · hace 1 h En vivo

Sipp: Biblioteca de código abierto para inferencia en el navegador basada en llama.cpp

Sipp es una biblioteca de código abierto que permite la inferencia en el navegador utilizando llama.cpp. Permite a los usuarios ejecutar inferencia de modelos de lenguaje locales directamente en navegadores web sin depender de servicios en la nube. El proyecto está disponible en GitHub en https://github.com/noumena-labs/Sipp.

media r/LocalLLaMA · hace 1 h En vivo

Construye un LLM desde cero usando MLX

Un desarrollador creó un Nano LLM con 20.2M de parámetros en un MacBook Air utilizando el framework MLX. El proyecto demuestra que construir un modelo de lenguaje grande desde cero es factible con hardware mínimo y conocimientos básicos de Python.

media r/LocalLLaMA · hace 1 h En vivo

OpenAI y Broadcom presentan un chip de inferencia optimizado para LLM

Las pruebas iniciales muestran que el chip de primera generación ofrece un rendimiento por vatio significativamente mejor que las soluciones líderes actuales. Diseñado desde cero para los modelos de lenguaje grandes actuales y futuros, el chip amplía la plataforma de pila completa de OpenAI y se implementará a escala de gigavatios con socios de centros de datos en múltiples generaciones.

media r/LocalLLaMA · hace 1 h En vivo

Grandes noticias para los propietarios de AMD Strix Halo+: la NPU ya es utilizable

La NPU de AMD ahora es completamente utilizable, lo que permite modelos de IA híbridos en dispositivos Strix Halo+. Los usuarios pueden aprovechar el modo híbrido para combinar el rendimiento de la NPU y la iGPU, con herramientas como Lemonade y documentación oficial que facilitan las pruebas tempranas. La comunidad ahora está solicitando modelos híbridos compatibles con MTP para impulsar aún más el rendimiento.

media r/LocalLLaMA · hace 1 h En vivo

Mi micro-benchmark: ¿qué tan buenos son los LLM para simular el comportamiento de humedecimiento?

El autor evalúa a los LLM en la simulación del comportamiento de humedecimiento utilizando Surface Evolver, una herramienta de 1992 para modelar superficies líquidas. Los LLM se evalúan objetivamente comparando sus archivos generados contra implementaciones de referencia, con resultados que muestran el conteo de aprobaciones y los costos de tokens para cada modelo.

media r/LocalLLaMA · hace 1 h En vivo

El Tribunal Federal Suizo evalúa a Heretic para uso interno

El Tribunal Federal Suizo está evaluando el modelo de lenguaje Heretic para su propio uso con el fin de abordar problemas de sobre-alineación en solicitudes legales. Un artículo sobre la sobre-alineación en tribunales multilingües de derecho penal evalúa a Heretic, concluyendo positivamente, particularmente en la Sección 5.2.

media r/LocalLLaMA · hace 1 h En vivo

Los hacks de modelos aumentan la velocidad de GLM5.2 de 2.5 a más de 50 tok/s

Un usuario logró más de 50 tokens por segundo para GLM5.2 en su sistema GH200 combinando el cabezal MTP del repositorio FP8 de zai con el modelo cuantizado AWQ-INT4 de CyanKiwi. Este enfoque híbrido, implementado mediante un script de fusión y vLLM parcheado, alcanzó un mejor caso de ~55 tok/s con concurrencia 4x y ~45 tok/s para inferencia única, con transmisión desde RAM a VRAM.

media r/LocalLLaMA · hace 2 h

Informe del Banco de Corea: El uso de IA ahorra 1 hora semanal pero sin ganancia real de productividad

El Banco de Corea informa que el uso de IA reduce la carga laboral semanal en un 3,8%, equivalente a una hora por semana. Sin embargo, no encuentra conexión entre el tiempo ahorrado y el aumento de la productividad, ya que la IA genera más informes y no hay pago adicional por tareas extra. Incluso en condiciones ideales, el crecimiento real de la productividad es como máximo del 1%.

media r/LocalLLaMA · hace 2 h

Modelo Nex-N2-Mini-Ultra-Uncensored-Heretic Lanzado

El modelo Nex-N2-Mini-Ultra-Uncensored-Heretic ya está disponible, con pensamiento agéntico y 5/100 rechazos, y una KLD de 0.0020. Se lanza en formatos Safetensors y GGUF y es accesible a través de Hugging Face. El creador señala que se eligió Heretic 1.2.0 sobre 1.4.0 debido a un mejor rendimiento al evitar KLD altas y mantener umbrales de rechazo bajos.

media r/LocalLLaMA · hace 2 h

Verificación de sentido común con GPU dual: ¿Es una compra inteligente?

Un usuario pregunta si vale la pena agregar una GTX 5060 Ti 16GB a su configuración existente de RTX 5090 para tener más VRAM y ejecutar LLMs más grandes y extender la generación de video en ComfyUI. La actualización permitiría usar Qwen 3.6 con contexto de 256K y mejorar la generación de video en 1440p, aunque las ganancias de rendimiento en ComfyUI son limitadas debido a las restricciones actuales del software.

media r/LocalLLaMA · hace 2 h

¿Qwen-AgentWorld-35B-A3B para programación?

El modelo Qwen-AgentWorld-35B-A3B muestra un rendimiento sólido en tareas de programación, con una puntuación de 65.63% en la Evaluación de Escritura de Software y 65.92% en el benchmark general. Supera a Qwen3.5-35B-A3B y compite con modelos más grandes en tareas basadas en agentes, con una primera impresión que destaca su mayor precisión en flujos de trabajo de agentes a largo plazo.

media r/LocalLLaMA · hace 2 h

la interfaz web de llama.cpp añade ejecución opcional de JavaScript mediante Web Workers

La interfaz web de llama.cpp ahora admite la ejecución de JavaScript generado por modelos de lenguaje en el navegador utilizando Web Workers, habilitado a través de una configuración opcional. El código se ejecuta en un iframe aislado con restricciones de seguridad, aunque las solicitudes de red parecen estar deshabilitadas y las capacidades del sandbox permitidas carecen de documentación clara.

media r/LocalLLaMA · hace 2 h

Gemma 4 26BA4B sorprendentemente utilizable en IQ3_S

Un usuario informa que Gemma 4 26B cuantizado a Q3 funciona a 25 tokens por segundo en un MacBook Air, con un rendimiento casi tan bueno como bf16 para tareas de no-código y llamada de herramientas. Cuestiona si este rendimiento refleja sesgo de confirmación o si los modelos pequeños cuantizados son genuinamente utilizables.

media r/LocalLLaMA · hace 2 h

¿Qué herramientas utilizan las personas para estimar la VRAM y RAM para LLMs locales?

Los usuarios comparten que hf-accelerate's model-memory-usage y el calculador de VRAM de LLM de NyxKrage son herramientas comunes para estimar las necesidades de VRAM y RAM. La herramienta de NyxKrage se destaca por ser consciente del KV-cache y configurable con ajustes de cuantización y longitud de contexto, aunque los resultados pueden variar entre modelos y motores como llama.cpp o vLLM debido a los comportamientos de cuantización y caché.

media r/LocalLLaMA · hace 2 h

Unlimited-OCR de Baidu transcribe docenas de páginas en un solo pase hacia adelante

Baidu ha lanzado Unlimited-OCR, un modelo que transcribe docenas de páginas en un único pase hacia adelante utilizando Atención de Ventana Deslizante de Referencia (R-SWA). Se basa en DeepSeek-OCR, heredando su codificador, compresión de imágenes y arquitectura MoE, con solo 500M de parámetros activos por token. El modelo alcanza una precisión del 93.92% en OmniDocBench v1.6, superando el 87.01% de DeepSeek-OCR en v1.5, aunque los resultados reportados por el fabricante requieren validación independiente.