Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 129

la versión b9758 de llama.cpp añade soporte para bf16 y mayor compatibilidad con compiladores

La versión b9758 de llama.cpp introduce soporte para bf16 en las operaciones bin_bcast y unarias. También amplía la compatibilidad a compiladores Intel más antiguos que la versión 2026.0, con nuevas compilaciones disponibles para las plataformas macOS, Linux, Android, Windows y openEuler, incluyendo soporte para Vulkan, OpenVINO, SYCL y CUDA.

media r/LocalLLaMA · hace 9 d

Sin proveedores europeos de inferencia para GLM 5.2 o DeepSeek V4 Flash

Un usuario de Reddit señala que Openrouter lista 16 proveedores para GLM 5.2, todos basados en EE.UU., Singapur o China. El usuario cuestiona la ausencia de cualquier proveedor europeo ejecutando específicamente modelos abiertos chinos como GLM 5.2 o DeepSeek V4 Flash.

media r/LocalLLaMA · hace 9 d

La cuantización de caché KV con QAT para Gemma 4 31B muestra una mejora masiva

La cuantización de caché KV con QAT para Gemma 4 31B reduce significativamente la divergencia KL en comparación con las cuantizaciones estándar. QAT q8_0 logra una divergencia en el peor caso de 1.5, superando a q4_0 estándar por un factor de aproximadamente 38, y QAT q4_0 supera a q8_0 estándar en rendimiento, con una deriva de salida mucho menor y sin valores atípicos catastróficos.

media r/LocalLLaMA · hace 9 d

El informe técnico de Ling and Ring 2.6 libera modelos de billón de parámetros

Ling and Ring 2.6 ha lanzado los modelos base para Ling-2.6-1T y Ling-2.6-flash, ambos disponibles en Hugging Face. El modelo Ling-2.6-flash (100B parámetros) permite una inferencia rápida para usuarios con 24-32GB de VRAM, ofreciendo alto rendimiento en inferencia solo con CPU y 32GB de RAM.

media r/LocalLLaMA · hace 9 d

¿Puede Jetson Orin Nano ejecutar un modelo de codificación como Qwen?

Un usuario pregunta si un Jetson Orin Nano puede ejecutar un modelo de codificación como Qwen. Consideran Qwen 35B con MOE 3B pero notan que podría ser demasiado grande para el dispositivo.

media r/LocalLLaMA · hace 10 d

Gemma 4 QAT 31B responde mejor a la cuantización de KV cache

Un benchmark muestra que Gemma 4 QAT 31B tiene un mejor rendimiento con la cuantización de KV cache en comparación con versiones anteriores. Los resultados se derivaron de una publicación en el subreddit LocalLLaMA, donde el usuario justicecurcian compartió datos de rendimiento.

github llama.cpp · hace 10 d

Corrección para el fallo en edit_file al añadir contenido al final del archivo

Se corrigió un fallo en la edición de archivos al añadir contenido al final, normalizando -1 a n (inserción al final) en lugar de n+1. El parche restringe -1 al modo de adición y lo rechaza para operaciones de reemplazo/eliminación con el fin de evitar la sobrescritura silenciosa de la última línea, y asegura que el desplazamiento de inserción se calcule como un entero para evitar un desbordamiento del búfer en el montón.

media r/LocalLLaMA · hace 10 d

Soporte para Step3.5/3.7 Flash MTP3 añadido

Una pull request añade soporte para Step3.5 y Step3.7 Flash MTP3 en llama.cpp. Esta mejora permite un mejor rendimiento con modelos específicos aprovechando operaciones de MTP3 multicapa. La actualización está disponible en la última versión de llama.cpp y da seguimiento a PR #23274.

media r/LocalLLaMA · hace 10 d

Gemma 4 31B Q6 funciona a 8-9 t/s en dos tarjetas 9060 XT

Un usuario informa que ejecuta Gemma 4 31B Q6 en dos tarjetas NVIDIA 9060 XT de 16GB, logrando un rendimiento constante de 8-9 tokens por segundo. Señalan que el rendimiento es utilizable pero está por debajo de las expectativas, sugiriendo posibles optimizaciones o limitaciones de hardware.

media r/LocalLLaMA · hace 10 d

¿El hardware dedicado para LLMs locales se volverá asequible pronto?

Los usuarios preguntan si el hardware dedicado para ejecutar modelos de lenguaje grandes locales se volverá asequible para los consumidores pronto. Señalan que, aunque modelos como Qwen 27B son efectivos, los costos del hardware siguen siendo altos y se preguntan si los fabricantes chinos, a pesar de los desafíos en la fabricación de chips y el software, podrían ofrecer soluciones de bajo costo y escalables.

media Hugging Face Forums · hace 10 d

La capacidad no está en los pesos: resultado empírico negativo sobre la proyección de pesos de MLP

Un estudio empírico encontró que proyectar los pesos de MLP de un modelo transformer a otro no logra transferir la capacidad semántica. Cada variante probada obtuvo peores resultados que el modelo anfitrión sin modificar, lo que indica una limitación estructural en la proyección de pesos. Los resultados cuestionan las afirmaciones públicas sobre las capacidades de los modelos basadas en benchmarks, mostrando que dichas afirmaciones no reflejan la geometría interna real de los pesos.

media Hugging Face Forums · hace 10 d

The Clockwork Dark: Un motor de narrativa-RPG local-first impulsado por IA

The Clockwork Dark es un motor de narrativa-RPG local-first e impulsado por IA que utiliza una máquina de estados determinista para resolver todas las mecánicas del juego. Cuenta con dos LLMs autónomos que narran la historia, uno actuando como una voz paciente del mundo y el otro como un asistente divino e infiel. El juego ofrece a los jugadores la opción de luchar contra la corrupción sobrenatural en expansión o abrazar una vida tranquila en una panadería, siendo ambas rutas consideradas finales válidos.

media Hugging Face Forums · hace 10 d

Atascado infinitamente en 'iniciando' con un contenedor de Docker en ejecución

Un usuario informa que su contenedor de Docker con R/Shiny en rocker/r2u se compila correctamente y muestra 'Listening on http://0.0.0.0:7860' en los registros, pero el espacio permanece en estado 'iniciando' e inaccesible. El problema persiste a pesar de no haber errores de código, y el usuario busca mayor atención, señalando que podría ser un problema del lado de la plataforma con Hugging Face.

media Hugging Face Forums · hace 10 d

NOVA-VAD supera a Silero, Pyannote y WebRTC en audio ruidoso con 93% de precisión

NOVA-VAD, un detector de actividad de voz ligero y explicable, alcanza una precisión del 93% en audio ruidoso del conjunto de datos UrbanSound8K, superando a WebRTC (58%), Pyannote (62%) y Silero (87%). Utiliza únicamente scikit-learn, no requiere GPU y proporciona importancia de características y puntuaciones de confianza en inglés sencillo.

media Hugging Face Forums · hace 10 d

Comparación de depuración a pequeña escala de OLMo-core con injerto Engram

Una comparación de entrenamiento de 200 pasos entre un modelo base OLMo3 de 600M y una versión con un injerto Engram al estilo DeepSeek muestra una pérdida de entrenamiento y evaluación menor, una estabilización más rápida de la norma del gradiente y un comportamiento de aprendizaje temprano mejorado. El injerto Engram, inyectado en las capas 1 y 5, aumenta los parámetros entrenables a ~1.7B pero mantiene solo un aumento de 40k en los parámetros activos por token, lo que indica un uso eficiente de la memoria.

media Hugging Face Forums · hace 10 d

Los LLM como aceleradores epistémicos: el riesgo no es solo la alucinación

Los LLM no solo alucinan; amplifican la sobreconfianza epistémica humana al convertir hipótesis débiles en afirmaciones coherentes y pulidas antes de que se verifique la evidencia. Esto crea un riesgo de certeza prematura en la investigación, las políticas públicas y otros dominios, no porque los modelos mientan, sino porque aceleran las tendencias humanas a favorecer explicaciones elegantes sobre la incertidumbre.

media Hugging Face Forums · hace 10 d

Tarjetas de acelerador AI de Tenstorrent disponibles

Tenstorrent ha lanzado las tarjetas de acelerador AI Wormhole y Blackhole. La sección de hardware enumera estas tarjetas, con discusiones sobre los modelos que probablemente sean compatibles.

media Hugging Face Forums · hace 10 d

Un Space se queda atascado en 'Reiniciando' para un commit antiguo durante más de 16 horas

Un Space de Hugging Face ha estado mostrando 'Reiniciando' en el commit 8240352 durante más de 16 horas, a pesar de que múltiples commits más recientes se han construido correctamente. El contenedor inicia con normalidad según los registros, pero el tráfico nunca cambia a la nueva versión, y las acciones de recuperación como reconstrucción de fábrica o reinicio no tienen efecto.

github llama.cpp · hace 10 d

llama.cpp lanza b9751: nuevos binarios y correcciones

llama.cpp publica la versión b9751 con binarios actualizados para macOS, Linux, Android, Windows y openEuler. La publicación incluye correcciones de uso de memoria y admite múltiples arquitecturas y opciones de aceleración de hardware como Vulkan, CUDA, OpenVINO y SYCL.

github llama.cpp · hace 10 d

llama.cpp libera b9752: refactorización del servidor y binarios multiplataforma

llama.cpp lanza la versión b9752 con una refactorización del servidor centrada en la construcción por lotes, que incluye un mejor manejo de los casos de lote completo y correcciones de errores. La liberación incluye binarios precompilados para macOS, Linux, Android, Windows y openEuler, compatibles con varias arquitecturas y marcos de aceleración como CUDA, Vulkan, OpenVINO y SYCL.