Todos los artículos
media r/LocalLLaMA · hace 9 d

La cuantización de caché KV con QAT para Gemma 4 31B muestra una mejora masiva

La cuantización de caché KV con QAT para Gemma 4 31B reduce significativamente la divergencia KL en comparación con las cuantizaciones estándar. QAT q8_0 logra una divergencia en el peor caso de 1.5, superando a q4_0 estándar por un factor de aproximadamente 38, y QAT q4_0 supera a q8_0 estándar en rendimiento, con una deriva de salida mucho menor y sin valores atípicos catastróficos.

github llama.cpp · hace 10 d

Corrección para el fallo en edit_file al añadir contenido al final del archivo

Se corrigió un fallo en la edición de archivos al añadir contenido al final, normalizando -1 a n (inserción al final) en lugar de n+1. El parche restringe -1 al modo de adición y lo rechaza para operaciones de reemplazo/eliminación con el fin de evitar la sobrescritura silenciosa de la última línea, y asegura que el desplazamiento de inserción se calcule como un entero para evitar un desbordamiento del búfer en el montón.

media r/LocalLLaMA · hace 10 d

¿El hardware dedicado para LLMs locales se volverá asequible pronto?

Los usuarios preguntan si el hardware dedicado para ejecutar modelos de lenguaje grandes locales se volverá asequible para los consumidores pronto. Señalan que, aunque modelos como Qwen 27B son efectivos, los costos del hardware siguen siendo altos y se preguntan si los fabricantes chinos, a pesar de los desafíos en la fabricación de chips y el software, podrían ofrecer soluciones de bajo costo y escalables.

media Hugging Face Forums · hace 10 d

La capacidad no está en los pesos: resultado empírico negativo sobre la proyección de pesos de MLP

Un estudio empírico encontró que proyectar los pesos de MLP de un modelo transformer a otro no logra transferir la capacidad semántica. Cada variante probada obtuvo peores resultados que el modelo anfitrión sin modificar, lo que indica una limitación estructural en la proyección de pesos. Los resultados cuestionan las afirmaciones públicas sobre las capacidades de los modelos basadas en benchmarks, mostrando que dichas afirmaciones no reflejan la geometría interna real de los pesos.

media Hugging Face Forums · hace 10 d

The Clockwork Dark: Un motor de narrativa-RPG local-first impulsado por IA

The Clockwork Dark es un motor de narrativa-RPG local-first e impulsado por IA que utiliza una máquina de estados determinista para resolver todas las mecánicas del juego. Cuenta con dos LLMs autónomos que narran la historia, uno actuando como una voz paciente del mundo y el otro como un asistente divino e infiel. El juego ofrece a los jugadores la opción de luchar contra la corrupción sobrenatural en expansión o abrazar una vida tranquila en una panadería, siendo ambas rutas consideradas finales válidos.

media Hugging Face Forums · hace 10 d

Atascado infinitamente en 'iniciando' con un contenedor de Docker en ejecución

Un usuario informa que su contenedor de Docker con R/Shiny en rocker/r2u se compila correctamente y muestra 'Listening on http://0.0.0.0:7860' en los registros, pero el espacio permanece en estado 'iniciando' e inaccesible. El problema persiste a pesar de no haber errores de código, y el usuario busca mayor atención, señalando que podría ser un problema del lado de la plataforma con Hugging Face.

media Hugging Face Forums · hace 10 d

Comparación de depuración a pequeña escala de OLMo-core con injerto Engram

Una comparación de entrenamiento de 200 pasos entre un modelo base OLMo3 de 600M y una versión con un injerto Engram al estilo DeepSeek muestra una pérdida de entrenamiento y evaluación menor, una estabilización más rápida de la norma del gradiente y un comportamiento de aprendizaje temprano mejorado. El injerto Engram, inyectado en las capas 1 y 5, aumenta los parámetros entrenables a ~1.7B pero mantiene solo un aumento de 40k en los parámetros activos por token, lo que indica un uso eficiente de la memoria.

media Hugging Face Forums · hace 10 d

Los LLM como aceleradores epistémicos: el riesgo no es solo la alucinación

Los LLM no solo alucinan; amplifican la sobreconfianza epistémica humana al convertir hipótesis débiles en afirmaciones coherentes y pulidas antes de que se verifique la evidencia. Esto crea un riesgo de certeza prematura en la investigación, las políticas públicas y otros dominios, no porque los modelos mientan, sino porque aceleran las tendencias humanas a favorecer explicaciones elegantes sobre la incertidumbre.

media Hugging Face Forums · hace 10 d

Un Space se queda atascado en 'Reiniciando' para un commit antiguo durante más de 16 horas

Un Space de Hugging Face ha estado mostrando 'Reiniciando' en el commit 8240352 durante más de 16 horas, a pesar de que múltiples commits más recientes se han construido correctamente. El contenedor inicia con normalidad según los registros, pero el tráfico nunca cambia a la nueva versión, y las acciones de recuperación como reconstrucción de fábrica o reinicio no tienen efecto.

github llama.cpp · hace 10 d

llama.cpp libera b9752: refactorización del servidor y binarios multiplataforma

llama.cpp lanza la versión b9752 con una refactorización del servidor centrada en la construcción por lotes, que incluye un mejor manejo de los casos de lote completo y correcciones de errores. La liberación incluye binarios precompilados para macOS, Linux, Android, Windows y openEuler, compatibles con varias arquitecturas y marcos de aceleración como CUDA, Vulkan, OpenVINO y SYCL.