Todos los artículos — korshunov.ai

Todos los artículos Página 73 / 129

Construí una herramienta para dejar de cambiar modelos manualmente en mi GPU de 8GB

Desarrollé Prompt-Chain, una aplicación de Streamlit que encadena un modelo Prompter pequeño con un modelo Coder grande en una única canalización. Cambia automáticamente la VRAM al pasar del refinamiento de prompts a la generación de código, eliminando el cambio manual de modelos y reduciendo los tokens desperdiciados por prompts mal redactados.

media r/LocalLLaMA · hace 9 d

GLM5.2 se ejecuta a 7tg en 4x 3090s con 192GB DDR5 en una configuración económica

Un usuario comparte su configuración de laboratorio doméstico con cuatro GPUs GeForce 3090 y 192GB de RAM DDR5 overclockeadas a 5600 MHz. Ejecutan GLM5.2 a 7 tera-giga (tg) como planificador, MiniMax 2.7 a 45tg en VRAM para codificación, y Qwen3.6 27B en q8 para pruebas, todo en hardware de consumo por consideraciones de costo.

media r/LocalLLaMA · hace 9 d

Qwen3.6-35B-A3B APEX en RTX 3090: Puntos de referencia de velocidad y calidad

Un punto de referencia compara las bifurcaciones de llama.cpp (ik_llama y spiritbuun) que ejecutan Qwen3.6-35B-A3B APEX con modelos I-Compact e I-Quality. ik_llama con I-Compact logra la mayor velocidad (~146 TPS), mientras que spiritbuun con I-Quality y caché turbo8/turbo4 iguala esta velocidad y ofrece un rendimiento ligeramente mejor en HellaSwag. Las cachés KV turbo8/turbo4 superan a q8_0/q5_0, especialmente en contextos más largos, con una ganancia de velocidad de hasta el 15% y menor KLD, lo que las hace superiores para calidad y longitud de contexto.

media r/LocalLLaMA · hace 9 d

El passthrough de PCI solo alcanza velocidad de gen 1

El passthrough de PCI de una RTX 3090 a una VM a través del hipervisor Alpine muestra solo velocidad de PCIe gen 1 (2.5 GT/s) después del inicio de la VM, a pesar de que la GPU del host funciona a gen 4 (16 GT/s). El reentrenamiento del enlace ocurre cuando se inicia la VM y vuelve a gen 4 al apagarla, sin cambios observados al ajustar los ajustes de PCIe o los parámetros del kernel.

media r/LocalLLaMA · hace 9 d

Los precios de DDR5 en la UE bajan, Alemania es mucho más barata que los Países Bajos

Los precios de DDR5 en Alemania, Países Bajos, España y Bélgica han caído significativamente durante 25 días. Alemania es un 10-20% más barata que los Países Bajos y Bélgica para kits DDR5 idénticos, con modelos de G.Skill y Kingston mostrando caídas del 28% al 26%. Los kits DDR5-6000 2x16GB son ahora una opción rentable para inferencia LLM de nivel básico.

media Hugging Face Forums · hace 9 d

Búsqueda de conjuntos de datos de documentos en lenguas indias para entrenamiento de IA/OCR en India

QuantVectors está buscando conjuntos de datos de documentos anotados en lenguas indias de la India, incluyendo hindi, maratí, guyaratí, bengalí, punjabi, tamil, urdu, telugu, oriya, kannada, malayalam y asamés. Los conjuntos de datos deben incluir tipos de facturas, recibos, facturas de servicios públicos, avisos de pago, listas de empaque, facturas comerciales y notas de crédito, con aproximadamente 400 documentos por idioma, anotaciones verificadas por humanos y una precisión del 99%+. Los conjuntos de datos deben ser licenciables comercialmente y pueden ser de código abierto o comerciales, solicitando conjuntos de datos de HuggingFace, conjuntos de datos de investigación o proveedores especializados en este ámbito.

media Hugging Face Forums · hace 9 d

Espacio marcado como abusivo por una regla de Cloudflare

Hugging Face ha pausado el espacio sainstore-QC/quality-hub, citando una regla de abuso de Cloudflare. El usuario informa que la marca se emitió el 2026-06-17, el espacio sigue en pausa y los intentos de reinicio fallan a pesar de eliminar los archivos sospechosos del desencadenante y enviar un commit limpio.

media Hugging Face Forums · hace 9 d

El error de estado 'Starting' está completamente corregido

Hugging Face ha resuelto un fallo de sincronización en la interfaz de usuario que hacía que los modelos mostraran 'Starting' en lugar de 'Running'. El problema era exclusivamente de latencia en la interfaz, sin requerir cambios en el backend. Los usuarios ahora ven cómo los modelos transicionan suavemente a 'Running', con el punto verde restaurado.

media Hugging Face Forums · hace 9 d

Construí un nuevo LLM triple-híbrido de menos de 1B parámetros por ~$50

Mateusz ha desarrollado un modelo de lenguaje completamente preentrenado, Titan v1 de Project Inkblot, que combina Mamba SSM, Atención Multi-Cabeza y MoE de 32 expertos en una única arquitectura solo-decoder con menos de 1B parámetros. El modelo, entrenado en una única GPU NVIDIA L4 por ~$50, alcanza una perplejidad de validación de 27.5 y demuestra un escalado eficiente mediante una actualización de configuración de una sola línea, con todos los componentes implementados desde cero en PyTorch. El primer ciclo de entrenamiento de Titan v2 ya está completo y la expansión del conjunto de datos está en curso.

media Hugging Face Forums · hace 9 d

Modelos sustitutos de ML en CFD/MEF: Prácticas y desafíos del mundo real

Los profesionales de la ingeniería informan que las redes neuronales gráficas y los MLP en diseños parametrizados ofrecen el mejor equilibrio práctico para predecir campos como temperatura y tensión. La eficiencia de datos es alcanzable con 10–50 muestras de entrenamiento, especialmente cuando se aplica aprendizaje por transferencia entre geometrías similares. Las redes neuronales informadas por física (PINNs) siguen siendo principalmente experimentales para geometrías de ingeniería complejas, con la mayoría de los usuarios dependiendo de sustitutos basados en datos. La generalización sigue siendo un desafío clave, ya que los modelos a menudo fallan en condiciones de frontera fuera de la distribución, lo que impulsa un retorno a ejecuciones completas del solucionador.

media Hugging Face Forums · hace 9 d

¿Qué tendencia de IA tendrá el mayor impacto en los próximos cinco años?

Una discusión en Hugging Face pregunta qué tendencia del desarrollo de IA afectará más significativamente a las empresas, los empleos o la vida cotidiana dentro de los próximos cinco años. Se invita a los participantes a compartir sus opiniones sobre las tecnologías emergentes de IA y su posible impacto en el mundo real.

github llama.cpp · hace 9 d

llama.cpp lanza b9757: nuevos binarios y características

llama.cpp publica la versión b9757 con binarios actualizados para macOS, Linux, Android, Windows y openEuler. La versión elimina el softmax+sort incondicional en el sampler top-n-sigma, mejorando la eficiencia del muestreo. Las nuevas compilaciones admiten Vulkan, OpenVINO, SYCL, ROCm y CUDA en múltiples arquitecturas, incluyendo Apple Silicon y ARM64.

github llama.cpp · hace 9 d

la versión b9758 de llama.cpp añade soporte para bf16 y mayor compatibilidad con compiladores

La versión b9758 de llama.cpp introduce soporte para bf16 en las operaciones bin_bcast y unarias. También amplía la compatibilidad a compiladores Intel más antiguos que la versión 2026.0, con nuevas compilaciones disponibles para las plataformas macOS, Linux, Android, Windows y openEuler, incluyendo soporte para Vulkan, OpenVINO, SYCL y CUDA.

media r/LocalLLaMA · hace 9 d

Sin proveedores europeos de inferencia para GLM 5.2 o DeepSeek V4 Flash

Un usuario de Reddit señala que Openrouter lista 16 proveedores para GLM 5.2, todos basados en EE.UU., Singapur o China. El usuario cuestiona la ausencia de cualquier proveedor europeo ejecutando específicamente modelos abiertos chinos como GLM 5.2 o DeepSeek V4 Flash.

media r/LocalLLaMA · hace 9 d

La cuantización de caché KV con QAT para Gemma 4 31B muestra una mejora masiva

La cuantización de caché KV con QAT para Gemma 4 31B reduce significativamente la divergencia KL en comparación con las cuantizaciones estándar. QAT q8_0 logra una divergencia en el peor caso de 1.5, superando a q4_0 estándar por un factor de aproximadamente 38, y QAT q4_0 supera a q8_0 estándar en rendimiento, con una deriva de salida mucho menor y sin valores atípicos catastróficos.

media r/LocalLLaMA · hace 9 d

El informe técnico de Ling and Ring 2.6 libera modelos de billón de parámetros

Ling and Ring 2.6 ha lanzado los modelos base para Ling-2.6-1T y Ling-2.6-flash, ambos disponibles en Hugging Face. El modelo Ling-2.6-flash (100B parámetros) permite una inferencia rápida para usuarios con 24-32GB de VRAM, ofreciendo alto rendimiento en inferencia solo con CPU y 32GB de RAM.

media r/LocalLLaMA · hace 9 d

¿Puede Jetson Orin Nano ejecutar un modelo de codificación como Qwen?

Un usuario pregunta si un Jetson Orin Nano puede ejecutar un modelo de codificación como Qwen. Consideran Qwen 35B con MOE 3B pero notan que podría ser demasiado grande para el dispositivo.

media r/LocalLLaMA · hace 10 d

Gemma 4 QAT 31B responde mejor a la cuantización de KV cache

Un benchmark muestra que Gemma 4 QAT 31B tiene un mejor rendimiento con la cuantización de KV cache en comparación con versiones anteriores. Los resultados se derivaron de una publicación en el subreddit LocalLLaMA, donde el usuario justicecurcian compartió datos de rendimiento.

github llama.cpp · hace 10 d

Corrección para el fallo en edit_file al añadir contenido al final del archivo

Se corrigió un fallo en la edición de archivos al añadir contenido al final, normalizando -1 a n (inserción al final) en lugar de n+1. El parche restringe -1 al modo de adición y lo rechaza para operaciones de reemplazo/eliminación con el fin de evitar la sobrescritura silenciosa de la última línea, y asegura que el desplazamiento de inserción se calcule como un entero para evitar un desbordamiento del búfer en el montón.

media r/LocalLLaMA · hace 10 d

Soporte para Step3.5/3.7 Flash MTP3 añadido

Una pull request añade soporte para Step3.5 y Step3.7 Flash MTP3 en llama.cpp. Esta mejora permite un mejor rendimiento con modelos específicos aprovechando operaciones de MTP3 multicapa. La actualización está disponible en la última versión de llama.cpp y da seguimiento a PR #23274.