Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 129

Idea para ejecutar GLM2 con una cuantización decente en configuración de GPU y DDR3

El usuario propone utilizar cuatro GPUs 5060 Ti con 64GB de VRAM en total, funcionando a PCIe Gen 3, para ejecutar GLM2 a un nivel de cuantización razonable. Sugiere añadir 512GB de RAM DDR3 en un servidor con 16 carriles PCIe y bifurcación 4x4 para descargar el almacenamiento del KV cache, buscando una inferencia eficiente sin depender de clústeres de memoria unificada. Se estima que la configuración costará alrededor de $1700 en total, con viabilidad potencial para GLM2 a un nivel de cuantización decente.

media r/LocalLLaMA · hace 9 d

MacBook Pro M5 Pro 64GB para inferencia de IA local

Un usuario está evaluando un MacBook Pro con el chip M5 Pro y 64GB de memoria unificada para ejecutar grandes modelos de IA locales como Qwen 35B A3B o modelos de 8B en marcos de agentes de IA como Opencode o Pi. Está preocupado por la longitud del contexto, el rendimiento, la multitarea con aplicaciones como IDEs y Chromium, y el posible sobrecalentamiento, buscando comentarios de otros con configuraciones similares.

media r/LocalLLaMA · hace 9 d

Qt Creator 20 introduce funciones de IA local

Qt Creator 20 ahora incluye capacidades de IA local, permitiendo a los desarrolladores usar IA para la finalización y sugerencias de código directamente dentro del IDE. Esta integración admite LLMs locales, permitiendo a los usuarios ejecutar modelos de IA en sus propios dispositivos sin depender de servicios en la nube.

media Hugging Face Forums · hace 9 d

El proxy de Hugging Face Spaces elimina el encabezado de credenciales CORS en la preflight OPTIONS

Los usuarios informan que el proxy de borde de Hugging Face Spaces ahora está eliminando el encabezado Access-Control-Allow-Credentials de las solicitudes de preflight OPTIONS, incluso cuando se configura explícitamente en el middleware de Express. El encabezado falta en las respuestas a pesar del código que lo establece e incluye un middleware comodín para las solicitudes OPTIONS, lo que sugiere que el proxy intercepta y modifica la respuesta antes de que llegue al contenedor backend.

media Hugging Face Forums · hace 9 d

Los componentes web de Gradio fallan al cargarse

Los componentes web de Gradio están fallando al cargarse en sitios web, mostrando un error sobre un nombre de repositorio inválido debido a barras codificadas en la URL. El problema ocurre al cargar espacios de Hugging Face mediante componentes web de Gradio, a pesar de funcionar directamente en el espacio de HF.

media Hugging Face Forums · hace 9 d

BenchHub lanza una actualización importante al espacio de tablas de clasificación abiertas

BenchHub ha lanzado una actualización importante a su plataforma de tablas de clasificación abiertas, que ahora cubre tareas de visión, audio y PLN con métricas consistentes y puntuaciones reproducibles. La plataforma cuenta con 95 tablas, más de 700 presentaciones de modelos y permite la participación gratuita mediante inicio de sesión con GitHub, Google o Hugging Face, con exploración completa y comparaciones de muestras disponibles en runbenchhub.com.

media r/LocalLLaMA · hace 9 d

Agregar soporte para Laguna M.1 GGUF por empty-quiver

Una pull request agrega soporte para el modelo GGUF Laguna M.1 225B-A23B en ik_llama.cpp. El modelo está disponible en Hugging Face en https://huggingface.co/sigargv/Laguna-M.1-GGUF.

media r/LocalLLaMA · hace 9 d

Comparación de GLM-5.2 vs Claude Opus

Una publicación en Reddit compara GLM-5.2 y Claude Opus, destacando su rendimiento y capacidades. La comparación está respaldada por una página dedicada de análisis técnico e incluye comentarios de la comunidad.

media r/LocalLLaMA · hace 9 d

Punto de vista de Anthropic sobre LocalLLaMA

Un usuario comparte su perspectiva sobre los modelos de lenguaje locales, destacando las ideas clave del enfoque de Anthropic. La publicación analiza consideraciones prácticas y el rendimiento al ejecutar modelos de IA localmente, enfatizando la accesibilidad y la privacidad.

media r/LocalLLaMA · hace 9 d

¿Por qué ningún modelo de pensamiento utiliza tokens a nivel de oración?

Un usuario pregunta por qué no hay modelos de lenguaje entrenados con oraciones completas como tokens individuales, sugiriendo que tal modelo podría actuar como un 'hablante aproximado' con fuertes capacidades de razonamiento. Proponen usar un solo token para frases como 'comida arrojada por el inodoro' para simplificar el procesamiento de entradas.

lab OpenAI News · hace 9 d

Jason Liu utiliza Codex para la gestión de proyectos de larga duración

Jason Liu demuestra cómo Codex ayuda a preservar el contexto y gestionar proyectos complejos, permitiendo que el trabajo continúe sin interrupciones más allá de un único prompt.

media r/LocalLLaMA · hace 9 d

Top-N-Sigma: Eliminar softmax+sort incondicional

El muestreador Top-N-Sigma actualmente realiza una operación de softmax y ordenamiento incondicional al final, lo cual es inútil cuando va seguido de Dist. Este PR elimina ese paso, mejorando el rendimiento en un 50% en un MacBook Pro M3 Max para el modelo google_gemma-4-E4B-it-Q8_0, reduciendo el tiempo por token en 10ms. El cambio puede afectar las cadenas del muestreado y aún no se ha verificado para todos los backends y modelos.

github llama.cpp · hace 9 d

llama.cpp libera b9761: actualizaciones de descarga de modelos y plataformas

la versión b9761 de llama.cpp traslada la descarga de modelos a un proceso hijo dedicado y añade seguimiento del progreso en tiempo real mediante /models/sse. La liberación incluye binarios para macOS, Linux, Android, Windows y openEuler, con soporte para varias arquitecturas y aceleradores de hardware como CUDA, Vulkan, OpenVINO y SYCL.

lab OpenAI News · hace 9 d

OpenAI lanza herramientas de seguridad Daybreak

OpenAI ha presentado Codex Security y GPT-5.5-Cyber como parte de su suite Daybreak. Estas herramientas tienen como objetivo ayudar a las organizaciones a identificar, validar y parchear vulnerabilidades a gran escala.

lab OpenAI News · hace 9 d

OpenAI lanza Patch the Planet para el código abierto

OpenAI ha lanzado Patch the Planet, una iniciativa de Daybreak destinada a ayudar a los mantenedores de proyectos de código abierto a identificar, validar y resolver vulnerabilidades. El programa combina herramientas de IA con revisiones de expertos para mejorar la seguridad del software de código abierto.

media r/LocalLLaMA · hace 9 d

Mejor modelo local para convertir texto en salida JSON estructurada

Los usuarios buscan un modelo local que convierta eficientemente texto no estructurado en JSON válido basado en un esquema definido. Entre los modelos probados, Qwen 3.6 35B a3b muestra un rendimiento sólido, igualando la calidad de modelos más grandes como GPT-120B mientras es más estable en máquinas locales que GPT-20B.

github llama.cpp · hace 9 d

llama.cpp libera b9760: nuevo esquema de entrada y binarios multiplataforma

La versión b9760 de llama.cpp introduce un esquema de archivo de entrada refactorizado que admite videos de entrada en base64 sin procesar. La liberación incluye binarios para macOS, Linux, Android, Windows y openEuler a través de múltiples arquitecturas y aceleradores de hardware, incluyendo Vulkan, CUDA, OpenVINO y SYCL.

lab NVIDIA Technical Blog · hace 9 d

CCCL Runtime: Un entorno de ejecución moderno en C++ para CUDA

NVIDIA ha lanzado CCCL Runtime, un entorno de ejecución moderno en C++ que proporciona abstracciones más seguras y convenientes para la programación en CUDA. Introduce características actualizadas de C++ para simplificar y mejorar el desarrollo en CUDA C++.

media r/LocalLLaMA · hace 9 d

Moebius: Marco de inpintación de imágenes ligero de 0.2B

Moebius es un marco de inpintación de imágenes de 0.2B parámetros que logra un rendimiento comparable al de modelos de 10B parámetros. Está diseñado para la edición de imágenes ligera y eficiente con requisitos computacionales mínimos.

media r/LocalLLaMA · hace 9 d

Hackers chinos crean un clon del Tesla V100 v4

Los hackers chinos han realizado ingeniería inversa del pinout del Tesla V100, lo han soldado en una PCB de media altura y lo han lanzado como el Tesla V100 v4. La versión de 16GB tiene un precio de 1499 RMB (220 USD) con una garantía de tres años, mientras que la versión de 32GB cuesta 3999 RMB (590 USD).