Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 84

Impacto de la cuantización en las tasas de aceptación de borradores MTP

Un análisis del descodificación especulativa utilizando modelos Gemma 4-31B-it demuestra que una cuantización intensa reduce la tasa de aceptación de tokens porque el modelo principal se vuelve menos consistente con el creador de borradores. Las pruebas en cuantizaciones Q5_K_S, IQ4_XS, IQ3_M e IQ2_M revelan cómo la profundidad del borrador afecta el rendimiento.

media r/LocalLLaMA · hace 8 h

Ejecutar GLM5.2 en hardware económico < $2500

Un usuario de Reddit demuestra cómo ensamblar un equipo local de inferencia de IA por menos de $2500 utilizando componentes asequibles de segunda mano, apuntando específicamente a la capacidad de ejecutar modelos de lenguaje grandes como GLM-5.2 sin hardware empresarial costoso.

media r/LocalLLaMA · hace 8 h

Usuarios reportan que Ornith 35B supera a Qwen en generación de juegos 3D

Un usuario de Reddit comparte su experiencia usando el entorno de Claude Code para generar un juego 3D con el modelo Ornith 35B. Después de tres prompts, el modelo produjo con éxito la salida solicitada, mientras que el modelo Qwen3.5-35b-a3b no lo logró incluso después de múltiples intentos.

media r/LocalLLaMA · hace 8 h

Observaciones sobre el declive de las discusiones sobre ajuste fino para hardware de consumo

Un usuario de Reddit señala que el interés en ajustar modelos en hardware de grado consumidor parece haber disminuido desde el lanzamiento de modelos generalistas capaces como Llama-3-8b. El autor sugiere que la mejora en la inteligencia del modelo base reduce la necesidad de ajuste fino, ya que la ingeniería de prompts suele ser suficiente.

media r/LocalLLaMA · hace 8 h

Google organiza hackathons para modelos pequeños como Gemma 4 31B

Google está organizando hackathons centrados en modelos de lenguaje pequeños, específicamente el Gemma 4 31B, para demostrar su valor en la ingeniería de software asistida por IA. Esta iniciativa destaca la creencia continua de la compañía en la utilidad de los modelos más pequeños a pesar de la tendencia de la industria hacia modelos más grandes.

media r/LocalLLaMA · hace 8 h

Mythos fue el primero, ahora GPT-5.6

El texto proporcionado es una publicación de Reddit que discute el modelo GPT-5.6 de OpenAI y sus limitaciones en el lanzamiento tras una solicitud gubernamental.

media r/LocalLLaMA · hace 8 h

Vaya ... Le compré una Diet Pepsi a mi esposa.

Un usuario de Reddit en la comunidad r/LocalLLaMA compartió una imagen con el pie de foto "Esposa feliz, vida feliz" como dicen. La publicación es una anécdota personal sobre la compra de una Diet Pepsi para la esposa del usuario.

media r/LocalLLaMA · hace 9 h

ObviousBench: Un benchmark para fallos evidentes de LLM en modelos más pequeños

ObviousBench es un nuevo benchmark diseñado para evaluar fallos visibles en modelos de lenguaje grandes, centrándose en cómo las elecciones de configuración impactan las tasas de error. La herramienta destaca los compromisos entre el tamaño del modelo, la velocidad y las capacidades de razonamiento en lugar de simplemente clasificar el rendimiento.

media r/LocalLLaMA · hace 9 h

Entrevista a Cory Doctorow sobre IA y defensa de la IA local

Esta publicación de Reddit comparte una entrevista de Ars Technica con Cory Doctorow sobre sus opiniones respecto a la inteligencia artificial. El autor original destaca el tono crítico del artículo hacia las grandes empresas tecnológicas que intentan salir a bolsa.

media r/LocalLLaMA · hace 9 h

SupraLabs lanza SupraSafety-18M, un modelo diminuto de moderación de contenido

SupraLabs ha lanzado SupraSafety-18M, un clasificador binario de texto estilo BERT con 18 millones de parámetros diseñado para la moderación de contenido en dispositivos periféricos y teléfonos móviles. El modelo fue entrenado desde cero en el nvidia/Nemotron-3.5-Content-Safety-Dataset y alcanza una precisión del 81,2 % y un recall del 86,9 %.

media r/LocalLLaMA · hace 9 h

Operador de laboratorio de GPU advierte contra pedidos anticipados de 4090 y 5090 de 96GB

Un operador de laboratorio de GPU en EE. UU. que colabora con fábricas chinas para producir PCBs modificados de RTX 4090 de 48GB advierte que los listados de RTX 4090 y RTX 5090 de 96GB son estafas a partir de junio de 2026.

media r/LocalLLaMA · hace 9 h

El selector de compilaciones GPU offline estima el ajuste y la velocidad del modelo local

Un desarrollador ha lanzado una herramienta HTML offline de un solo archivo que estima qué modelos de lenguaje grandes locales se ajustarán a una configuración de GPU específica y predice su velocidad de generación de tokens. La herramienta está diseñada para responder a la pregunta común sobre si una compilación personalizada de PC puede ejecutar los modelos deseados de manera efectiva, sin requerir un backend ni cuenta de usuario.

media r/LocalLLaMA · hace 9 h

Usuario de Reddit solicita actualizaciones sobre frameworks de uso de navegador por agentes y capacidades de modelos locales

Un usuario de Reddit consulta sobre el estado actual de los frameworks de uso de navegador por agentes, preguntando específicamente si se han realizado mejoras para manejar flujos de trabajo largos en comparación con experiencias anteriores.

media r/LocalLLaMA · hace 9 h

Usuario busca consejos para ejecutar LLMs locales en hardware de bajas especificaciones

Un usuario de Reddit está pidiendo recomendaciones para ejecutar pequeños modelos de lenguaje locales y potencialmente tareas agénticas como Hermes en un MacBook Pro antiguo con recursos limitados.

media r/LocalLLaMA · hace 9 h

SpectralQuant Qwen3.5 0.8B Q4_K_M recupera el 96,5 % de la brecha de BF16

Spectral Labs ha publicado una candidata a lanzamiento para una cuantización Q4_K_M consciente de la calibración del modelo Qwen3.5 0.8B, utilizando un nuevo método llamado SpectralQuant. Este enfoque busca que las huellas estándar de Q4_K_M se comporten más como formatos de cuantización mayores mientras mantiene la compatibilidad con llama.cpp.

media Ahead of AI · hace 10 h

Configuración de un agente de codificación local con herramientas de código abierto

Este artículo proporciona un tutorial sobre la configuración de una pila de agentes de codificación completamente local y lista para producción, utilizando herramientas de código abierto y modelos de lenguaje grandes de pesos abiertos. Detalla cómo combinar un LLM servido localmente con un entorno de codificación capaz de leer archivos, realizar ediciones, ejecutar comandos y verificar cambios.

media r/LocalLLaMA · hace 10 h

Cabeza de difusión Orthrus entrenada en modelos Qwen 3.5/3.6 y Gemma 4 que se lanzarán pronto

El proyecto Orthrus está preparando el lanzamiento del soporte para los modelos Qwen 3.5, Qwen 3.6 y Gemma 4 utilizando un enfoque de cabeza de difusión. El equipo ha finalizado las pruebas y actualmente está configurando la canalización de lanzamiento.

media r/LocalLLaMA · hace 10 h

Un usuario de Reddit detecta un nuevo modo de visión en la aplicación de DeepSeek

Un usuario de Reddit observó un nuevo modo de visión dentro de la aplicación de DeepSeek, lo que generó especulaciones sobre el lanzamiento inminente de un modelo de visión. El usuario aclaró que la función no es una herramienta de OCR, ya que describió con éxito imágenes que no contenían texto.

media r/LocalLLaMA · hace 10 h

Informes de RTX 5090 con 96GB VRAM en Huaqiangbei de Shenzhen

Los visitantes del mercado electrónico Huaqiangbei de Shenzhen han encontrado informes y ofertas potenciales de tarjetas gráficas Nvidia RTX 5090 modificadas equipadas con 96 gigabytes de RAM de video. Un vendedor indicó que una RTX 6000 Blackwell modificada costaría aproximadamente $8,200, compuestos por 36,000 yuanes por la tarjeta base y 20,000 yuanes adicionales por la actualización de memoria.

media r/LocalLLaMA · hace 10 h

Usuario pide mejores modelos de codificación para un solo DGX Spark

Un usuario de Reddit con un único DGX Spark que cuenta con 128 GB de memoria unificada busca recomendaciones para mejorar los modelos de codificación; actualmente utiliza StepFun step-3.7-flash y variantes de Qwen 3.6.