Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 33

mistral.rs v0.8.10 añade soporte para /v1/skills en modelos locales

mistral.rs v0.8.10 introduce Agent Skills compatibles con OpenAI a través de un endpoint /v1/skills, permitiendo que los modelos locales ejecuten instrucciones y scripts específicos del dominio sin depender de APIs de vanguardia. La actualización soporta herramientas como la carga y descarga de archivos mediante /v1/files e incluye binarios precompilados para Linux, macOS y Windows.

media r/LocalLLaMA · hace 1 h En vivo

Inferencia gratuita de GLM-5.2 en Hugging Face durante las próximas 6 horas

Hugging Face está ofreciendo acceso gratuito a la inferencia de GLM-5.2 durante las próximas seis horas. Los usuarios pueden acceder al modelo a través de la plataforma Hugging Face, con un prompt recomendado proporcionado en la publicación.

media r/LocalLLaMA · hace 1 h En vivo

GLM-5.2 es el mejor modelo de escritura creativa con pesos abiertos

La Benchmark de Escritura Creativa de Sam Paech en EQ Bench clasifica a GLM-5.2 como el mejor modelo de escritura creativa con pesos abiertos. La evaluación se basa en métricas de rendimiento de la evaluación de escritura creativa de EQ Bench.

media r/LocalLLaMA · hace 1 h En vivo

unsloth GLM-5.2-GGUF con cuantización de 2 bits en 238GB

El modelo unsloth GLM-5.2-GGUF está disponible con cuantización de 2 bits, con un tamaño de 238GB. Está alojado en Hugging Face y compartido a través de una publicación en Reddit en la comunidad LocalLLaMA.

media r/LocalLLaMA · hace 1 h En vivo

Mejor lugar para vender una RTX PRO 6000 Blackwell Max-Q apenas usada

Un usuario pregunta dónde vender una RTX PRO 6000 Blackwell Max-Q apenas usada, comprada para inferencia de IA local con uso mínimo. Considera r/hardwareswap, eBay o mercados profesionales/de estaciones de trabajo de nicho, buscando consejos sobre precios realistas y expectativas del comprador como la transferencia de garantía o factura.

media r/LocalLLaMA · hace 1 h En vivo

¿SLMs y Difusión: El Futuro de Modelos Pequeños y Especializados?

Los usuarios debaten si los modelos de lenguaje pequeños específicos para tareas (SLMs) pueden superar a los modelos más grandes en tareas concretas, citando benchmarks donde los modelos de 9B igualan o superan a los más grandes. Proponen un flujo de trabajo agencial secuencial que utiliza múltiples modelos especializados, con uno coordinando y otros verificando las respuestas, sugiriendo que los modelos de difusión podrían acelerar dichos flujos de trabajo a pesar de una inteligencia reducida.

media r/LocalLLaMA · hace 1 h En vivo

La cuantización del caché KV NVFP4 en sm120 hará que los sistemas de 32GB VRAM sean muy capaces

Qwen3.6-27B funciona a ~60 tokens/seg en 32GB VRAM con cuantización KV FP8. La cuantización del caché KV NVFP4 en SM120 podría mejorar significativamente el rendimiento en estos sistemas, aunque la implementación actual aún no está disponible.

media r/LocalLLaMA · hace 1 h En vivo

El poder de la inteligencia está mejor en manos del pueblo que en las salas de juntas de los magnates

El proyecto PearlOS ha lanzado una plataforma de inteligencia enjambre de código abierto que utiliza modelos locales para manejar tareas multimodales. Selecciona y cambia automáticamente entre los mejores modelos según benchmarks, asegurando que los usuarios siempre accedan a los modelos más recientes y capaces sin depender de sistemas de código cerrado ni suscripciones.

media r/LocalLLaMA · hace 1 h En vivo

¿El fundador de GLM dice que habrá un GLM-fable antes de fin de año?

El fundador de GLM ha declarado en Reddit que podría lanzarse un GLM-fable antes de fin de año. La publicación proviene de una discusión de usuarios en el subreddit LocalLLaMA, donde la afirmación se presenta sin confirmación ni anuncio oficial.

media r/LocalLLaMA · hace 1 h En vivo

Los modelos OSS superaron decisivamente a los modelos propietarios en cuota de mercado

Basado en los últimos tres meses de datos de OpenRouter, los modelos de código abierto han superado a los modelos propietarios en cuota de mercado. El análisis destaca un cambio significativo hacia los modelos de lenguaje de código abierto en el panorama general de la IA.

media r/LocalLLaMA · hace 1 h En vivo

Discrepancia entre el rendimiento de Llama Bench y el del mundo real

El usuario reporta una brecha significativa entre los resultados de las pruebas de Llama y el rendimiento real del modelo. Las pruebas muestran 754 tk/s de prefill y 36 tk/s de generación, pero el uso real revela solo 7.98 tokens por segundo, con alta latencia y bajo throughput. La discrepancia se atribuye a las condiciones de uso en el mundo real, no a la configuración de las pruebas, lo que sugiere que el rendimiento real del modelo está muy por debajo de la velocidad medida en las pruebas.

media r/LocalLLaMA · hace 1 h En vivo

Agente LLM Local Ahora Genera Imágenes y Video Sin Conexión

Un usuario compartió que su agente LLM local fue equipado con herramientas MCP para generar imágenes y videos directamente. El sistema opera completamente sin conexión y es gratuito, con detalles y código fuente disponibles en los comentarios.

media r/LocalLLaMA · hace 1 h En vivo

Disponibilidad de la versión local de Le Chaton Fat Flash

Los usuarios muestran interés en una versión local "flash" de Le Chaton Fat por privacidad y soberanía. La comunidad está pidiendo actualizaciones sobre cuándo estará disponible dicha versión ligera local.

media r/LocalLLaMA · hace 1 h En vivo

Modelos de ML recomendados para MacBook Pro con chip M5 Max y 128GB de RAM

El usuario solicita recomendaciones de modelos para su MacBook Pro de 16 pulgadas con chip M5 Max y 128GB de RAM. Actualmente ejecuta Qwen 3.6 35B a3b a través del agente Hermes y LM Studio, señalando la idoneidad de los modelos MLX en Apple Silicon.

media r/LocalLLaMA · hace 1 h En vivo

Keye-VL-2.0-30B-A3B se lanza con capacidades avanzadas de comprensión de video y agente

Keye-VL-2.0-30B-A3B es un modelo multimodal de 30B de parámetros diseñado para la comprensión de videos largos y funcionalidad de agente. Supera a los rivales de código abierto y iguala a Gemini-3-Flash en anclaje temporal, admite hasta 256K de contexto con razonamiento casi sin pérdida, e incluye capacidades integradas para flujos de trabajo de agentes de código, herramientas y búsqueda web.

arxiv arXiv cs.CL · hace 1 h En vivo

Alineación fallida en LLMs: Un estudio cuantitativo

Un nuevo estudio presenta VETO, un conjunto de datos de 2.032 pares contrastivos derivados de BBQ, para cuantificar la alineación fallida en modelos de lenguaje grandes. Define la Tasa de Alineación Fallida (MAR) y encuentra que todos los LLMs evaluados exhiben MARs entre 4.7% y 18.9%, mientras que los participantes humanos logran 0%. La investigación muestra que las señales de alineación pueden amplificar estos fallos, con supresión de evidencia que ocurre en las capas tardías de los modelos y emerge después del entrenamiento por instrucciones.

media r/LocalLLaMA · hace 2 h

¿Alguien tiene suficiente capacidad de cómputo para crear un conjunto de datos de destilación a partir de GLM5.2?

Un usuario pregunta si alguien con recursos informáticos suficientes puede crear un gran conjunto de datos de destilación de 70-1 millones de ejemplos a partir de GLM5.2. El objetivo es permitir un mejor entrenamiento de modelos más pequeños como Qwen3.5, beneficiando a la comunidad en general.

media r/LocalLLaMA · hace 2 h

LocalLLaMA propone un conjunto de datos de programación colaborativo

Una iniciativa comunitaria sugiere crear un conjunto de datos de programación colaborativo para habilitar el desarrollo de LLMs locales. La propuesta busca permitir que cualquier persona con hardware pueda contribuir con datos, mientras que usuarios con mayor capacidad ayuden a ajustar o cuantificar modelos, reduciendo así la dependencia de los modelos publicados por las empresas.

media r/LocalLLaMA · hace 2 h

¿En qué has estado trabajando últimamente?

Un usuario de Reddit le pregunta a la comunidad sobre sus proyectos recientes, señalando que mientras las discusiones se centran en herramientas, hay poca información sobre las aplicaciones reales o el trabajo que se está realizando con esas herramientas.

media r/LocalLLaMA · hace 2 h

Reseña de GLM-5.2 y respuesta a la censura

GLM-5.2 demuestra una coherencia excepcional en contextos largos y fluidez conversacional, superando a Gemini-3.1-Pro en tareas solo de texto e igualando a GPT-5.5 en calidad de razonamiento. El modelo responde de manera factual a temas sensibles como Taiwán y la Plaza de Tiananmén, proporcionando contexto histórico detallado sin censura explícita, aunque se adhiere a las directrices de contenido del gobierno chino.