Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 129

Benchmark inicial de Minimax M3 (4-bit MLX) en Mac Studio M3 con 512GB

Se realizó un benchmark de Minimax M3 (4-bit MLX) en un Mac Studio M3 con 512GB de almacenamiento. Los resultados muestran métricas de rendimiento de tokens y latencia para diferentes tamaños de prompt, con un rendimiento máximo de 269.1 tok/s para prompts de 8192 tokens y 172.8 tok/s para un prompt de 65k tokens, utilizando 228GB de memoria en su punto máximo.

media r/LocalLLaMA · hace 15 d

GLM-5.2 ahora es el primero en Design Arena

GLM-5.2 ha sido clasificado como el primero en Design Arena, superando a Claude Fable 5, que estaba disponible anteriormente. El modelo Claude Fable 5 ya no está disponible, lo que contribuye a la posición superior de GLM-5.2.

media r/LocalLLaMA · hace 15 d

¿Es Le Gros Chaton de código abierto?

Una publicación en Reddit pregunta si Le Gros Chaton, un próximo modelo de Mistral, será de código abierto. El modelo se describe como teniendo 1B de contexto, capacidades de auto-mejora y generación de código en francés, aunque se apaga cada tres horas y se niega a responder antes del desayuno. La publicación también cuestiona humorísticamente si 'le chaton fat' sigue siendo una terminología aceptable.

media r/LocalLLaMA · hace 15 d

Zhipu se dispara un 33% mientras Wall Street aumenta las apuestas en la IA de China tras las restricciones de Anthropic

Las acciones de Zhipu suben un 33% tras el mayor interés de Wall Street en el sector de la IA de China. El repunte se produce después de que Anthropic, una empresa estadounidense de inteligencia artificial, redujera sus operaciones, lo que ha generado especulaciones en el mercado sobre las dinámicas competitivas en el desarrollo global de la IA.

media r/LocalLLaMA · hace 15 d

GLM-5.2 lanza pesos abiertos con un sólido rendimiento en codificación

GLM-5.2 se ha lanzado con pesos abiertos, una ventana de contexto de 1M, licencia MIT y dos modos de razonamiento. Los resultados iniciales muestran que se sitúa cerca de la cima en las pruebas de codificación, lo que indica un fuerte potencial en el mundo real más allá de los modelos solo por API.

lab Claude Code Releases · hace 15 d

Notas de la versión v2.1.179

v2.1.179 corrige las caídas de conexión en medio del flujo, los problemas de desplazamiento con la rueda del ratón en WSL2 y un error en el patrón glob del sandbox que causaba descripciones excesivas de herramientas Bash. También resuelve errores en la encuesta de retroalimentación, el apilamiento de banners promocionales y problemas de enfoque en las vistas de subagente, mientras mejora la carga de complementos en sesiones remotas.

github llama.cpp · hace 15 d

llama.cpp lanza b9660 con correcciones y nuevos binarios

llama.cpp lanza la versión b9660, corrigiendo el doble-escapeo en el análisis de llamadas a herramientas LFM2. La actualización incluye binarios para macOS, Linux, Android, Windows y openEuler en múltiples arquitecturas y opciones de aceleración por hardware, con un paquete de interfaz de usuario dedicado.

media r/LocalLLaMA · hace 15 d

API de GLM 5.2 en vivo, pesos en Hugging Face, soporte para Ollama

La API de GLM 5.2 ya está disponible, con los pesos del modelo accesibles en Hugging Face bajo la licencia MIT y compatibles con Ollama. El modelo ofrece dos modos de pensamiento —Alto y Máximo— con una longitud de contexto de 1M, con un precio de $1.4 por cada 1M tokens de entrada y $4.4 por cada 1M tokens de salida, igual que GLM-5.1.

media r/LocalLLaMA · hace 15 d

Hemos abierto el código de nuestro agente QA basado en LLM para detectar fallos más rápido

Approxima es un agente QA de código abierto y autoalojable que supervisa los recorridos del usuario y soporta Claude, Gemini y GPT de forma nativa. Cuenta con Modo Exploración, Pruebas A/B y Auto-reparación para adaptarse a la evolución del producto, con soporte completo para modelos locales y contribuciones de la comunidad.

media r/LocalLLaMA · hace 15 d

Evalatro: un benchmark abierto donde los LLM juegan al Balatro real

Evalatro es un benchmark abierto que permite a los LLM jugar al juego real Balatro. Los modelos reciben el estado del juego como texto, toman decisiones de forma independiente y compiten para alcanzar la Ante 12, con resultados actuales que muestran un progreso limitado: mimo-v2.5-pro alcanzó la Ante 5, y deepseek-v4-pro no logró superar la Ante 8.

media r/LocalLLaMA · hace 15 d

Hardware más económico para Qwen 3.6: modelos de 27B y 35B-A3B

Una publicación en Reddit analiza la configuración de hardware rentable para ejecutar los modelos Qwen 3.6, tanto el de 27B como el de 35B-A3B, señalando que la RTX 3090 de 24GB ofrece mejor valor a largo plazo frente a la Tesla V100 debido a su descontinuación y las alternativas chinas próximas. La configuración propuesta suma $1,995.65, incluyendo un Ryzen 5 5600X, una RTX 3090 de 24GB y componentes esenciales, siendo el precio total una preocupación clave para los usuarios que buscan asequibilidad.

media r/LocalLLaMA · hace 15 d

Deja de usar Ollama

Una publicación de blog y una publicación en Reddit instan a los usuarios a dejar de usar Ollama, citando preocupaciones sobre seguridad, privacidad y los riesgos de ejecutar modelos de lenguaje grandes localmente. El autor argumenta que las soluciones alternativas ofrecen un mejor control y seguridad para los usuarios.

media r/LocalLLaMA · hace 15 d

El fundador de Hashicorp afirma que los modelos locales aún no son lo suficientemente buenos

Mitchell Hashimoto, fundador de Hashicorp, afirma que los modelos de lenguaje locales aún no son lo suficientemente buenos. Un usuario de Reddit discrepa de esta afirmación, señalando que durante más de un año, muchas personas han utilizado con éxito modelos locales para programación, y solo los 'vibecoders' han enfrentado desafíos.

github LangGraph · hace 15 d

langgraph-cli 0.4.30 lanzado

La versión 0.4.30 de langgraph-cli ya está disponible, con soporte para rangos de versiones de API compatibles. El lanzamiento también incluye estructuras de README.md estandarizadas para una mejor consistencia en la documentación.

lab Claude Code Releases · hace 15 d

Notas de la versión de Claude v2.1.178

Claude v2.1.178 introduce nuevas reglas de permisos utilizando la sintaxis Tool(param:value), mejora la carga de flujos de trabajo y habilidades en directorios anidados, y optimiza el modo automático y los mensajes de error. Corrige problemas críticos como bloqueos, errores de autenticación y comportamiento de la interfaz de usuario en Chrome y VSCode, mientras refina las indicaciones de las herramientas y la funcionalidad de deshacer.

github llama.cpp · hace 15 d

llama.cpp lanza la versión b9672 con actualización de BoringSSL

llama.cpp ha lanzado la versión b9672, actualizando BoringSSL a 0.20260616.0. El lanzamiento incluye binarios para macOS, Linux, Android, Windows y openEuler en múltiples arquitecturas y opciones de aceleración por hardware, incluyendo Vulkan, CUDA, ROCm, OpenVINO y SYCL.

media r/LocalLLaMA · hace 15 d

Benchmark para LLMs pequeños en búsqueda de archivos con lenguaje natural

Un benchmark evalúa LLMs pequeños (0.3B–3B parámetros) en la conversión de consultas en lenguaje natural a JSON estructurado, centrándose en el tipo de archivo, contexto temporal, especificidad y consultas combinadas. Los resultados muestran que los modelos con 0.8B–1.5B parámetros superan a los de menos de 0.5B, con el proyecto teniendo como objetivo ampliar el conjunto de pruebas y explorar el ajuste fino para mejorar el rendimiento.

media r/LocalLLaMA · hace 15 d

Hilo de construcción comunitaria de modelos: el entrenamiento colaborativo es viable

Un modelo comunitario puede construirse mediante computación crowdsourced utilizando un enfoque 'Branch-Train-Stitch'. Los participantes entrenan un modelo prototipo en su hardware, envían submodelos de dominio estrecho y los organizadores los ensamblan en un gran modelo Mixture-of-Experts (MoE), con decisiones clave que incluyen el tamaño del prototipo, las definiciones de alcance y los protocolos de entrenamiento.

media r/LocalLLaMA · hace 15 d

GLM-5.2 supera el 80% en Terminal-Bench

GLM-5.2 es el primer modelo de pesos abiertos que alcanza una precisión del 80% en Terminal-Bench y supera a todos los demás modelos disponibles de código abierto. También supera a Gemini, posicionándolo como un modelo de vanguardia a un costo significativamente menor.

github Goose (Block) · hace 15 d

Rama de lanzamiento creada para v1.38.0

Se ha creado una rama de lanzamiento para la versión 1.38.0. Esto marca el inicio del proceso de lanzamiento de la actualización.