GLM-5.2 ya disponible en HuggingChat
El modelo GLM-5.2 ya es accesible en HuggingChat. Los usuarios pueden acceder a él a través del enlace de HuggingFace proporcionado, lo que permite la interacción directa con el modelo a través de la plataforma.
El modelo GLM-5.2 ya es accesible en HuggingChat. Los usuarios pueden acceder a él a través del enlace de HuggingFace proporcionado, lo que permite la interacción directa con el modelo a través de la plataforma.
Glimmer 1 es un modelo de lenguaje de 10.000 parámetros entrenado con 500K tokens de FineWeb-Edu. Cuenta con una ventana de contexto de 512 tokens, una arquitectura Llama estándar con 16 dimensiones ocultas, 2 capas, 4 cabezales de atención y 1 cabezal KV utilizando GQA, y está disponible en Hugging Face.
Este hilo de discusión de Hugging Face aborda los métodos y consideraciones para probar Modelos de Lenguaje Grande y garantizar que sean adecuados para aplicaciones del mundo real.
Un usuario en el foro de Hugging Face informa que su artículo de arXiv, "Agent-as-a-Router: Agentic Model Routing for Coding Tasks", fue indexado y reclamado con éxito, pero nunca apareció en la página principal de Daily Papers. A pesar de recibir votos positivos de la comunidad y vincular un conjunto de datos correspondiente, el artículo no ha sido destacado después de varios días.
Mistral ha lanzado una nueva familia de modelos de lenguaje de peso abierto en julio. Los modelos están diseñados para ser accesibles y utilizables por desarrolladores e investigadores de todo el mundo, promoviendo la transparencia y la innovación en IA.
zai-org ha lanzado GLM-5.2, un nuevo modelo de lenguaje grande. El modelo está disponible en Hugging Face y forma parte de las discusiones de la comunidad LocalLLaMA.
Un modelo GGUF llamado command-a-plus-05-2026 está disponible en Hugging Face. Se anima a los usuarios a probarlo con la última versión de llama.cpp y compartir las métricas de rendimiento y comentarios.
Un usuario pregunta si alguien ha logrado ejecutar Qwen 3.6 27b UD Q8 en múltiples GPUs, señalando problemas con llamacpp y vllm. El modelo se bloquea o se congela durante las solicitudes de múltiples turnos, con llamacpp mostrando errores de CUDA y vllm fallando a mitad del turno, a pesar de funcionar bien con la cuantización Q5.
Georgi Gerganov confirma que Qwen3.6-27B es altamente capaz para tareas de programación, señalando su uso diario en hardware local como M2 Ultra y RTX 5090. Describe el uso de un agente pi mínimo con un prompt de sistema breve para alinearlo con su flujo de trabajo, destacando su utilidad para mantener proyectos de código abierto.
El mejor modelo para ejecutar en un MacBook Pro M5 Max con 128 GB de RAM y 8 TB es LocalLLaMA, optimizado para inferencia local con mínima sobrecarga de memoria. Las configuraciones deben priorizar modelos más pequeños como LLaMA-3-8B o LLaMA-3-7B con cuantización para garantizar un rendimiento eficiente dentro de la memoria disponible.
El artículo defiende los modelos de lenguaje de peso abierto, haciendo hincapié en la transparencia y la accesibilidad. Expresa escepticismo hacia las empresas líderes (Frontier Labs), sugiriendo preocupaciones sobre su desarrollo de modelos y apertura.
Una publicación de Reddit pregunta si DiffusionGemma se desempeña excepcionalmente bien en un agente PI. La publicación incluye un enlace a una imagen y hace referencia a la sección de comentarios para más discusión.
Según se informa, Anthropic está permitiendo que wrappers de terceros utilicen Claude a través del comando "claude -p", revirtiendo una restricción previa. Sin embargo, la política podría incluir aún un control de acceso futuro, aunque el cambio difiere de las prohibiciones anteriores de herramientas como OpenClaw y Hermes.
VibeThinker-3B, escalado a partir de un modelo de 1.5B, alcanza un rendimiento de nivel vanguardia en tareas de matemáticas y programación. Obtiene 94.3 en AIME'26, 80.2 en LiveCodeBench v6, 76.4 en IMO-AnswerBench y 93.4 en IFEval, con un 96.1% de éxito en problemas de LeetCode en el primer intento.
El SDK de Python del Protocolo de Contexto de Modelo (MCP) ha lanzado su tercera versión alfa, v2.0.0a3, introduciendo cambios significativos en el protocolo y la arquitectura mientras mantiene la compatibilidad con versiones anteriores para los usuarios estables de la serie 1.x.
El proyecto llama.cpp ha liberado la versión b9811, que incluye una corrección para un error del compilador que afecta a la ruta conv2d coopmat2 en Vulkan. Esta solución alternativa también se aplica a la implementación CONV_3D basándose en las sugerencias del ingeniero de NVIDIA Jeff Bolz.
El podcast analiza la evolución de las recetas de post-entrenamiento en modelos de lenguaje grandes, desde InstructGPT hasta los modelos frontier de 2026. Destaca la Distilación On-Policy Multi-Maestro (MOPD) como el patrón dominante, donde los modelos especialistas por dominio se entrenan y luego se destilan en un modelo estudiante general mediante distilación on-policy, escalando a más de 10 maestros en modelos como DeepSeek V4 y Nemotron 3 Ultra.
DiffusionGemma utiliza atención bidireccional para permitir la autocorrección durante la generación de tokens, lo que le permite revisar los tokens anteriores en un bloque de 256 tokens. Esta capacidad le otorga una ventaja estructural al generar llamadas a herramientas válidas, ya que puede corregir salidas malformadas que los modelos autoregresivos no pueden corregir una vez comprometidos.
Una prueba que compara las versiones cuantizadas Q8 e IQ3 XXS turbo4 de Qwen3.6 27B muestra que Q8 destaca en seguridad de API y sanitización de entradas, mientras que IQ3 XXS turbo4 tiene un mejor desempeño en gestión de hilos y diseño de código modular. El modelo recomienda combinar ambos enfoques: usar Q8 para la protección inicial al inicio e IQ3 XXS para escrituras atómicas y ciclo de vida de los hilos, formando una base combinada de Fase 1.
Un usuario busca orientación sobre el aprendizaje de contexto e ingeniería de harness para construir aplicaciones de IA local-first con casos de uso especializados. Expresa interés en evitar modelos de IA de propósito general como Hermes o OpenClaw y pregunta dónde encontrar recursos, dada su experiencia con servidores MCP y la llamada de herramientas.