Wmf: una nueva técnica experimental
El contenido del artículo ha sido eliminado por el autor, sin dejar información sustantiva sobre la técnica.
El contenido del artículo ha sido eliminado por el autor, sin dejar información sustantiva sobre la técnica.
Un no programador comparte su experiencia configurando una infraestructura de Modelo de Lenguaje Grande local en un MacBook M5 Max con 128GB de memoria unificada. El usuario detalla su pila de software, selecciones de modelos y objetivos para aprender IA mientras establece un sistema estable y accesible remotamente.
Together AI presenta nueve artículos en ICML 2026 que cubren todo el stack del desarrollo de su plataforma.
Hugging Face y Cerebras han integrado el modelo Gemma 4 de Google en sus plataformas para habilitar aplicaciones de inteligencia artificial de voz en tiempo real. Esta colaboración permite a los desarrolladores aprovechar las capacidades multimodales de Gemma 4 para tareas de procesamiento de audio con baja latencia.
La empresa ha recaudado 800 millones de dólares en una ronda de financiación Serie C destinada a acelerar la transición hacia la inteligencia artificial de código abierto.
Este artículo presenta ScarfBench, un benchmark diseñado para evaluar el rendimiento de agentes IA en la migración de aplicaciones empresariales Java entre diferentes marcos. El estudio destaca la complejidad de la migración de marcos y propone un método de evaluación estandarizado para evaluar las capacidades de los agentes en este dominio.
La versión 1.15.2a1 de crewAI introduce varias características nuevas, correcciones de errores y actualizaciones de documentación para el marco de orquestación de agentes.
La versión b9859 de llama.cpp introduce la capacidad de cargar núcleos binarios precompilados desde bibliotecas para OpenCL, orientados específicamente a GPUs Adreno. Esta actualización también proporciona binarios para macOS, Linux, Windows, Android y openEuler en CPU, GPU y varios backends de aceleración.
xAI ha anunciado la versión beta de Voice Agent Builder, una plataforma sin código diseñada para configurar agentes de voz de nivel de producción en Grok Voice en menos de dos minutos. Esta herramienta permite a operadores y desarrolladores desplegar agentes de voz de alto volumen sin construir desde cero la infraestructura de telefonía o IA subyacente.
El proyecto llama.cpp ha lanzado la versión b9858, que incluye un cambio para usar el split principal de Hugging Face como ruta del modelo. Esta actualización resuelve el problema #25181 respecto a las rutas de carga de modelos.
El lanzamiento b9857 de llama.cpp introduce una reestructuración integral de la implementación de Hexagon Flash Attention, centrada en optimizaciones y mejoras de precisión. Esta actualización incluye cambios significativos en los módulos hex-mm y hex-fa, como la fusión de tareas de cuantización en hilos principales de matmul, la integración con operaciones ADD y la optimización del procesamiento de máscaras.
El proyecto llama.cpp ha lanzado la versión b9855, que introduce una optimización AVX2 para el producto punto nvfp4 utilizando una Tabla de Búsqueda (LUT) UE4M3 dentro del backend ggml-cpu.
El proyecto llama.cpp ha lanzado la versión b9856, introduciendo el uso consistente de la palabra clave `restrict` y PDL para Flash Attention en CUDA. Esta actualización viene acompañada de binarios precompilados para macOS, Linux, Android, Windows y openEuler a través de varios backends de hardware.
La actualización elimina el mecanismo de respaldo de navegación de la Aplicación Web Progresiva (PWA). Este cambio se implementa específicamente para evitar el almacenamiento en caché no intencionado de solicitudes de puntos finales de la API.
El proyecto llama.cpp ha lanzado la versión b9852, introduciendo soporte inicial de OpenCL para el formato de cuantización q1_0. Esta actualización incluye capacidades generales de q1_0 e implementaciones específicas de GEMM/GEMV para Adreno en dispositivos con OpenCL.
Anthropic está restaurando el acceso global a sus modelos Claude Fable 5 y Mythos 5 después de que el gobierno de EE. UU. levantara las restricciones de exportación que habían suspendido la disponibilidad para todos los usuarios. Fable 5 estará disponible a nivel mundial a partir del 1 de julio en la Plataforma Claude, con límites de uso aplicables hasta el 7 de julio antes de cambiar al acceso basado en créditos.
El proyecto llama.cpp ha lanzado la versión b9851, que incluye una corrección para CUDA que previene errores de truncamiento entero y desbordamiento en el kernel flash_attn_mask_to_KV_max. Esta actualización aborda problemas relacionados con los pasos de la máscara KQ dentro del kernel especificado.
La liberación de llama.cpp b9850 introduce actualizaciones específicas de soporte para modelos, incluyendo el registro del tensor t_layer_inp para Qwen3Next, la corrección de la asignación de entrada en el bucle de procesamiento de capas y la resolución de problemas con DFLASH para qwen-coder-next. También añade un tensor para la normalización de atención en el modelo Qwen3.
El SDK de Python del Protocolo de Contexto del Modelo (MCP) ha lanzado su primera versión beta, v2.0.0b1, que introduce soporte completo para la especificación MCP 2026-07-28. Esta versión preliminar es solo mediante opt-in, asegurando que las instalaciones estándar sigan resolviéndose hacia la línea estable 1.x.
Microsoft Research presenta SkillOpt, un método que trata los archivos de habilidades del agente como parámetros entrenables fuera de un modelo objetivo congelado, transformando la edición manual de habilidades en un proceso de optimización controlada. Este enfoque mejora la fiabilidad y consistencia del agente sin actualizar los pesos del modelo subyacente.