Todos los artículos — korshunov.ai

Todos los artículos Página 2 / 130

Wmf: una nueva técnica experimental

El contenido del artículo ha sido eliminado por el autor, sin dejar información sustantiva sobre la técnica.

LLM local en MacBook M5 Pro - ¡Totalmente nuevo en esto!

Un no programador comparte su experiencia configurando una infraestructura de Modelo de Lenguaje Grande local en un MacBook M5 Max con 128GB de memoria unificada. El usuario detalla su pila de software, selecciones de modelos y objetivos para aprender IA mientras establece un sistema estable y accesible remotamente.

media Together AI Blog · hace 10 h

Together AI en ICML 2026: investigación de vanguardia en todo el stack

Together AI presenta nueve artículos en ICML 2026 que cubren todo el stack del desarrollo de su plataforma.

lab Hugging Face Blog · hace 11 h

Hugging Face y Cerebras presentan Gemma 4 para IA de voz en tiempo real

Hugging Face y Cerebras han integrado el modelo Gemma 4 de Google en sus plataformas para habilitar aplicaciones de inteligencia artificial de voz en tiempo real. Esta colaboración permite a los desarrolladores aprovechar las capacidades multimodales de Gemma 4 para tareas de procesamiento de audio con baja latencia.

media Together AI Blog · hace 11 h

Anunciamos nuestra ronda C de $800M para acelerar el cambio hacia la IA de código abierto

La empresa ha recaudado 800 millones de dólares en una ronda de financiación Serie C destinada a acelerar la transición hacia la inteligencia artificial de código abierto.

lab Hugging Face Blog · hace 11 h

ScarfBench: Evaluación de Agentes IA para la Migración a Marcos de Enterprise Java

Este artículo presenta ScarfBench, un benchmark diseñado para evaluar el rendimiento de agentes IA en la migración de aplicaciones empresariales Java entre diferentes marcos. El estudio destaca la complejidad de la migración de marcos y propone un método de evaluación estandarizado para evaluar las capacidades de los agentes en este dominio.

github CrewAI · hace 13 h

Notas de la versión 1.15.2a1 de crewAI

La versión 1.15.2a1 de crewAI introduce varias características nuevas, correcciones de errores y actualizaciones de documentación para el marco de orquestación de agentes.

github llama.cpp · hace 16 h

La versión b9859 de llama.cpp añade soporte para núcleos precompilados de OpenCL

La versión b9859 de llama.cpp introduce la capacidad de cargar núcleos binarios precompilados desde bibliotecas para OpenCL, orientados específicamente a GPUs Adreno. Esta actualización también proporciona binarios para macOS, Linux, Windows, Android y openEuler en CPU, GPU y varios backends de aceleración.

lab xAI News · hace 17 h

xAI lanza un constructor de agentes de voz sin código para Grok Voice

xAI ha anunciado la versión beta de Voice Agent Builder, una plataforma sin código diseñada para configurar agentes de voz de nivel de producción en Grok Voice en menos de dos minutos. Esta herramienta permite a operadores y desarrolladores desplegar agentes de voz de alto volumen sin construir desde cero la infraestructura de telefonía o IA subyacente.

github llama.cpp · hace 18 h

Lanzamiento de llama.cpp b9858 con corrección de ruta de modelo HF

El proyecto llama.cpp ha lanzado la versión b9858, que incluye un cambio para usar el split principal de Hugging Face como ruta del modelo. Esta actualización resuelve el problema #25181 respecto a las rutas de carga de modelos.

github llama.cpp · hace 20 h

Lanzamiento b9857 de llama.cpp: reestructuración de Flash Attention y nuevos binarios

El lanzamiento b9857 de llama.cpp introduce una reestructuración integral de la implementación de Hexagon Flash Attention, centrada en optimizaciones y mejoras de precisión. Esta actualización incluye cambios significativos en los módulos hex-mm y hex-fa, como la fusión de tareas de cuantización en hilos principales de matmul, la integración con operaciones ADD y la optimización del procesamiento de máscaras.

github llama.cpp · hace 1 d

la versión b9855 de llama.cpp añade optimización AVX2 nvfp4 y nuevos binarios

El proyecto llama.cpp ha lanzado la versión b9855, que introduce una optimización AVX2 para el producto punto nvfp4 utilizando una Tabla de Búsqueda (LUT) UE4M3 dentro del backend ggml-cpu.

github llama.cpp · hace 1 d

Lanzamiento de llama.cpp b9856 con restrict de CUDA + PDL para FA

El proyecto llama.cpp ha lanzado la versión b9856, introduciendo el uso consistente de la palabra clave `restrict` y PDL para Flash Attention en CUDA. Esta actualización viene acompañada de binarios precompilados para macOS, Linux, Android, Windows y openEuler a través de varios backends de hardware.

github llama.cpp · hace 1 d

Eliminar el respaldo de navegación de PWA para evitar el almacenamiento en caché de solicitudes de puntos finales de la API

La actualización elimina el mecanismo de respaldo de navegación de la Aplicación Web Progresiva (PWA). Este cambio se implementa específicamente para evitar el almacenamiento en caché no intencionado de solicitudes de puntos finales de la API.

github llama.cpp · hace 1 d

la versión b9852 de llama.cpp añade soporte para q1_0 con OpenCL

El proyecto llama.cpp ha lanzado la versión b9852, introduciendo soporte inicial de OpenCL para el formato de cuantización q1_0. Esta actualización incluye capacidades generales de q1_0 e implementaciones específicas de GEMM/GEMV para Adreno en dispositivos con OpenCL.

lab Anthropic News · hace 1 d

Anthropic vuelve a desplegar Fable 5 tras las normas de exportación de EE.UU.

Anthropic está restaurando el acceso global a sus modelos Claude Fable 5 y Mythos 5 después de que el gobierno de EE. UU. levantara las restricciones de exportación que habían suspendido la disponibilidad para todos los usuarios. Fable 5 estará disponible a nivel mundial a partir del 1 de julio en la Plataforma Claude, con límites de uso aplicables hasta el 7 de julio antes de cambiar al acceso basado en créditos.

github llama.cpp · hace 1 d

la versión b9851 de llama.cpp corrige la truncación entera de CUDA y proporciona binarios

El proyecto llama.cpp ha lanzado la versión b9851, que incluye una corrección para CUDA que previene errores de truncamiento entero y desbordamiento en el kernel flash_attn_mask_to_KV_max. Esta actualización aborda problemas relacionados con los pasos de la máscara KQ dentro del kernel especificado.

github llama.cpp · hace 1 d

Liberación de llama.cpp b9850: correcciones para Qwen3 y nuevos binarios

La liberación de llama.cpp b9850 introduce actualizaciones específicas de soporte para modelos, incluyendo el registro del tensor t_layer_inp para Qwen3Next, la corrección de la asignación de entrada en el bucle de procesamiento de capas y la resolución de problemas con DFLASH para qwen-coder-next. También añade un tensor para la normalización de atención en el modelo Qwen3.

github MCP (GitHub org) · hace 1 d

MCP Python SDK v2.0.0b1 lanzado con soporte completo para la especificación 2026

El SDK de Python del Protocolo de Contexto del Modelo (MCP) ha lanzado su primera versión beta, v2.0.0b1, que introduce soporte completo para la especificación MCP 2026-07-28. Esta versión preliminar es solo mediante opt-in, asegurando que las instalaciones estándar sigan resolviéndose hacia la línea estable 1.x.

lab Microsoft Research Blog · hace 2 d

SkillOpt: Habilidades de agente como parámetros entrenables

Microsoft Research presenta SkillOpt, un método que trata los archivos de habilidades del agente como parámetros entrenables fuera de un modelo objetivo congelado, transformando la edición manual de habilidades en un proceso de optimización controlada. Este enfoque mejora la fiabilidad y consistencia del agente sin actualizar los pesos del modelo subyacente.