Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 129

GLM-5.2 Destaca con un Avance y el Progreso de los Modelos Abiertos

El GLM-5.2 de Zhipu se consolidó como el modelo de peso abierto líder, elogiado por su rendimiento cercano a la vanguardia en el uso diario, con mejoras en tareas de codificación y reducción del costo de inferencia de 1M de tokens mediante IndexShare. Superó a otros modelos abiertos en benchmarks de trabajo de conocimiento agéntico, alcanzando 1266 Elo en la prueba AA-Briefcase de Artificial Analysis, aunque solo el 3% de las tareas fueron completamente satisfechas por los mejores modelos, lo que indica desafíos persistentes en el rendimiento de agentes a largo plazo en el mundo real.

lab NVIDIA Technical Blog · hace 10 d

Construye tu propio modelo de base de transacciones para inteligencia financiera

Los datos de transiciones capturan patrones ricos del comportamiento humano y son un activo clave para las empresas. Los casos de uso actuales a menudo dependen de características frágiles e ingenierizadas manualmente que no logran capturar el comportamiento secuencial del cliente en los historiales de transacciones.

lab Hugging Face Blog · hace 10 d

¿Puedes superar a LoRA en el ajuste fino?

Un nuevo estudio explora alternativas a LoRA, la técnica de ajuste fino más popular, evaluando si otros métodos pueden lograr un mejor rendimiento con menor costo computacional. La investigación encuentra que, aunque algunos enfoques muestran potencial, ninguno supera consistentemente a LoRA en diversas tareas y conjuntos de datos.

lab Google DeepMind Blog · hace 10 d

Hoja de ruta de control de IA para la seguridad de sistemas internos

Se ha presentado una Hoja de ruta de control de IA para asegurar los sistemas internos mediante la integración de salvaguardas tradicionales con capacidades de monitoreo en tiempo real.

lab OpenAI News · hace 10 d

GPT-5.5 Instant mejora las respuestas de salud de ChatGPT

GPT-5.5 Instant mejora las respuestas de salud y bienestar de ChatGPT mediante un razonamiento más sólido, una mejor gestión del contexto, una comunicación más clara y evaluaciones informadas por médicos.

media AI News (smol.ai) · hace 10 d

GLM-5.2 surge como modelo de código líder de pesos abiertos

GLM-5.2 es ampliamente considerado el primer modelo de código de pesos abiertos que rivaliza con modelos de vanguardia como Opus 4.8 y GPT-5.5 en capacidad. Los profesionales destacan su fuerte uso de herramientas, planificación a largo plazo y comportamiento autónomo de subagentes, con consenso de que ahora opera de manera creíble en el rango de SWE de vanguardia. La aparición del modelo subraya el creciente valor de los pesos abiertos para la competencia entre proveedores, despliegue on-prem y reducción del bloqueo de proveedor.

lab Hugging Face Blog · hace 10 d

MosaicLeaks: ¿Puede tu agente de investigación guardar un secreto?

MosaicLeaks ha publicado un informe que cuestiona si los agentes de investigación pueden mantener la confidencialidad de manera fiable. El informe destaca preocupaciones sobre la exposición de datos y la confianza en las herramientas de investigación impulsadas por IA. Pide medidas de privacidad más sólidas y transparencia en cómo estos agentes manejan información sensible.

lab NVIDIA Technical Blog · hace 10 d

NVIDIA lanza XR AI para gafas de realidad aumentada y dispositivos portátiles

NVIDIA presenta XR AI para cerrar la brecha de infraestructura para desarrolladores que crean experiencias de IA en gafas de RA y dispositivos de RA. La solución permite la integración de flujos de sensores en vivo, modelos de IA multimodales y datos empresariales dentro de entornos de ejecución específicos del dispositivo, agilizando el desarrollo de agentes de IA para dispositivos portátiles.

lab Google DeepMind Blog · hace 10 d

El gobierno del Reino Unido y Google DeepMind lanzan un prototipo de planificación de viviendas impulsado por IA

El gobierno del Reino Unido se ha asociado con Google DeepMind para desarrollar un prototipo impulsado por inteligencia artificial diseñado para acelerar las decisiones sobre la planificación de viviendas. La iniciativa tiene como objetivo agilizar el proceso de construcción de casas aprovechando la inteligencia artificial para mejorar la eficiencia en la toma de decisiones.

lab OpenAI News · hace 10 d

OpenAI lanza controles de gasto y análisis de uso para ChatGPT Enterprise

OpenAI ha introducido nuevos controles de gasto y análisis de uso para ChatGPT Enterprise. Estas características ayudan a las empresas a gestionar los costos y tomar decisiones informadas a medida que escalan el uso de IA.

media r/LocalLLaMA · hace 10 d

2× Radeon R9700 con Qwen 3.6 27B Q8 MTP en llama.cpp

Un usuario informa ejecutando el modelo Qwen 3.6 27B MTP en dos GPUs Radeon R9700 a través de llama.cpp con ROCm 7.2.1. Las pruebas muestran velocidades de decodificación estables (40–67 t/s) y rendimiento de prefill (hasta 1,500 t/s para prompts menores de 10k tokens), con tasas de aceptación de borrador MTP entre 0.33 y 0.61.

media r/LocalLLaMA · hace 10 d

Publicación sobre Tokenomics en Reddit de LocalLLaMA

Una publicación titulada 'Tokenomics' fue enviada por /u/HOLUPREDICTIONS en el subreddit de LocalLLaMA. Incluye un diagrama visual de la distribución de tokens y modelo económico, con un enlace a la imagen y sección de comentarios.

media r/LocalLLaMA · hace 10 d

¿Puedo obtener resultados cercanos a las capacidades de Claude/Codex de forma local?

Un usuario con un sistema de 32GB pregunta si los modelos de peso abierto pueden igualar el contexto de 1M y el rendimiento de codificación de Opus 4.8 en hardware local. Señala que los cuellos de botella actuales son la longitud del contexto y las preocupaciones de privacidad, y cuestiona si modelos de gama alta como GLM 5.2 o Qwen3.7 son viables dentro de un presupuesto de $3.5K, enfatizando que ejecutar modelos de 70-80B ofrece ganancias marginales en el mundo real sobre modelos de 27B con contexto de 256K.

media r/LocalLLaMA · hace 10 d

Rendimiento de ROCm vs Vulkan vs vLLM en dos R9700

Las pruebas muestran que vLLM alcanza velocidades de generación significativamente mayores en los modelos Qwen3.6, con 35B-A3B alcanzando 156 t/s usando ROCm y AITER. ROCm supera a Vulkan tanto en los modelos de 35B como de 27B, con velocidades de ~106 t/s y ~44 t/s respectivamente, mientras que Vulkan alcanza ~87 t/s y ~41 t/s.

github llama.cpp · hace 10 d

llama.cpp versión b9747 añade seguimiento en tiempo real de la carga del modelo y nuevos binarios para plataformas

llama.cpp versión b9747 introduce el seguimiento en tiempo real del progreso de carga del modelo a través de puntos finales SSE. El lanzamiento incluye binarios para macOS, Linux, Android, Windows y openEuler, compatibles con varias arquitecturas y tecnologías de aceleración como Vulkan, CUDA, OpenVINO y SYCL.

media r/LocalLLaMA · hace 10 d

Aislamiento de la ejecución de código para agentes de IA

Una discusión sobre métodos efectivos de aislamiento para agentes de IA que ejecutan código arbitrario, evaluando contenedores Docker, microVMs, WASM y ejecución a nivel de host. El artículo destaca los requisitos de aislamiento, inicio rápido, control de acceso de red y soporte de sistema de archivos persistente entre ejecuciones, mientras solicita implementaciones compartidas y compensaciones aceptadas.

github llama.cpp · hace 10 d

llama.cpp versión b9745 añade soporte para MTP3 y binarios multiplataforma

La versión b9745 de llama.cpp introduce soporte para MTP3 flash Step3.5/3.7, incluyendo nuevas APIs para los indicadores de desplazamiento de capa y nextn. El lanzamiento proporciona binarios precompilados para macOS, Linux, Android, Windows y openEuler, con opciones de aceleración para CPU, Vulkan, CUDA, OpenVINO y SYCL.

media r/LocalLLaMA · hace 10 d

Ejecutando MiMo-2.5 en dos Halo Strix

Un usuario informa que ejecuta MiMo-2.5 en dos máquinas de 128GB con procesadores Intel 8060, utilizando contenedores Proxmox y USB4Net para conectividad. La configuración logra un rendimiento de 356pp y 15tg a 1% o con una longitud de contexto de 10k, aunque el usuario cuestiona si esto es viable o de nivel élite. También señala dificultades al compilar vLLM y sglang para hardware de consumo, afirmando que vLLM es poco fiable y sglang está diseñado para centros de datos, no para sistemas personales.

media r/LocalLLaMA · hace 10 d

8-16 MI50s Minimax M3 @19 tps TG (pico)

Un LLM local ejecutado en 8-16 GPUs MI50 alcanza hasta 19 tokens por segundo (TPS) de rendimiento pico para el modelo Minimax M3. El rendimiento está limitado por las salidas de razonamiento largo y la calidad del código, con decodificación especulativa mostrando una tasa de aceptación del 50% y alta latencia, lo que indica desafíos de usabilidad para tareas de codificación agéntica.

media r/LocalLLaMA · hace 10 d

Bucle infinito de pensamiento en OpenCode con modelo local

Un usuario informa que OpenCode entra en un 'bucle de pensamiento' infinito al usar modelos locales, auto-generando respuestas continuamente sin terminar. El problema ocurre en múltiples modelos y configuraciones, incluyendo Qwen y GPT-OSS, y persiste tanto en entornos llama.cpp como LMStudio, aunque la ventana de chat en LMStudio funciona normalmente.