Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 129

El laboratorio de IA Lin Junyang cierra ronda de valoración de 2000 millones de dólares

El laboratorio de IA de Lin Junyang ha cerrado una ronda de financiación que valora a la empresa en 2000 millones de dólares. El laboratorio es conocido por su trabajo en la serie de modelos de lenguaje grande Qwen, y la ronda de financiación señala una confianza continua en las iniciativas de IA de código abierto.

github llama.cpp · hace 13 d

ggml-cpu: Habilitar condicionalmente el backend POWER11 según el soporte del compilador

El proyecto ggml-cpu ahora habilita condicionalmente el backend POWER11 en ggml según el soporte del compilador para -mcpu=power11. Esto previene fallos de compilación en las toolchains actuales de GCC/Clang mientras mantiene la compatibilidad hacia adelante. Las actualizaciones a CMakeLists.txt apoyan este cambio, y se utiliza -mcpu=power10 tanto para las arquitecturas P10 como P11.

github llama.cpp · hace 13 d

llama.cpp Release b9692 Añade Nuevos Binarios y Correcciones

llama.cpp versión b9692 introduce nuevos binarios para macOS, Linux, Android, Windows y openEuler en múltiples arquitecturas. La liberación incluye actualizaciones para soportar Vulkan, ROCm, OpenVINO, SYCL e HIP, con correcciones para eliminar el uso de la dimensión de lote en llava_uhd.

media r/LocalLLaMA · hace 13 d

Lemonade v10.8 lanza gestión automática de memoria, descarga a la nube y soporte para herramientas MCP

Lemonade v10.8 introduce gestión dinámica de VRAM que descarga automáticamente los modelos inactivos y reduce el tamaño del KV-cache para recuperar memoria de GPU. Añade soporte de descarga a la nube para proveedores compatibles con OpenAI, permitiendo el servicio de modelos local-first con enrutamiento opcional a la nube. Una nueva puerta de enlace MCP expone los modelos locales como herramientas mediante POST /mcp, permitiendo que los modelos locales se utilicen como herramientas en aplicaciones compatibles con MCP.

media r/LocalLLaMA · hace 13 d

Video de lanzamiento de GLM 5.2 creado con GLM 5.2

Se creó y compartió en línea un video que muestra las capacidades de GLM 5.2. Los usuarios señalan que funciona bien en tareas de desarrollo web, aunque aún está por debajo de los mejores modelos como Gemini 3.1 Pro en generación de video. Las salidas largas suelen agotar el tiempo de espera en OpenRouter, lo que obliga a los usuarios a cambiar de proveedor para recibir respuestas completas.

github llama.cpp · hace 13 d

El backend Metal añade soporte para f16 y bf16 al operador de concatenación

El backend Metal en llama.cpp se ha ampliado para admitir los tipos de tensor f16 y bf16 para el operador de concatenación, además del soporte existente para f32 e i32. Esta actualización incluye plantillas de kernel especializadas, obtenedores de canalización actualizados y un despacho de kernel basado en tipos mejorado, con la asistencia de pi:llama.cpp/Qwen3.6-27B.

github llama.cpp · hace 13 d

llama.cpp lanza b9690 con operador rope_back y binarios multiplataforma

La versión b9690 de llama.cpp introduce un operador rope_back implementado reutilizando kernels rope existentes con una constante de función para alternar la rotación hacia adelante/hacia atrás. El lanzamiento incluye binarios preconstruidos para macOS, Linux, Android, Windows y openEuler en múltiples arquitecturas y opciones de aceleración por hardware, incluyendo Vulkan, CUDA, ROCm, OpenVINO y SYCL.

media r/LocalLLaMA · hace 13 d

Necesitamos urgentemente un modelo de 80-160B para dispositivos de memoria unificada

Los usuarios con memoria unificada de 80-160GB o RAM de alta anchura de banda enfrentan limitaciones debido a la falta de modelos adaptados a su hardware. Los modelos existentes son demasiado pequeños para el rendimiento o demasiado grandes para las restricciones de memoria, lo que impulsa una llamada por modelos dispersos de escala 100B como Qwen 3.5 122B o Gemma 4 122B para servir mejor a usuarios con AMD AI Pro, RTX 3090/5090 o dispositivos Apple.

media r/LocalLLaMA · hace 13 d

EE.UU. evita incluir a DeepSeek de China en la lista negra

Fuentes indican que EE.UU. ha retrasado la inclusión de la empresa de IA china DeepSeek en la lista negra. Más de 100 empresas han sido consideradas riesgos de seguridad en esta decisión.

github llama.cpp · hace 13 d

llama.cpp Release b9687 Añade Nuevos Binarios y Correcciones

llama.cpp versión b9687 introduce nuevos binarios para macOS, Linux, Android, Windows y openEuler en múltiples arquitecturas. El lanzamiento incluye soporte para Vulkan, ROCm, OpenVINO, SYCL e HIP, con actualizaciones para mejorar la validación de dispositivos y el rendimiento en el hardware disponible.

github llama.cpp · hace 13 d

llama.cpp lanza la versión b9688 con nuevas APIs y binarios multiplataforma

llama.cpp lanza la versión b9688, añadiendo APIs de gestión de modelos y actualizaciones en tiempo real mediante SSE. El lanzamiento incluye binarios precompilados para macOS, Linux, Android, Windows y openEuler, compatibles con diversas arquitecturas y marcos de aceleración como Vulkan, CUDA, OpenVINO y SYCL.

media r/LocalLLaMA · hace 13 d

Post-entrené un modelo para lanzar un dado de manera confiable

Un usuario entrenó un modelo de lenguaje para lanzar un dado, asegurando que cada número aparezca aproximadamente una vez cada seis lanzamientos. La publicación destaca cómo los LLMs convencionales tienden a dar por defecto '4' cuando se les pide lanzar un dado, ilustrando un problema más amplio en el aprendizaje por refuerzo: los modelos a menudo fallan al explorar de manera efectiva y en su lugar siguen patrones conocidos.

media r/LocalLLaMA · hace 13 d

AVISO: se está subiendo unsloth/GLM-5.2-GGUF

Un usuario de Reddit notó que el repositorio unsloth/GLM-5.2-GGUF fue creado hace apenas media hora y actualmente solo contiene un README. Sospechan que se están subiendo archivos de modelos GGUF y han compartido un enlace al repositorio.

media Latent Space · hace 13 d

Radical AI logra una aceleración de 10x en el descubrimiento de materiales

Radical AI ha acelerado el descubrimiento de materiales al producir y caracterizar 1.200 aleaciones en seis meses, casi 10 veces más rápido que el objetivo de DARPA/GE MACH de 500 aleaciones en un año. Sus laboratorios autónomos utilizan científicos de IA para generar y probar hipótesis en sistemas de bucle cerrado, lo que ha llevado a 300 nuevos materiales, con 10 exhibiendo propiedades novedosas y de vanguardia que ahora se están desarrollando para uso comercial.

media r/LocalLLaMA · hace 13 d

consejos de optimización de memoria GPU para llama.cpp

Los usuarios de llama.cpp pueden liberar memoria GPU desactivando la descarga de mmproj, utilizando tipos de caché KV reducidos y ajustando spec-draft-n-max. Parámetros como --ctx-checkpoints y --fit-target tienen un impacto mínimo, mientras que --parallel ayuda en configuraciones multiusuario pero no para usuarios individuales.

media r/LocalLLaMA · hace 13 d

Configuración de implementación Docker SGLang GLM-5.2-FP8 HGX-H200

Un usuario comparte una configuración de Docker para ejecutar GLM-5.2-FP8 en hardware HGX-H200 utilizando SGLang. La configuración logra una longitud de contexto de 262k y 70 tokens por segundo con paralelismo tensorial de 8, usando una fracción de memoria de 0.83. El usuario señala que las recetas oficiales de vLLM no funcionan en H200 debido a limitaciones de cuantización FP8 del caché KV en la arquitectura DSV3.

media r/LocalLLaMA · hace 13 d

Construimos un kit de interfaz de usuario de código abierto para RAG/documentos y agentes

Extend AI ha lanzado un kit de interfaz de usuario de código abierto con 15 componentes para visores de PDF, DOCX y XLSX, que incluyen citas de cajas delimitadoras, carga de archivos, firma electrónica y sistemas de archivos. El conjunto de herramientas, con licencia MIT y totalmente personalizable, fue inicialmente interno pero ahora es de código abierto debido a la demanda de los clientes, y se mantiene para escalabilidad y manejo de casos extremos en el procesamiento de documentos de alto volumen.

github llama.cpp · hace 13 d

LLaMA.cpp Release b9685 Adds SYCL Dev2Dev Memcpy and Multiple Platform Binaries

La versión b9685 de LLaMA.cpp introduce la funcionalidad memcpy dev2dev basada en SYCL, moviendo GGML_SYCL_DEV2DEV_MEMCPY a una tabla en tiempo de ejecución y mejorando la detección de comunicación entre pares. El lanzamiento incluye binarios precompilados para macOS, Linux, Android, Windows y openEuler en múltiples arquitecturas y APIs incluyendo Vulkan, ROCm, OpenVINO y SYCL (FP32/FP16).

github llama.cpp · hace 13 d

llama.cpp Release b9686: Corrige un segfault en prompts largos para Eagle3

La versión b9686 de llama.cpp corrige un error de segfault que ocurría con prompts largos en el modelo Eagle3. El lanzamiento incluye binarios para macOS, Linux, Android, Windows y openEuler a través de múltiples arquitecturas y opciones de aceleración por hardware, incluyendo Vulkan, CUDA, OpenVINO y SYCL.

media r/LocalLLaMA · hace 14 d

LoopCoder-V2: Modelo PLT de dos bucles logra la mejor relación ganancia-coste

LoopCoder-V2 es un modelo de código ajustado con instrucciones de 7B basado en Parallel Loop Transformer (PLT), entrenado con 18T tokens de datos mixtos de texto y código. La variante de dos bucles logra el mejor equilibrio entre ganancia y coste, mejorando SWE-bench Verified de 43.0 a 64.4, mientras que tres o más bucles provocan regresión debido al aumento del desajuste posicional y actualizaciones inestables.