Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 28

IndicContextEval: Benchmark para la Utilización de Contexto en LLMs de Audio

IndicContextEval introduce un benchmark multilingüe de 56 horas que presenta habla natural de 555 hablantes en 8 idiomas indios y 23 dominios. Emplea un marco de prompting de 7 niveles para probar progresivamente la utilización del contexto, incluyendo metadatos, descripciones e inputs adversarios. La evaluación de cinco modelos muestra diferencias significativas en el anclaje contextual, subrayando la necesidad de una evaluación explícita del uso del contexto en AudioLLMs.

media r/LocalLLaMA · hace 1 h En vivo

Documentos financieros filtrados muestran que OpenAI pierde miles de millones de dólares al año

Los documentos financieros filtrados sugieren que OpenAI está perdiendo miles de millones de dólares anualmente. Los documentos, compartidos en Reddit, afirman que las pérdidas provienen de altos costos de investigación y desarrollo, aunque OpenAI no ha confirmado oficialmente los datos.

blog Simon Willison · hace 1 h En vivo

GLM-5.2 es el modelo de pesos abiertos líder en el Índice de Inteligencia de Artificial Analysis

GLM-5.2, un modelo de solo texto con 753B parámetros de Z.ai, es ahora el modelo de pesos abiertos principal en el Índice de Inteligencia de Artificial Analysis, superando a MiniMax-M3, DeepSeek V4 Pro y Kimi K2.6. Cuenta con una ventana de contexto de 1 millón de tokens y ocupa el segundo lugar en la tabla de clasificación Code Arena WebDev, a pesar de carecer de capacidades de entrada de imagen.

media r/LocalLLaMA · hace 1 h En vivo

llama.cpp ahora admite la gestión de modelos mediante API

llama.cpp se ha actualizado para admitir la descarga y gestión de modelos mediante API. Esto permite un control completo del ciclo de vida del modelo a través de llamadas a la API sin necesidad de una interfaz de usuario.

media r/LocalLLaMA · hace 1 h En vivo

Lancé Inflect-Nano, un modelo TTS ultra-extremadamente pequeño de 4.63m parámetros

El modelo Inflect-Nano-v1 es el segundo modelo TTS más pequeño liberado públicamente después de TinyTTS, con 4.63M de parámetros totales. Rinde sorprendentemente bien para su tamaño, funcionando localmente en dispositivos de gama baja y ofreciendo una línea base para la síntesis de voz diminuta en aplicaciones embebidas o sin conexión.

media r/LocalLLaMA · hace 1 h En vivo

Mejores modelos para una tarjeta de 12GB VRAM

Un usuario con una GPU de 12GB VRAM pide recomendaciones de modelos para charla general, roleplaying y programación. Prioriza modelos sin censura para charla y roleplaying, y tiene un CPU Ryzen 5600 y 32GB RAM DDR4.

media r/LocalLLaMA · hace 1 h En vivo

El laboratorio de IA Lin Junyang cierra ronda de valoración de 2000 millones de dólares

El laboratorio de IA de Lin Junyang ha cerrado una ronda de financiación que valora a la empresa en 2000 millones de dólares. El laboratorio es conocido por su trabajo en la serie de modelos de lenguaje grande Qwen, y la ronda de financiación señala una confianza continua en las iniciativas de IA de código abierto.

media r/LocalLLaMA · hace 1 h En vivo

Lemonade v10.8 lanza gestión automática de memoria, descarga a la nube y soporte para herramientas MCP

Lemonade v10.8 introduce gestión dinámica de VRAM que descarga automáticamente los modelos inactivos y reduce el tamaño del KV-cache para recuperar memoria de GPU. Añade soporte de descarga a la nube para proveedores compatibles con OpenAI, permitiendo el servicio de modelos local-first con enrutamiento opcional a la nube. Una nueva puerta de enlace MCP expone los modelos locales como herramientas mediante POST /mcp, permitiendo que los modelos locales se utilicen como herramientas en aplicaciones compatibles con MCP.

media r/LocalLLaMA · hace 1 h En vivo

Video de lanzamiento de GLM 5.2 creado con GLM 5.2

Se creó y compartió en línea un video que muestra las capacidades de GLM 5.2. Los usuarios señalan que funciona bien en tareas de desarrollo web, aunque aún está por debajo de los mejores modelos como Gemini 3.1 Pro en generación de video. Las salidas largas suelen agotar el tiempo de espera en OpenRouter, lo que obliga a los usuarios a cambiar de proveedor para recibir respuestas completas.

media r/LocalLLaMA · hace 1 h En vivo

Necesitamos urgentemente un modelo de 80-160B para dispositivos de memoria unificada

Los usuarios con memoria unificada de 80-160GB o RAM de alta anchura de banda enfrentan limitaciones debido a la falta de modelos adaptados a su hardware. Los modelos existentes son demasiado pequeños para el rendimiento o demasiado grandes para las restricciones de memoria, lo que impulsa una llamada por modelos dispersos de escala 100B como Qwen 3.5 122B o Gemma 4 122B para servir mejor a usuarios con AMD AI Pro, RTX 3090/5090 o dispositivos Apple.

media r/LocalLLaMA · hace 1 h En vivo

EE.UU. evita incluir a DeepSeek de China en la lista negra

Fuentes indican que EE.UU. ha retrasado la inclusión de la empresa de IA china DeepSeek en la lista negra. Más de 100 empresas han sido consideradas riesgos de seguridad en esta decisión.

media r/LocalLLaMA · hace 1 h En vivo

Post-entrené un modelo para lanzar un dado de manera confiable

Un usuario entrenó un modelo de lenguaje para lanzar un dado, asegurando que cada número aparezca aproximadamente una vez cada seis lanzamientos. La publicación destaca cómo los LLMs convencionales tienden a dar por defecto '4' cuando se les pide lanzar un dado, ilustrando un problema más amplio en el aprendizaje por refuerzo: los modelos a menudo fallan al explorar de manera efectiva y en su lugar siguen patrones conocidos.

media r/LocalLLaMA · hace 1 h En vivo

AVISO: se está subiendo unsloth/GLM-5.2-GGUF

Un usuario de Reddit notó que el repositorio unsloth/GLM-5.2-GGUF fue creado hace apenas media hora y actualmente solo contiene un README. Sospechan que se están subiendo archivos de modelos GGUF y han compartido un enlace al repositorio.

media r/LocalLLaMA · hace 1 h En vivo

consejos de optimización de memoria GPU para llama.cpp

Los usuarios de llama.cpp pueden liberar memoria GPU desactivando la descarga de mmproj, utilizando tipos de caché KV reducidos y ajustando spec-draft-n-max. Parámetros como --ctx-checkpoints y --fit-target tienen un impacto mínimo, mientras que --parallel ayuda en configuraciones multiusuario pero no para usuarios individuales.

media r/LocalLLaMA · hace 1 h En vivo

Configuración de implementación Docker SGLang GLM-5.2-FP8 HGX-H200

Un usuario comparte una configuración de Docker para ejecutar GLM-5.2-FP8 en hardware HGX-H200 utilizando SGLang. La configuración logra una longitud de contexto de 262k y 70 tokens por segundo con paralelismo tensorial de 8, usando una fracción de memoria de 0.83. El usuario señala que las recetas oficiales de vLLM no funcionan en H200 debido a limitaciones de cuantización FP8 del caché KV en la arquitectura DSV3.

media r/LocalLLaMA · hace 1 h En vivo

Construimos un kit de interfaz de usuario de código abierto para RAG/documentos y agentes

Extend AI ha lanzado un kit de interfaz de usuario de código abierto con 15 componentes para visores de PDF, DOCX y XLSX, que incluyen citas de cajas delimitadoras, carga de archivos, firma electrónica y sistemas de archivos. El conjunto de herramientas, con licencia MIT y totalmente personalizable, fue inicialmente interno pero ahora es de código abierto debido a la demanda de los clientes, y se mantiene para escalabilidad y manejo de casos extremos en el procesamiento de documentos de alto volumen.

media r/LocalLLaMA · hace 1 h En vivo

LoopCoder-V2: Modelo PLT de dos bucles logra la mejor relación ganancia-coste

LoopCoder-V2 es un modelo de código ajustado con instrucciones de 7B basado en Parallel Loop Transformer (PLT), entrenado con 18T tokens de datos mixtos de texto y código. La variante de dos bucles logra el mejor equilibrio entre ganancia y coste, mejorando SWE-bench Verified de 43.0 a 64.4, mientras que tres o más bucles provocan regresión debido al aumento del desajuste posicional y actualizaciones inestables.

media r/LocalLLaMA · hace 1 h En vivo

GameCraft-Bench: ¿Pueden los agentes construir juegos jugables de extremo a extremo en un motor de juego real?

GameCraft-Bench evalúa si los modelos de lenguaje grandes pueden construir juegos jugables de extremo a extremo utilizando un motor de juego real. El benchmark incluye evaluaciones de modelos principales como Opus-4.7 y GPT-5.5, con interés en cómo los modelos de tamaño mediano (por ejemplo, 30-70B parámetros) se desempeñan en tareas de desarrollo de juegos.

media r/LocalLLaMA · hace 1 h En vivo

Gemma 4 E2B se ejecuta a 255 tok/s en el navegador usando WebGPU

Gemma 4 E2B alcanza 255 tokens por segundo en el navegador en un M4 Max utilizando kernels de WebGPU. La demostración y los kernels ya están disponibles en Hugging Face para uso público.

blog Simon Willison · hace 1 h En vivo

La IA exige más disciplina de ingeniería

En 2025, la economía de la producción de código cambió drásticamente, haciendo que la generación de código sea efectivamente gratuita e instantánea. Este cambio provocó un cambio cultural en el desarrollo de software, donde las líneas de código pasaron de ser cuidadosamente curadas a ser desechables y regenerables.