Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 61

datasette-export-database 0.3a2 corrige el bloqueo de versión

La versión 0.3a2 del plugin datasette-export-database aborda un problema de compatibilidad causado por una restricción de dependencia demasiado estricta en la versión anterior.

github llama.cpp · hace 5 h

la versión b9827 de llama.cpp añade una optimización de copia asíncrona 2D en CUDA

La versión b9827 de llama.cpp introduce una optimización de rendimiento para CUDA añadiendo un camino rápido cudaMemcpy2DAsync a la función ggml_cuda_cpy. Este cambio acelera las copias escalonadas de mismo tipo y misma forma donde los tensores no son completamente contiguos pero cada fila es contigua, reemplazando kernels de copia escalar elemento por elemento más lentos.

media r/LocalLLaMA · hace 6 h

BatonBot: Flujo de trabajo Kanban local de código abierto para agentes de codificación con IA

El autor presenta BatonBot, una aplicación local-first de código abierto diseñada para optimizar los flujos de trabajo de codificación con IA al reducir la necesidad de supervisión constante por parte del usuario. La herramienta aborda la ineficiencia de las interacciones secuenciales de agentes permitiendo a los usuarios configurar tareas y rastrear el progreso visualmente en un tablero estilo Kanban.

media r/LocalLLaMA · hace 6 h

audio.cpp: 12 modelos de audio en un solo entorno de ejecución C++ con hasta 5x de mejora de velocidad

El proyecto de código abierto audio.cpp proporciona un marco de inferencia nativo en C++ para modelos de audio basados en ggml, que actualmente admite 12 familias de modelos lanzadas, incluyendo TTS, ASR y conversión de voz. Las pruebas de rendimiento en Ubuntu/CUDA demuestran que el rendimiento de texto a voz en este entorno de ejecución es hasta 5 veces más rápido que las implementaciones de referencia correspondientes en Python.

blog Simon Willison · hace 6 h

Bruce Schneier sobre la responsabilidad de la IA y el fallo alemán

Bruce Schneier analiza un reciente fallo alemán que considera a Google responsable por errores en sus resúmenes de IA, argumentando que los agentes de IA deben ser tratados como agentes de la organización que los despliega.

media r/LocalLLaMA · hace 6 h

JetSpec: El descodificado especulativo con redacción paralela de árboles permite una aceleración de inferencia LLM sin pérdidas de hasta 9.64x

JetSpec introduce un método de descodificación especulativa llamado redacción causal de árboles en paralelo que co-optimiza el costo y la calidad del borrador para reducir la latencia de generación de LLM. El enfoque logra una aceleración end-to-end de hasta 9.64x en MATH-500 y 4.58x en chat abierto mientras mantiene la precisión sin pérdidas.

media r/LocalLLaMA · hace 6 h

El gobierno de EE.UU. aprobará individualmente quién obtiene GPT 5.6.

Una publicación de Reddit del usuario /u/AtlanticHM en r/LocalLLaMA comparte una imagen con el título "US Govt to individually approve who gets GPT 5.6.".

media r/LocalLLaMA · hace 6 h

Reinicio del consumo de energía en reposo de la NVIDIA RTX 3090

Un usuario informa que mientras la versión del controlador 595.71.05 permitía previamente que dos RTX 3090s bajaran a 13-15W cuando estaban inactivas, una tarjeta ahora se queda atascada en 24-30W con cero actividad y ventiladores apagados.

media r/LocalLLaMA · hace 6 h

Los precios de las tarjetas gráficas se vuelven locos, ¿debería comprar una segunda tarjeta?

Un usuario en r/LocalLLaMA está considerando añadir una segunda GPU a su equipo para inferencia de LLM local, pero se ve disuadido por el fuerte aumento de los precios de las tarjetas AMD Radeon RX 7900 XTX y XT. El autor señala que, aunque los precios nuevos de la RX 7900 XTX han subido a 1200€, las unidades usadas están alrededor de 900€, y la RX 7900 XT económica comienza en 700€.

media r/LocalLLaMA · hace 6 h

Manejo del aislamiento por agente y del ciclo de vida del entorno en una biblioteca de orquestación

El autor detalla la arquitectura de una biblioteca de orquestación agnóstica al arnés, centrada en gestionar los entornos de los agentes mediante abstracciones distintas de espacio de trabajo y tiempo de ejecución. El sistema define cuatro estados secuenciales—no aprovisionado, aprovisionado, iniciado y retirado—para controlar el ciclo de vida de cada instancia de agente.

media r/LocalLLaMA · hace 6 h

Usuario de Reddit cuestiona el valor de la RTX 6000 Pro ante el aumento de precios

Un usuario de Reddit en la comunidad r/LocalLLaMA está buscando consejos sobre la compra de una GPU NVIDIA RTX 6000 Pro. El autor señala que el precio ha aumentado significativamente, pasando de aproximadamente $8,000 hace seis meses a alrededor de $13,000 actualmente. Está buscando comentarios de propietarios existentes sobre su satisfacción con el hardware. Específicamente, el usuario pregunta si la tarjeta vale la pena la inversión para ejecutar modelos como Qwen 2.5 7B. La publicación tiene como objetivo ayudar al comprador a justificar el gasto ante su esposa recopilando experiencias de uso en el mundo real.

media r/LocalLLaMA · hace 6 h

¿Qwen 3.6 27b GLM 5.2 ajuste fino?

Un usuario de Reddit cuestiona la ausencia de un modelo Qwen 3.6 27B ajustado finamente con GLM 5.2, señalando que ambos modelos cuentan con pesos abiertos y que GLM es reconocido por sus capacidades de razonamiento. El autor especula si la falta de dicho ajuste fino se debe a la reciente aparición de GLM 5.2 o a una falta general de interés de la comunidad en combinar estos modelos específicos.

media r/LocalLLaMA · hace 6 h

API de RAG médico rápido para dar a tus LLM locales acceso a hechos

Un desarrollador ha lanzado una API gratuita y simple de Generación Aumentada por Recuperación (RAG) impulsada por artículos de Wikipedia médica para proporcionar a los modelos de lenguaje grandes locales información factual precisa. El servicio apunta a respuestas en menos de un segundo y actualmente se ejecuta en una única VPS ARM utilizando aproximadamente 2GB de RAM.

media r/LocalLLaMA · hace 6 h

¿Duración de vida del sistema operativo DGX Spark?

Un usuario en Reddit pregunta si Nvidia ha revelado el ciclo de soporte para el sistema operativo que se ejecuta en el hardware DGX Spark. La consulta se refiere específicamente a la duración del soporte del SO y si los usuarios se verán obligados a actualizar a nuevos productos en un futuro cercano, como para 2028.

media r/LocalLLaMA · hace 6 h

LFM2.5 230M se ejecuta en el navegador a 1,400 tok/s mediante kernels WebGPU personalizados

El modelo LFM2.5-230M de LiquidAI ahora se ejecuta localmente en el navegador utilizando kernels WebGPU personalizados. Estos kernels especializados fueron desarrollados originalmente por Fable 5 antes de su cierre y Opus 4.8. La demostración fue grabada en un dispositivo M4 Max, alcanzando una velocidad de generación de 1,400 tokens por segundo. Todo el procesamiento ocurre completamente dentro del entorno del navegador del usuario sin dependencias de servidores externos. Una versión GGUF del modelo está disponible para descargar en Hugging Face junto con la checkpoint estándar. Los usuarios pueden interactuar con la demostración en vivo alojada por webml-community en Hugging Face Spaces.

media r/LocalLLaMA · hace 6 h

Apple omitirá los chips M6 Pro/Max y acelerará el M7 para IA local

Un informe reciente indica que Apple planea omitir el lanzamiento de los chips M6 Pro y M6 Max en su próxima gama. En cambio, la empresa tiene la intención de acelerar el desarrollo de la serie de chips M7 para apoyar mejor las cargas de trabajo de inteligencia artificial local. Este cambio estratégico sugiere una priorización de las capacidades de IA en el dispositivo sobre los incrementos tradicionales de rendimiento para la gama Pro. La decisión refleja el creciente énfasis de Apple en integrar características avanzadas de aprendizaje automático directamente en su arquitectura de hardware. Al acelerar el cronograma del M7, Apple busca proporcionar un rendimiento más robusto del motor neural para ejecutar modelos de lenguaje grandes localmente. Este movimiento señala un cambio significativo en la hoja de ruta de desarrollo de Apple Silicon hacia principios de diseño centrados en la IA.

media r/LocalLLaMA · hace 6 h

Publicación de Reddit: Capa de Memoria de Asistente de IA Totalmente Local

Un usuario de Reddit de la comunidad r/LocalLLaMA compartió una publicación titulada 'Después de 2.5 años de noches y fines de semana, mi asistente de IA totalmente local finalmente es utilizable.' La presentación se centra en explicar cómo funciona la capa de memoria de este sistema de IA personal. El contenido fue enviado por el usuario /u/PAiERAlabs al subreddit dedicado a modelos de lenguaje grandes locales. La publicación incluye un enlace a una galería que contiene detalles adicionales sobre el proyecto. Se dirige a los lectores a la sección de comentarios para más discusión e ideas técnicas. Esta entrada destaca un proyecto personal a largo plazo destinado a crear un asistente de IA funcional alojado localmente.

media r/LocalLLaMA · hace 6 h

Hugging Face bloquea descargas multihilo, afectando al ecosistema GGUF

Hugging Face ha implementado un cambio reciente que bloquea la aceleración de descargas multihilo, lo que resulta en errores 403 para todos los hilos excepto uno por conexión. Esta actualización afecta significativamente al ecosistema GGUF, donde son comunes los modelos grandes de archivo único y las velocidades de hilo único suelen estar limitadas a 40 MB/s. Anteriormente, herramientas como la CLI de Hugging Face aceleraban las descargas obteniendo múltiples archivos más pequeños en paralelo, un método ahora obstaculizado por esta restricción. El autor señala que descargar una rama completa de repositorios GGUF es ineficiente debido a la presencia de archivos grandes y múltiples cuantizaciones dentro de la misma rama. Sin una reversión de esta política, las velocidades de descarga seguirán siendo lentas a menos que los cargadores transiten a dividir los modelos en numerosos archivos más pequeños en diferentes ramas. Dicha solución requeriría que los usuarios fusionen manualmente los archivos, lo cual se considera menos deseable que la restauración por parte de Hugging Face de las capacidades de aceleración anteriores.

media r/LocalLLaMA · hace 6 h

Un desarrollador lleva los artefactos estilo Claude a modelos locales mediante TurboLLM

Un usuario de Reddit destaca la ausencia de artefactos renderizados en configuraciones de IA local en comparación con Claude de Anthropic. Aunque los modelos locales pueden generar código para paneles o diagramas, los usuarios generalmente deben copiar la salida en otro lugar para verla. Para abordar esta brecha, el desarrollador experimentó con la representación directa de HTML, SVG y código Mermaid generados dentro de la interfaz de chat. Los resultados demostraron que la limitación radica en la interfaz de usuario más que en las capacidades del modelo. Una captura de pantalla de la publicación muestra un panel renderizado por Gemma 4 26B a partir de un único prompt en un escritorio. La implementación se construyó utilizando TurboLLM, lo que permite esta visualización directa de las salidas de código. El autor invita a la comunidad a discutir sus flujos de trabajo y si extrañan la función de artefactos de Claude.

github llama.cpp · hace 6 h

Liberación de llama.cpp b9825: Corrección de Vulkan y binarios multiplataforma

El proyecto llama.cpp ha lanzado la versión b9825, que incluye una corrección para el operador de paso de Vulkan al manejar entradas nulas. Esta actualización proporciona binarios precompilados para macOS, Linux, Windows, Android y openEuler en varios backends de hardware.