Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 129

Modelo de música con IA se ejecuta en tiempo real en la mayoría de las CPU dentro del navegador

NanoMaestro Realtime es un modelo de música con IA de 50 MB con 13M parámetros que genera música de piano en tiempo real utilizando una LSTM de 2 capas. Se ejecuta localmente en el navegador a través de ONNX y Transformers.js con WASM, sin requerir GPU ni backend de servidor, y funciona en modelos antiguos de Raspberry Pi.

media r/LocalLLaMA · hace 9 d

Microsoft lanza FastContext de código abierto para agentes de codificación LLM

Microsoft ha liberado como código abierto FastContext-1.0, un subagente ligero de exploración de repositorios que separa la exploración del repositorio de código de la resolución de tareas en agentes de codificación LLM. Utiliza llamadas de herramientas paralelas solo de lectura para devolver rutas de archivo compactas y rangos de líneas, mejorando la precisión de extremo a extremo y reduciendo el uso de tokens hasta un 60.3%, con el modelo 4B-RL superando a un modelo 30B-SFT en SWE-bench Pro.

blog Simon Willison · hace 9 d

Inyección de prompt como confusión de rol

Los investigadores identifican la 'confusión de rol' como una vulnerabilidad clave en los LLM, donde los modelos interpretan mal la entrada del usuario debido a similitudes estilísticas con las etiquetas de rol internas. Destilizar los prompts del usuario reduce el éxito del ataque del 61% al 10%, lo que muestra que cambios sutiles en el estilo del texto pueden alterar drásticamente el comportamiento del modelo, incluso cuando el contenido parece idéntico para los humanos.

blog Simon Willison · hace 9 d

Porting Moebius 0.2B Image Inpainting to Browser with Claude Code

El modelo de inpainting de imágenes Moebius 0.2B ha sido portado con éxito para ejecutarse en el navegador utilizando WebGPU y ONNX Runtime. El proyecto, iniciado con Claude Code, convierte los pesos del modelo a ONNX y los despliega a través de Hugging Face, con una interfaz web simple disponible en simonw.github.io/moebius-web/.

media r/LocalLLaMA · hace 9 d

El potencial de Gemma 4 para superar a Mistral y Qwen3.6 mediante finetuning

Gemma 4 muestra un fuerte rendimiento base y características únicas como soporte global de MTP, QAT y capacidades visuales listas para usar. Aunque actualmente carece de finetunes generalizados, modelos como MeroMero, Equinox y Gembrain ya han demostrado alta calidad, lo que sugiere que con el esfuerzo de la comunidad, Gemma 4 podría superar a Mistral o Qwen3.6 en tareas específicas como codificación y escritura creativa.

media Latent Space · hace 9 d

Explicación de los riesgos de Red Teaming de IA e Inyección de Prompts

Zico Kolter y Matt Fredrikson, coautores del artículo definitivo sobre inyecciones indirectas de prompts y autoridades en el modelo Mythos, discuten los crecientes riesgos de seguridad de la IA. Destacan que los sistemas de IA requieren una mentalidad de seguridad distinta, con agentes que introducen nuevas vulnerabilidades, y que el red-teaming especializado en IA puede superar a los humanos al romper modelos, haciendo que las brechas por inyección de prompts en la IA sean cada vez más probables.

github llama.cpp · hace 9 d

llama.cpp Release b9763 Adds ID to Tool Call Responses

La versión b9763 de llama.cpp introduce un campo ID en las respuestas de llamadas a herramientas. La publicación incluye binarios para macOS, Linux, Android, Windows y openEuler en múltiples arquitecturas y opciones de aceleración por hardware, con un componente de interfaz de usuario también disponible.

media r/LocalLLaMA · hace 9 d

Nuevo operador de ablación: edición de covector contrastivo

Apostate introduce un nuevo operador de edición de covector contrastivo definido como E = I − R Dᵀ. Este método elimina el comportamiento de rechazo al aislar la varianza dañina mientras preserva el comportamiento inofensivo a través de un predictor W entrenado en activaciones inofensivas y suprimido en prompts dañinos. En granite-3.3-8b, reduce la tasa de rechazo del 96.0% al 5.0% con solo un aumento de 0.081-nat en la divergencia KL inofensiva.

media r/LocalLLaMA · hace 9 d

DeepSeek recauda $7.4B con una valoración de $60B; Liang Wenfeng invierte $3B

DeepSeek ha recaudado $7.4 mil millones en financiación con una valoración de $60 mil millones. Liang Wenfeng, fundador de la empresa, invirtió personalmente $3 mil millones en esta ronda, subrayando su participación significativa y compromiso con el crecimiento de la compañía.

media r/LocalLLaMA · hace 9 d

Idea para ejecutar GLM2 con una cuantización decente en configuración de GPU y DDR3

El usuario propone utilizar cuatro GPUs 5060 Ti con 64GB de VRAM en total, funcionando a PCIe Gen 3, para ejecutar GLM2 a un nivel de cuantización razonable. Sugiere añadir 512GB de RAM DDR3 en un servidor con 16 carriles PCIe y bifurcación 4x4 para descargar el almacenamiento del KV cache, buscando una inferencia eficiente sin depender de clústeres de memoria unificada. Se estima que la configuración costará alrededor de $1700 en total, con viabilidad potencial para GLM2 a un nivel de cuantización decente.

lab Claude Code Releases · hace 9 d

Notas de la versión de Claude v2.1.186

Claude v2.1.186 añade comandos de autenticación CLI para servidores MCP, filtrado de estado en flujos de trabajo y una sección "Habilidades" en la configuración de complementos. Incluye numerosas correcciones de errores para la interfaz de usuario, la gestión de sesiones y el comportamiento del agente, junto con mejoras en el análisis de YAML, la gestión de memoria y la validación de herramientas.

media r/LocalLLaMA · hace 9 d

MacBook Pro M5 Pro 64GB para inferencia de IA local

Un usuario está evaluando un MacBook Pro con el chip M5 Pro y 64GB de memoria unificada para ejecutar grandes modelos de IA locales como Qwen 35B A3B o modelos de 8B en marcos de agentes de IA como Opencode o Pi. Está preocupado por la longitud del contexto, el rendimiento, la multitarea con aplicaciones como IDEs y Chromium, y el posible sobrecalentamiento, buscando comentarios de otros con configuraciones similares.

media r/LocalLLaMA · hace 9 d

Qt Creator 20 introduce funciones de IA local

Qt Creator 20 ahora incluye capacidades de IA local, permitiendo a los desarrolladores usar IA para la finalización y sugerencias de código directamente dentro del IDE. Esta integración admite LLMs locales, permitiendo a los usuarios ejecutar modelos de IA en sus propios dispositivos sin depender de servicios en la nube.

media Hugging Face Forums · hace 9 d

El proxy de Hugging Face Spaces elimina el encabezado de credenciales CORS en la preflight OPTIONS

Los usuarios informan que el proxy de borde de Hugging Face Spaces ahora está eliminando el encabezado Access-Control-Allow-Credentials de las solicitudes de preflight OPTIONS, incluso cuando se configura explícitamente en el middleware de Express. El encabezado falta en las respuestas a pesar del código que lo establece e incluye un middleware comodín para las solicitudes OPTIONS, lo que sugiere que el proxy intercepta y modifica la respuesta antes de que llegue al contenedor backend.

media Hugging Face Forums · hace 9 d

Los componentes web de Gradio fallan al cargarse

Los componentes web de Gradio están fallando al cargarse en sitios web, mostrando un error sobre un nombre de repositorio inválido debido a barras codificadas en la URL. El problema ocurre al cargar espacios de Hugging Face mediante componentes web de Gradio, a pesar de funcionar directamente en el espacio de HF.

media Hugging Face Forums · hace 9 d

BenchHub lanza una actualización importante al espacio de tablas de clasificación abiertas

BenchHub ha lanzado una actualización importante a su plataforma de tablas de clasificación abiertas, que ahora cubre tareas de visión, audio y PLN con métricas consistentes y puntuaciones reproducibles. La plataforma cuenta con 95 tablas, más de 700 presentaciones de modelos y permite la participación gratuita mediante inicio de sesión con GitHub, Google o Hugging Face, con exploración completa y comparaciones de muestras disponibles en runbenchhub.com.

media r/LocalLLaMA · hace 9 d

Agregar soporte para Laguna M.1 GGUF por empty-quiver

Una pull request agrega soporte para el modelo GGUF Laguna M.1 225B-A23B en ik_llama.cpp. El modelo está disponible en Hugging Face en https://huggingface.co/sigargv/Laguna-M.1-GGUF.

media r/LocalLLaMA · hace 9 d

Comparación de GLM-5.2 vs Claude Opus

Una publicación en Reddit compara GLM-5.2 y Claude Opus, destacando su rendimiento y capacidades. La comparación está respaldada por una página dedicada de análisis técnico e incluye comentarios de la comunidad.

media r/LocalLLaMA · hace 9 d

Punto de vista de Anthropic sobre LocalLLaMA

Un usuario comparte su perspectiva sobre los modelos de lenguaje locales, destacando las ideas clave del enfoque de Anthropic. La publicación analiza consideraciones prácticas y el rendimiento al ejecutar modelos de IA localmente, enfatizando la accesibilidad y la privacidad.

media r/LocalLLaMA · hace 9 d

¿Por qué ningún modelo de pensamiento utiliza tokens a nivel de oración?

Un usuario pregunta por qué no hay modelos de lenguaje entrenados con oraciones completas como tokens individuales, sugiriendo que tal modelo podría actuar como un 'hablante aproximado' con fuertes capacidades de razonamiento. Proponen usar un solo token para frases como 'comida arrojada por el inodoro' para simplificar el procesamiento de entradas.