Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 130

Claude pronto requerirá verificación de identidad

Anthropic pronto exigirá a los usuarios verificar su identidad para acceder a Claude. El cambio tiene como objetivo mejorar la seguridad y garantizar el uso responsable de la plataforma.

media r/LocalLLaMA · hace 11 d

Problemas de rendimiento de la GPU R9700 con vLLM y configuración multi-GPU

Un usuario reporta graves problemas de rendimiento con sus dos GPUs AMD R9700, que no logran ejecutar vLLM con paralelismo de tensor (tp=2) debido a errores de NCCL. La inferencia con una sola tarjeta muestra un throughput extremadamente bajo: 30 tps para Qwen 0.6B y solo 5 tps para un modelo INT4 AWQ de 27B, a pesar de la correcta instalación de ROCm y la configuración del sistema.

media r/LocalLLaMA · hace 11 d

¿Por qué AutoRound está siendo tan ignorado?

AutoRound supera significativamente a AWQ estándar y RTN en perplexity y precisión, especialmente para razonamiento complejo y contextos largos. Exporta nativamente a GGUF, evitando problemas de conversión, y se ejecuta en cualquier configuración de PyTorch, pero sigue siendo poco utilizado a pesar de estas ventajas.

media r/LocalLLaMA · hace 11 d

Mapeé cada archivo de configuración de agente y etiqueté la adopción real

Una guía enumera 21 convenciones de configuración de agentes en 11 categorías, etiquetadas como adoptadas, emergentes o propuestas. La guía incluye ejemplos reales de repositorios públicos y señala explícitamente el hype, como que llms.txt esté ampliamente publicado pero no confirmado por los principales proveedores.

media r/LocalLLaMA · hace 11 d

Propuesta para dividir modelos base y evitar el reentrenamiento

Una propuesta sugiere dividir la arquitectura del modelo en un modelo base estable y modelos de trabajo ligeros e intercambiables. El modelo base maneja el razonamiento central y actúa como plataforma, mientras que los modelos de trabajo proporcionan conocimiento específico del dominio mediante hot-plugging en tiempo de ejecución, similar a LoRA pero para conocimiento en lugar de comportamiento.

media r/LocalLLaMA · hace 11 d

Observa cómo los LLM locales escapan de las habitaciones que diseñas

Una nueva herramienta permite a los usuarios diseñar entornos estilo sala de escape y observar cómo los LLM locales navegan y escapan utilizando acciones simples. El proyecto, creado para el hackathon 'Build Small' de Hugging Face x Gradio, admite cinco configuraciones preestablecidas de modelos y permite la creación de mapas personalizados con visuales basados en fuentes e importación/exportación JSON. Utiliza un marco 'Pensar luego Actuar' para permitir que los modelos pequeños funcionen de manera confiable en entornos de juegos estructurados.

media r/LocalLLaMA · hace 11 d

GLM-5.2 supera a Gemini y GPT-5.4 en programación, pero es ineficiente

GLM-5.2 supera a GPT-5.4 y a toda la línea de Gemini en rendimiento de codificación en el benchmark DeepSWE. Sin embargo, requiere significativamente más tokens de salida, lo que lo hace sustancialmente menos eficiente en términos de costo por tarea en comparación con modelos como GPT-5.5 y Claude Opus 4.8.

media r/LocalLLaMA · hace 11 d

Gemma 4 QAT responde mejor a la cuantización de la caché KV

Un post en Reddit informa que Gemma 4 QAT muestra una mejora significativa en el rendimiento al utilizar la cuantización de la caché KV, según lo medido en el conjunto de datos wikitext con un contexto de 16k. El usuario señala que sus límites de hardware limitan las pruebas a modelos de 31B e invita a otros a explorar los resultados.

media r/LocalLLaMA · hace 11 d

Fable vs GLM 5.2 vs KIMI K2.7 (Video de YouTube)

Un video de YouTube compara el rendimiento de Fable, GLM 5.2 y KIMI K2.7. El video se comparte en Reddit's r/LocalLLaMA e incluye un enlace al video y comentarios relacionados.

media r/LocalLLaMA · hace 11 d

El CEO de Vercel dice estar casi sorprendido por las capacidades de codificación de GLM-5.2

Guillermo Rauch, CEO de Vercel, declaró que está 'genuinamente impresionado, casi sorprendido' por el rendimiento de GLM-5.2 en tareas de codificación. Compartió esta opinión en una publicación en X, destacando las sólidas capacidades del modelo en la generación de código.

media r/LocalLLaMA · hace 11 d

Qwen 3.7 No Será de Código Abierto

Tras la partida de Junyang Lin, Qwen ha dejado de publicar sus modelos como código abierto. A partir de junio de 2026, todos los principales laboratorios de IA chinos excepto Qwen han publicado modelos de código abierto más recientemente que Qwen 3.7, el cual permanece completamente cerrado.

media r/LocalLLaMA · hace 11 d

Modelo de Sentimiento Propuesto Usa Solo Emojis

Un modelo propuesto llamado 'modelo de sentimiento' está diseñado para pensar exclusivamente en emojis. La idea sugiere crear el primer modelo que se comunique completamente a través de expresiones emocionales con emojis.

media r/LocalLLaMA · hace 11 d

Kimi AI me acaba de enviar un correo

Un usuario informa haber recibido un correo electrónico de Kimi.ai relacionado con uno de sus videos de YouTube. El mensaje fue compartido en Reddit dentro de la comunidad LocalLLaMA.

media r/LocalLLaMA · hace 11 d

AllenAI lanza los modelos de visión MolmoMotion para predicción de movimiento futuro

AllenAI ha lanzado dos modelos MolmoMotion que predicen trayectorias de puntos 3D basadas en historias de video cortas e instrucciones en lenguaje natural. Un modelo utiliza una historia de tres fotogramas, el otro una historia de un solo fotograma, lo que permite la predicción de movimiento futuro para objetos en el espacio 3D.

media r/LocalLLaMA · hace 12 d

SupraLansa la Familia de Modelos Any2Any

SupraLabs ha presentado el modelo Supra-A2A-Nano-Exp, un Transformer multimodal de 30M parámetros que unifica texto, imagen y video en un único flujo de tokens. El modelo trata todas las modalidades como tokens en una secuencia compartida, permitiendo modelado de lenguaje sobre un vocabulario combinado de 50,520 tokens sin codificadores de visión separados ni módulos de atención cruzada.

media r/LocalLLaMA · hace 12 d

¿Qué estás sobreingenierizando que nadie va a usar jamás? Sé honesto.

Una publicación de Reddit pide a los usuarios que sean honestos sobre las características o sistemas sobreingenierizados que nadie utilizará. La publicación fomenta la reflexión sobre la complejidad innecesaria en el desarrollo de software.

github llama.cpp · hace 12 d

LLaMA.cpp lanza b9744: nuevos binarios y características

LLaMA.cpp publica la versión b9744 con binarios actualizados para macOS, Linux, Android, Windows y openEuler. La publicación incluye soporte para múltiples arquitecturas y aceleradores de hardware como Vulkan, CUDA, OpenVINO, SYCL y ROCm. También está disponible un paquete de interfaz de usuario (UI) para acceder a la interfaz.

media r/LocalLLaMA · hace 12 d

Mejor modelo de visión de código abierto ejecutable en RTX 6000 Pro

El usuario busca el mejor modelo de visión de código abierto actual que pueda ejecutarse en una RTX 6000 Pro para OCR y clasificación de documentos escaneados históricos. Señala que Gemma 4 31B funciona bien y es mejor que el codificador de visión de Qwen 3.6, pidiendo recomendaciones más allá de este modelo.

media r/LocalLLaMA · hace 12 d

semantic-memory: base de conocimiento local-first con aristas de grafo tipadas

semantic-memory es una base de conocimiento local-first en Rust que combina búsqueda BM25, vectorial y fusión de rango recíproco con SQLite. Cuenta con aristas de grafo tipadas para relaciones causales, temporales y semánticas, rastreo de procedencia, almacenamiento bitemporal y enrutamiento adaptativo de consultas, soportando 18 herramientas MCP para agentes de IA. Todos los componentes se ejecutan localmente sin dependencias en la nube, claves de API ni telemetría.

media r/LocalLLaMA · hace 12 d

¿Qué puedo ejecutar en mi sistema Tesla V100 de 32GB?

Con una GPU Tesla V100 de 32GB y un sistema Dell PowerEdge 730 con doble Xeon que cuenta con 384GB de DDR4 y múltiples TB de almacenamiento, los usuarios pueden ejecutar modelos de lenguaje grandes (LLMs) locales para experimentación. La sustancial capacidad de memoria y almacenamiento del sistema admite la inferencia y el entrenamiento eficientes de modelos locales.