Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 37

Prohibir la IA de código abierto sería un error

El artículo argumenta que prohibir la IA de código abierto sería un grave error, ya que es segura, protege la seguridad y impulsa la innovación, la educación y la competencia. El código abierto ha impulsado durante mucho tiempo el progreso tecnológico y sirve como un contrapeso vital frente a los modelos de IA monopolísticos, garantizando un acceso más amplio y una innovación democrática sin comprometer la seguridad ni la protección.

media r/LocalLLaMA · hace 1 h En vivo

¿Es mi CPU y RAM demasiado débil para LLMs locales?

Un usuario informa que su CPU y RAM están alcanzando el 100% durante prompts de prueba simples, mientras que la GPU está subutilizada. Cuestiona si su GPU RTX 3050 de 8GB puede ejecutar Quen3.5:9b localmente, señalando que en teoría debería ser factible.

media r/LocalLLaMA · hace 1 h En vivo

Observando cómo un asistente de voz local con IA se vuelve menos inteligente

Una prueba en una RTX 5060 Ti mostró que reducir el tamaño del modelo de un asistente de voz local con IA de 9B a 0.8B provoca un descenso pronunciado en la capacidad. El modelo de 9B maneja bien la orquestación de herramientas, mientras que los modelos más pequeños muestran fallos crecientes: el modelo de 4B omite las llamadas a herramientas y adivina hechos, el modelo de 2B sufre deriva semántica, y el modelo de 0.8B falla en operar funciones de agente, activando APIs incorrectas o bucles infinitos.

arxiv arXiv cs.CL · hace 1 h En vivo

Credence: Métricas semánticas y análisis de convergencia para la descomposición de afirmaciones

Credence introduce Semantic-F1, una métrica de similitud cosina BGE-large que mejora la precisión de la descomposición de afirmaciones en 15-32 puntos porcentuales respecto a Jaccard. Establece teoremas de convergencia para la reparación basada en reglas y LLM, mostrando que la reparación basada en reglas es finitamente terminante y monótona, mientras que la reparación basada en LLM requiere guardias de salida anticipada. Las evaluaciones en dominios de redes sociales, enciclopédicos y de noticias muestran EPR de 0.94 a 1.00, con la reparación basada en reglas reduciendo las violaciones de atomicidad entre 47-100% sin pérdida de fidelidad.

media r/LocalLLaMA · hace 1 h En vivo

GLM-5.2 es el nuevo modelo de pesos abiertos líder en el Índice de Inteligencia de Artificial Analysis

GLM-5.2 ha sido designado como el modelo de pesos abiertos líder en el Índice de Inteligencia de Artificial Analysis. Este reconocimiento refleja su rendimiento y capacidades dentro del panorama de modelos de IA de código abierto.

media r/LocalLLaMA · hace 1 h En vivo

El Eagle3 ha aterrizado para Qwen

El modelo de decodificación especulativa Eagle3 ya está disponible en la última versión de llama.cpp mediante --spec-type draft-eagle3. Requiere un modelo borrador, como Ex0bit-Qwen3.6-27B-PRISM-EAGLE3-GGUF, y puede usarse con -md o --model-draft. El rendimiento es comparable al de draft-mtp, aunque no se admite paralelismo de tensor y el uso de VRAM es mayor.

media r/LocalLLaMA · hace 1 h En vivo

Nuevo Benchmark Agéntico Publicado

Artificial Analysis ha presentado un nuevo benchmark agéntico que evalúa la capacidad de los modelos de lenguaje grandes para planificar y ejecutar tareas. Claude Fable y GLM 5.2 lograron las primeras posiciones dentro de sus respectivos grupos, demostrando un fuerte rendimiento en este benchmark no saturado.

media r/LocalLLaMA · hace 1 h En vivo

Especificación: Soporte para Eagle3 en Qwen3.5 y 3.6 por ruixiang63

Una solicitud de extracción añade soporte para el modelo Eagle3 en Qwen3.5 y Qwen3.6 dentro de llama.cpp. El cambio es propuesto por ruixiang63 y enviado al repositorio ggml-org/llama.cpp.

media r/LocalLLaMA · hace 1 h En vivo

¿Alguien ha usado VibeThinker-3B fuera de los benchmarks?

Un usuario de Reddit pregunta sobre el rendimiento en el mundo real de VibeThinker-3B más allá de las puntuaciones de benchmark, centrándose en la depuración, programación, razonamiento, latencia y usabilidad. El modelo está disponible en Hugging Face y se describe en un artículo en arXiv.

media r/LocalLLaMA · hace 1 h En vivo

Se reporta censura en LLMs locales en Reddit

Los usuarios informan que los modelos de lenguaje locales están negándose a responder preguntas sin guardrails, lo que genera preocupaciones sobre la censura en configuraciones de IA descentralizadas. El tema fue compartido en la comunidad LocalLLaMA de Reddit, donde los usuarios describen instancias de modelos que bloquean respuestas a consultas legítimas.

media r/LocalLLaMA · hace 1 h En vivo

Flujos de trabajo de agentes de múltiples documentos en Word

Una publicación de blog detalla cómo implementar flujos de trabajo de agentes de múltiples documentos en Microsoft Word utilizando LLMs locales. La guía describe los pasos para habilitar que los agentes procesen e interactúen con múltiples documentos dentro de un único entorno de Word.

media r/LocalLLaMA · hace 1 h En vivo

El meme debe continuar

Una publicación de Reddit titulada 'The meme must go on' comparte una imagen de un meme relacionado con los modelos LLaMA locales. La publicación fue realizada por el usuario /u/ego100trique e incluye un enlace a la imagen y a la sección de comentarios.

media r/LocalLLaMA · hace 1 h En vivo

EvoTensile: Ajuste evolutivo de núcleos GEMM de AMD Tensile

EvoTensile utiliza algoritmos evolutivos para ajustar núcleos GEMM para GPUs AMD, mejorando el rendimiento del layout NT de 20 a 40 TFLOPS en Strix Halo. Esta aceleración representa un avance significativo respecto a los núcleos no optimizados, aunque sigue por debajo de la línea de techo teórica de 59.4 TFLOPS.

media r/LocalLLaMA · hace 2 h

La Universidad Estatal de Ohio lanza el agente de investigación profunda QUEST-35B de código abierto

El equipo de PLN de la Universidad Estatal de Ohio ha lanzado QUEST-35B, un agente de investigación profunda de código abierto entrenado en aproximadamente 32 GPUs H100 utilizando 8.000 muestras sintéticas. El equipo ha liberado como código abierto la receta de entrenamiento, el código, los pesos y los conjuntos de datos, con resultados de evaluación que muestran un rendimiento competitivo en comparación con los principales sistemas de investigación profunda de código cerrado.

media r/LocalLLaMA · hace 2 h

La Universidad Estatal de Ohio lanza el agente de investigación profunda QUEST-35B de código abierto

Los investigadores de la Universidad Estatal de Ohio entrenaron QUEST-35B, un agente de investigación profunda, utilizando aproximadamente 32 GPUs H100 y 8.000 muestras sintéticas. Han liberado como código abierto la receta de entrenamiento, el código, los pesos y los conjuntos de datos, con resultados de evaluación que muestran un rendimiento competitivo en comparación con los principales sistemas de investigación profunda propietarios.

media r/LocalLLaMA · hace 2 h

GLM-5.2 ahora puede ejecutarse localmente en llama.cpp y Unsloth Studio

GLM-5.2, el modelo abierto más potente hasta la fecha, ahora puede ejecutarse localmente usando llama.cpp y Unsloth Studio. El modelo cuantizado a 2 bits conserva ~82% de precisión tras reducir su tamaño de 1.51TB a 238GB, una reducción del 84%, y es compatible con configuraciones de 256GB de RAM o VRAM.

media r/LocalLLaMA · hace 2 h

Un poco tarde, gracias al equipo de DeepSeek

Un usuario agradeció al equipo de DeepSeek por lanzar DeepSeek V4 Pro y su versión Flash, que cabe en hardware local. La publicación se realizó siete meses después de una publicación inicial en Reddit.

media r/LocalLLaMA · hace 2 h

Chicos, Le Chaton Fat es real...

Le Chaton Fat ha sido requantizado en formato GGUF y pronto estará disponible en Hugging Face. Se recomienda a los usuarios instalar un comando pip específico para acceder al modelo, incluyendo banderas como --trust-remote y --just-do-it.

media r/LocalLLaMA · hace 2 h

¿Cómo puedo autoalojar la revisión de código?

Un usuario pregunta sobre el autoalojamiento de herramientas de revisión de código debido a que Gemini Code Assist finaliza el soporte para consumidores y se traslada exclusivamente al ámbito empresarial. Están explorando aplicaciones o acciones de GitHub para soluciones locales o basadas en la nube.

media r/LocalLLaMA · hace 2 h

SupraLabs lanza el modelo de visión y lenguaje SupraVL-Nano-900k

SupraLabs ha lanzado SupraVL-Nano-900k, un modelo de visión y lenguaje con 900k parámetros, completamente transparente, entrenado desde cero en Flickr8k. Cuenta con un codificador visual CNN, un decodificador estilo GPT-2 y fusión por concatenación de prefijos, con todos los componentes documentados abiertamente y diseñados para claridad educativa.