Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 54

Flujos de trabajo reutilizables para LLMs locales de larga duración

Hayden ha desarrollado el arnés knot para gestionar tareas de LLM local de larga duración. Permite flujos de trabajo reutilizables con perfiles de agente, monitoreo de eventos del sistema de archivos y activadores automáticos, utilizando Pi.dev como agente predeterminado.

media r/LocalLLaMA · hace 2 h

Reseña de Jackrong/Qwopus3.5-9B-Coder-MTP-GGUF

Una reseña analiza la experiencia con las variantes Qwopus Coder MTP de Jackrong, comparándolas con los modelos Qwen3.5 y Qwen3.6 en tamaños de 9B, 27B y 35B parámetros. La reseña se centra en el rendimiento y la usabilidad del modelo 9B-Coder-MTP-GGUF en despliegues locales de LLM.

media r/LocalLLaMA · hace 2 h

Modelo grande de IA con 4 tarjetas V100 y servidor Tesla de 128G

Hay disponible una configuración con cuatro GPUs V100 en un servidor Tesla de 128G, con un precio listado de USD 3687.76. El sistema incluye un soporte para tarjeta gráfica con refrigeración líquida y enfriamiento líquido de 360° para toda la configuración.

media r/LocalLLaMA · hace 2 h

La actitud de GLM 5.2 refleja influencias del entrenamiento cultural

Los usuarios elogian a GLM 5.2 por su actitud directa e inquebrantable, contrastándola con modelos más empalagosos de EE. UU. El autor especula que este comportamiento proviene de datos de entrenamiento culturalmente específicos, sugiriendo que los conjuntos de datos locales tienen una influencia mayor de lo que se asumía anteriormente.

media r/LocalLLaMA · hace 2 h

¡Mi servidor local inactivo el 99% del tiempo!

Un usuario informa que su servidor local ejecuta Qwen3.6-27B con OWU y PI para tareas de programación, pero permanece inactivo el 99% del tiempo. Pide a la comunidad ideas sobre cómo utilizar mejor los LLM locales con tareas significativas y continuas las 24 horas.

media r/LocalLLaMA · hace 2 h

Mejores modelos locales para razonamiento en IA agente

El creador de EverFern pregunta qué modelos locales funcionan mejor para flujos de trabajo agentes y uso del navegador/ordenador. Señala que la inteligencia del modelo rara vez es el cuello de botella, siendo los sistemas de fiabilidad y recuperación más críticos que la elección del modelo.

media r/LocalLLaMA · hace 2 h

La evaluación humana muestra que GLM-5.2 compite con los mejores modelos

Una evaluación humana en el tablero de Design Arena revela que GLM-5.2 tiene un rendimiento casi tan bueno como Fable 5 en tareas de desarrollo de juegos, ubicándose solo un paso por debajo. El modelo, basado en pesos abiertos y licencia MIT, se evalúa como equivalente en capacidad a los mejores modelos Claude disponibles, lo que sugiere que las pruebas estandarizadas ya pueden no reflejar con precisión el rendimiento en el mundo real.

media r/LocalLLaMA · hace 2 h

Caché MoE multinivel: optimización de la activación de expertos en modelos grandes

Los modelos MoE como GLM 5.2 y Deepseek V4 muestran que el 20% superior de los expertos maneja el 85% de las activaciones. Un enfoque de caché multinivel podría desplazar estos expertos a la memoria GPU, aprovechando la VRAM de alta banda ancha para una inferencia más rápida. Sistemas existentes como PowerInfer, llama.cpp de Lidenburg y HOBBIT demuestran implementaciones prácticas de caché y prefetching de expertos.

media r/LocalLLaMA · hace 2 h

Cómo demostrar que una aplicación de LLM no recopila datos del usuario

Un usuario pregunta cómo verificar que su aplicación local de LLM no registra los prompts del usuario. Considera abrir el código y el modelo, y generar un hash para asegurar que no haya cambios, pero cuestiona si esto es suficiente. Se cita la confianza en servicios como Proton como referencia de transparencia, sugiriendo que las prácticas visibles y auditables son clave.

media r/LocalLLaMA · hace 2 h

¿SFT o RL-first para el entrenamiento del agente de herramientas de Qwen 3.5?

Un usuario pregunta si se sigue recomendando el ajuste fino supervisado (SFT) seguido de aprendizaje por refuerzo (RL) para entrenar agentes de Qwen 3.5 de 4B o 9B para el uso de múltiples herramientas, o si los enfoques solo con RL producen mejores resultados. La publicación también busca orientación sobre el diseño de recompensas y el manejo de la ejecución paralela de herramientas en flujos de trabajo de agentes.

media r/LocalLLaMA · hace 2 h

¿Por qué no se menciona más a Gemma 4 26b?

Los usuarios señalan una falta de discusión sobre Gemma 4 26b a pesar de su potencial adecuación para tareas de asistente personal y RAG en una única tarjeta 3090. El modelo es considerado un fuerte candidato para aplicaciones de IA local todo en uno, aunque recibe menos atención en comparación con Qwen3.6 o Gemma4 31b.

arxiv arXiv cs.CL · hace 2 h

Estimación de la Importancia del Predicado y Destilación Desacoplada de Racional-Puntuación para Alineación de Entidades

Un nuevo método mejora la alineación de entidades en grafos de conocimiento introduciendo la Estimación de la Importancia del Predicado y la Destilación Desacoplada de Racional-Puntuación. Estos módulos mejoran la precisión de clasificación y permiten la verificación con humano en el bucle mediante la detección de predicciones inciertas a través de una estimación desacoplada de la puntuación de confianza.

arxiv arXiv cs.CL · hace 2 h

Optimización de Políticas de Grupo-Gráfico para RL Agénico de Largo Alcance

La Optimización de Políticas de Grupo-Gráfico (G2PO) introduce un enfoque basado en grafos para mejorar el aprendizaje por refuerzo agénico de largo alcance, transformando trayectorias de interacción en grafos de transición de estado. Permite la estimación agregada del valor de estado y el cálculo de ventaja centrado en las aristas, mejorando la asignación de crédito y reduciendo la varianza, logrando hasta un 22.2% de mejora en la tasa de éxito sobre GRPO en los benchmarks WebShop, ALFWorld y AppWorld.

arxiv arXiv cs.CL · hace 2 h

Evaluación comparativa de sistemas de TM y grupos de posteditores en traducción especializada

El estudio compara tres sistemas de TM: DeepL, eTranslation y Systran, y dos grupos de posteditores: lingüistas/traductores y expertos en PLN. Los resultados muestran diferencias significativas en la precisión terminológica y la fluidez, destacando el papel del conocimiento del dominio en la traducción especializada y el rendimiento variable de los sistemas de TM en contextos específicos del idioma.

arxiv arXiv cs.CL · hace 2 h

¿Los espacios de incrustación de LLM recuperan la estructura experta?

Las incrustaciones de LLM preentrenadas muestran una alineación medible con la estructura de síntomas de salud mental definida por expertos. El ajuste fino mejora esta alineación, especialmente a nivel de categorías finas, y los tamaños de modelo más grandes mejoran tanto el rendimiento zero-shot como las ganancias supervisadas. La alineación residual persiste después de controlar por confusores lingüísticos y estilísticos, lo que indica que la recuperación de la estructura experta depende del nivel y requiere pruebas explícitas de confusores.

arxiv arXiv cs.CL · hace 2 h

Inferencia de pertenencia a nivel de entidad mediante interrogación de LLM

Los investigadores proponen la inferencia de pertenencia a nivel de entidad para determinar si un LLM ha estado expuesto a información sobre una entidad del mundo real durante el entrenamiento. Al construir prompts con pistas limitadas de la entidad y analizar las características semánticas en las respuestas generadas, sus cinco estrategias de interrogación logran hasta 0.97 AUC y mejoran la Precisión Balanceada entre un 6.0% y 17.5% en comparación con las líneas base adaptadas para entidades personales.

arxiv arXiv cs.CL · hace 2 h

PhoneBuddy: Entrenamiento de modelos abiertos para uso agénico en teléfonos

PhoneBuddy combina entornos de aplicaciones reales y simuladas para entrenar modelos abiertos para el uso de teléfonos. Mejora las tasas de éxito de tareas del 36,67% al 45,33% en teléfonos reales y del 60,3% al 83,2% en AndroidWorld, mostrando que el entrenamiento con aplicaciones simuladas complementa pero no reemplaza el RL con aplicaciones reales.

arxiv arXiv cs.CL · hace 2 h

OCR ilimitado: Análisis similar al humano con memoria constante

OCR ilimitado introduce la Atención de Ventana Deslizante de Referencia (R-SWA) para emular la memoria de trabajo humana, permitiendo la transcripción de documentos largos sin aumentar el uso de memoria. Al reemplazar las capas de atención del decodificador en DeepSeek OCR, mantiene un KV cache constante y logra el procesamiento completo del documento en una sola pasada hacia adelante bajo límites de 32K tokens. R-SWA también es aplicable a tareas de ASR y traducción.

arxiv arXiv cs.CL · hace 2 h

Propiedad de las recomendaciones de IA: Mapa empírico de la propiedad de categorías de marca

Un estudio de 3,750 consultas en cinco industrias encuentra una concentración moderada de recomendaciones, con un coeficiente Gini medio de 0.28. El acuerdo entre modelos sobre las marcas más recomendadas fue solo del 41.6%, y los puntajes de desplazamiento variaron por industria, oscilando entre 0.4:1 y 4.3:1. Los resultados desafían la narrativa de 'el ganador se lo lleva todo' e introducen tres métricas reproducibles para el análisis de inteligencia competitiva.

arxiv arXiv cs.CL · hace 2 h

PIVOTSBench: Benchmark para el razonamiento interpersonal fino en MLLMs

PIVOTSBench es el primer benchmark que evalúa la capacidad de los modelos de lenguaje multimodales grandes (MLLMs) para razonar sobre relaciones interpersonales bidireccionales utilizando Social-IQ 2.0 y datos de YouTube. Incluye tareas auxiliares para evaluar la identificación de pistas visuales y realiza estudios de ablación sobre modalidades visuales e información de roles sociales, analizando cómo las predicciones conjuntas y por pares mejoran el rendimiento en dimensiones relacionales fundamentadas en investigaciones psicológicas.