Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 71

TokenPilot: Gestión de contexto eficiente en caché para agentes LLM

TokenPilot reduce los costos de inferencia entre un 61% y un 87% tanto en modos aislados como continuos, superando a sistemas anteriores en eficiencia de costos mientras mantiene un rendimiento competitivo. Utiliza compactación consciente de la ingestión y evicción consciente del ciclo de vida para estabilizar los prefijos de prompt y gestionar segmentos de contexto de manera eficiente.

arxiv arXiv cs.LG · hace 1 h En vivo

Una revisión matemática del análisis del espacio de formas en el aprendizaje automático

Esta encuesta presenta un marco matemático para analizar datos geométricos, integrando geometría diferencial, estadística y aprendizaje automático. Describe una tubería unificada para la representación de formas, métricas geodésicas, análisis estadístico y aprendizaje consciente de la geometría, permitiendo el estudio de la variabilidad de las formas y las trayectorias estructurales a través de poblaciones y tiempo. Las aplicaciones abarcan biología, medicina, antropología y visión por computadora, destacando los desafíos en el manejo de la variación geométrica no lineal y desalineada.

media r/LocalLLaMA · hace 1 h En vivo

Un paradigma visual ciego para probar la transferencia de habilidades en modelos pequeños sin ajuste fino

El autor propone un experimento visual ciego y entre dominios para determinar si un modelo de lenguaje grande puede comprimir su planificación procedural en un andamio reutilizable que mejore la salida de un modelo pequeño sin ajuste fino. Utilizando Three.js como entorno de prueba, el estudio busca demostrar que esta transferencia de habilidades es genuina y no simplemente sobreajuste al dominio de origen.

arxiv arXiv cs.LG · hace 2 h

ExpRL: Exploración de RL para LLM durante el entrenamiento intermedio

ExpRL introduce un enfoque novedoso de entrenamiento intermedio para LLMs que utiliza datos de preguntas y respuestas escritos por humanos como andamios de recompensa. En lugar de imitar soluciones de referencia, construye rúbricas de calificación específicas para cada problema con el fin de recompensar los pasos intermedios de razonamiento, permitiendo una mejor inicialización para RL con recompensas dispersas y superando a SFT, GRPO con recompensas dispersas y auto-distilación en tareas de razonamiento matemático.

arxiv arXiv cs.LG · hace 2 h

HAMON: Núcleo de Pronóstico Óptico Pasivo

HAMON utiliza difracción óptica pasiva para generar pronósticos, superando las líneas base digitales en ETTm2 en todos los horizontes y ETTh2 en todos excepto el horizonte más largo. Logra hasta un 14% menos de MSE y opera sin mezcla digital entrenable, confiando en cambio en la propagación óptica física.

arxiv arXiv cs.LG · hace 2 h

KVEraser: Borrado localizado eficiente del contexto en LLMs

KVEraser permite un borrado localizado eficiente del contexto en modelos de lenguaje grandes reemplazando únicamente los estados del caché KV de un segmento borrado con estados de dirección aprendidos. Logra un rendimiento cercano al de la recomputación completa en tareas dentro del dominio y ofrece un aumento de latencia del 24% frente a un aumento de 17.6x para la recomputación completa, con una aceleración de hasta 3--4x en tareas de QA de documentos largos.

arxiv arXiv cs.LG · hace 2 h

Ataques de puerta trasera en FL-DP: RING explota la privacidad para señales maliciosas

Un nuevo ataque, RING, explota la privacidad diferencial en el aprendizaje federado para ocultar señales de puerta trasera mientras maximiza el impacto. Logra un 90.3% de éxito del ataque contra las defensas más avanzadas, hasta 26.08x sobre los métodos base, y revela una brecha crítica de seguridad en DP-FL debido al enmascaramiento inherente de las actualizaciones maliciosas.

arxiv arXiv cs.LG · hace 2 h

Fase en las representaciones neuronales: Una prueba interna de Oppenheim-Lim

Los clasificadores de imágenes como PRISM2D, GFNet y ViT-B/16 muestran que la fase, no la magnitud, impulsa las predicciones en las capas ocultas. ResNet-50 revela un código de signo latente en los bloques tardíos, lo que indica que la identidad de fase/signo existe a través de las arquitecturas, aunque se expresa de manera diferente debido a los mecanismos de activación y lectura.

arxiv arXiv cs.LG · hace 2 h

HABC mejora el ajuste fino de RL en VLA con resultados dispersos

El Clonamiento de Comportamiento Jerárquico Ponderado por Ventaja (HABC) mejora el ajuste fino de RL en línea para agentes de visión y lenguaje mediante el uso de cabezales de crítico separados para viabilidad y eficiencia. Combina sus salidas a través de una puerta adaptativa al estado y aplica pesos por transición, mientras que la asignación de crédito consciente de intervenciones evita la fuga de supervisión. En experimentos con robots reales, HABC aumenta las tasas de éxito hasta 92%, 88% y 38% en tres tareas bimanuales, superando los lineamientos base de SFT de 36%, 44% y 12%.

arxiv arXiv cs.LG · hace 2 h

Modelo de Acción Geométrica para el Aprendizaje de Políticas Robóticas

El Modelo de Acción Geométrica (GAM) permite que las políticas robóticas razonen sobre interacciones físicas en 3D mediante la reutilización de un modelo base geométrico preentrenado. GAM divide el GFM para servir como codificador de observaciones y predictor causal del futuro, luego enruta la geometría futura y las acciones predichas a través del mismo backbone, logrando un rendimiento preciso, robusto y eficiente en manipulación en simulación y benchmarks con robots reales.

arxiv arXiv cs.LG · hace 2 h

Estimación exacta del puntaje posterior para problemas inversos lineales

El artículo deriva el puntaje posterior exacto en forma cerrada para problemas inversos gaussianos lineales, permitiendo un muestreo posterior eficiente mediante desruido. Introduce Exact Posterior Score (EPS), un objetivo de entrenamiento que preserva la estructura del preentrenamiento y logra un rendimiento superior en métricas de fidelidad, perceptual y distribucional con menos evaluaciones del desruidor que los métodos basados en gradientes.

media r/LocalLLaMA · hace 2 h

Usuario construye un rig de LLM local al máximo con RTX Pro 5000 y Ryzen 9950X3D

Un usuario de Reddit comparte la finalización de una estación de trabajo de IA local de alta gama que cuenta con una GPU NVIDIA RTX Pro 5000, CPU AMD Ryzen 9 9950X3D, 192GB de RAM y 80GB de VRAM. La construcción se completó después de que la solicitud del usuario para el programa NVIDIA Inception fuera rechazada y los precios de la RTX Pro 6000 superaran su presupuesto.

media r/LocalLLaMA · hace 2 h

Probé qué modelo envía el mejor correo electrónico en formato HTML

Un usuario implementó recientemente la herramienta Mailcue, que incluye un servidor MCP para la gestión de correos electrónicos, y probó tres modelos específicos para determinar cuál genera los correos electrónicos en formato HTML más atractivos visualmente. Los modelos evaluados fueron google/gemma-4-26b-a4b-qat, qwen/qwen3.6-35b-a3b y qwen/qwen3.6-27b.

media r/LocalLLaMA · hace 3 h

Publicación de Reddit: 10x Kaioken SSJ1 de 4º grado, ¿vale la pena en 2026? ¿Puede ejecutar Qwen3.6?

Un usuario de Reddit publicó una imagen titulada "10x Kaioken SSJ1 de 4º grado, ¿vale la pena en 2026? ¿Puede ejecutar Qwen3.6?" en la comunidad r/LocalLLaMA. La publicación incluye un enlace a la imagen original y un enlace a la sección de comentarios para más discusión.

media r/LocalLLaMA · hace 3 h

Actualización del Benchmark US Ban: GPT-5.6 empata con Anthropic

El último modelo de OpenAI empata con Anthropic en el benchmark US Ban tras la preview de GPT-5.6.

media r/LocalLLaMA · hace 3 h

Koboldcpp v1.116 lanzado

El proyecto Koboldcpp ha lanzado la versión 1.116, según se anunció en el subreddit de LocalLLaMA y en el repositorio oficial de GitHub.

media r/LocalLLaMA · hace 3 h

Evaluación ciega de 55 LLM: El sesgo de calificación intra-familia es estadísticamente significativo

Una evaluación abierta que involucró a 55 modelos de 11 familias de desarrolladores reveló que los grandes modelos de lenguaje exhiben un sesgo de grupo estadísticamente significativo al calificarse mutuamente en ciego. A lo largo de 22,254 juicios válidos, cada familia con datos suficientes mostró una tendencia a calificar a sus propios miembros de manera diferente a la de otras familias.

media r/LocalLLaMA · hace 3 h

TokenPilot: Gestión de contexto eficiente en caché para agentes LLM

Una revisión matemática del análisis del espacio de formas en el aprendizaje automático

Un paradigma visual ciego para probar la transferencia de habilidades en modelos pequeños sin ajuste fino

ExpRL: Exploración de RL para LLM durante el entrenamiento intermedio

HAMON: Núcleo de Pronóstico Óptico Pasivo

KVEraser: Borrado localizado eficiente del contexto en LLMs

Ataques de puerta trasera en FL-DP: RING explota la privacidad para señales maliciosas

Fase en las representaciones neuronales: Una prueba interna de Oppenheim-Lim

HABC mejora el ajuste fino de RL en VLA con resultados dispersos

Modelo de Acción Geométrica para el Aprendizaje de Políticas Robóticas

Estimación exacta del puntaje posterior para problemas inversos lineales

Usuario construye un rig de LLM local al máximo con RTX Pro 5000 y Ryzen 9950X3D

Probé qué modelo envía el mejor correo electrónico en formato HTML

Publicación de Reddit: 10x Kaioken SSJ1 de 4º grado, ¿vale la pena en 2026? ¿Puede ejecutar Qwen3.6?

Actualización del Benchmark US Ban: GPT-5.6 empata con Anthropic

Koboldcpp v1.116 lanzado

Evaluación ciega de 55 LLM: El sesgo de calificación intra-familia es estadísticamente significativo

El usuario pregunta si vale la pena comprar 2x RX 9060xt 16GB para ejecutar Qwen 3.6 27B

Redacción completa de documentos con Qwen 3.6 27B y un agente Pi

claude_converter: Convierte sesiones de Claude Code en datos de ajuste fino