Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 97

El ajuste de prueba y refinamiento mejora el rendimiento de los agentes de codificación

Un nuevo método llamado ajuste de prueba y refinamiento utiliza sondas sintéticas de corrección de errores para mejorar iterativamente los archivos de guía del repositorio con llamadas LLM de un solo disparo, sin bucles de agente ni uso de herramientas. En SWE-bench Verified, alcanza una tasa media de resolución del 33,0 % —14,5 puntos porcentuales más alta que la base de conocimientos estática inicial—, lo que muestra una cobertura mejorada en lugar de una precisión de parche. El método permite a los agentes utilizar presupuestos de pasos más grandes de manera efectiva, y el rendimiento se mantiene estable entre modelos cuando la salida diagnóstica es suficiente.

arxiv arXiv cs.LG · hace 2 h

Corredor de Ejecución Soberana para Control Agéntico Vinculado a Certificados

El Corredor de Ejecución Soberana (SEB) introduce un límite de aplicación en tiempo de ejecución que verifica y ejecuta la autoridad certificada en sistemas agénticos. Garantiza que la autoridad de mutación en producción esté aislada del razonamiento no determinista mediante la validación de contratos de ejecución, ventanas de validez y estados de revocación antes de invocar las APIs de infraestructura. El prototipo demuestra una ejecución segura y auditable en AWS y Kubernetes con latencia medible y resiliencia ante fallos.

arxiv arXiv cs.LG · hace 2 h

Cápsulas de estado de ejecución para inferencia de IA en dispositivo con baja latencia

Las cápsulas de estado de ejecución permiten la verificación y restauración de puntos de control vinculados al gráfico del estado completo de ejecución, incluidos los estados KV, recurrentes y de convolución, para la inferencia de IA en dispositivo con baja latencia y lotes pequeños. En RTX 5090 y Jetson AGX Thor, la restauración de cápsulas logra una corrección exacta a nivel de bytes e idéntica a nivel de tokens, con operaciones de GPU de submilisegundo y aceleraciones de TTFT hasta 27x en 16k tokens, demostrando una reducción significativa de latencia en flujos de trabajo de IA interactivos.

arxiv arXiv cs.LG · hace 2 h

Marco de Aprendizaje In-Contexto Bayesiano Multi-Tarea

Un nuevo marco de aprendizaje in-contexto multi-tarea permite inferencia bayesiana jerárquica amortizada representando la información previa como un prefijo en los conjuntos de datos. El modelo transformer adapta las predicciones entre familias previas, igualando el rendimiento óptimo en diversas tareas mientras es significativamente más rápido. Se valida en la predicción de temperatura espaciotemporal del mundo real.

arxiv arXiv cs.LG · hace 2 h

Calibración en modelos MoE bajo cambio de distribución

Este artículo examina cómo los modelos de mezcla de expertos mantienen la calibración bajo cambio de distribución. Encuentra que la calibración a nivel de experto garantiza la calibración general del modelo en modelos con enrutamiento duro, pero es insuficiente para modelos con enrutamiento blando. Los autores proponen reponderación adversarial para penalizar los errores de calibración en los agregados enrutados, mejorando el equilibrio entre precisión y calibración a través de tareas y cambios.

arxiv arXiv cs.LG · hace 2 h

La previsibilidad como medida de gran detalle para la privacidad

La privacidad mediante la previsibilidad introduce un marco que mide la filtración de privacidad como la capacidad incremental del atacante para predecir información sensible después de observar la salida del algoritmo. Generalmente es incomparable con la privacidad diferencial, pero implica DP de información mutua bajo condiciones específicas, ofreciendo una métrica de privacidad de gran detalle adaptada a los modelos de atacante y datos sensibles.

arxiv arXiv cs.LG · hace 2 h

Atención de Álgebra de Lie: Tokens de Elementos de Grupo en Redes Neuronales

La Atención de Álgebra de Lie introduce tokens de atención como elementos del grupo de Lie matricial, utilizando la norma algebraica en forma cerrada de las poses relativas como puntuaciones de atención. Este método logra atención invariante y equivariante sin componentes teóricos de representación, superando a las líneas base de tokens vectoriales en SE(2), SO(3) y Aff(2) con menos parámetros y sin núcleos aprendidos.

arxiv arXiv cs.LG · hace 2 h

Multicalibración determinista con complejidad de muestra óptima

Un nuevo algoritmo alcanza la complejidad de muestra minimax-óptima para multicalibración utilizando predictores deterministas, resolviendo un problema abierto de larga data. El método también produce predictores deterministas que satisfacen la indistinguibilidad de resultados y permite omnipredictores y panpredictores deterministas óptimos, abordando preguntas abiertas de trabajos previos.

arxiv arXiv cs.LG · hace 2 h

UNIEGO: Representación egocéntrica unificada mediada por proxy

UNIEGO introduce un marco de destilación jerárquica multi-profesor que utiliza modelos proxy para mediar la transferencia de conocimiento desde nueve profesores diversos en puntos de vista y modalidades. La etapa de Destilación de Proxy Selectiva (SPD) selecciona adaptativamente proxies confiables durante el entrenamiento, mejorando la calidad y estabilidad de la representación. UNIEGO logra resultados de vanguardia en reconocimiento de acciones, recuperación de video y segmentación de acción en benchmarks ego-exo.

arxiv arXiv cs.LG · hace 2 h

¿Qué tan transparente es DiffusionGemma?

DiffusionGemma tiene una transparencia de variables deficiente debido a su alta profundidad serial opaca, pero esto puede mitigarse mediante un cuello de botella de tokens interpretable, reduciendo la profundidad serial a 1.1X la de Gemma 4. La transparencia algorítmica es más desafiante en los modelos de difusión debido a los cambios dinámicos de tokens, aunque los estudios de caso revelan fenómenos novedosos como el razonamiento no cronológico y el razonamiento con contexto intermedio. Se encuentra que DiffusionGemma es monitoreable de manera similar a Gemma 4.

arxiv arXiv cs.AI · hace 2 h

Agente Economista de IA: Marco de Análisis Económico Basado en Modelos

El Agente Economista de IA utiliza RAG, grafos de conocimiento y LLMs para generar narrativas económicas fundamentadas en teoría y datos. Permite análisis basado en modelos, recuperación de evidencia y generación de informes, asegurando coherencia económica y trazabilidad a través de cálculos explícitos del modelo.

arxiv arXiv cs.AI · hace 2 h

See-and-Reach: Navegación de visión-lenguaje para UAVs en el campo de visión

UAV-VLN-FOV aísla la etapa de ver-y-alcanzar para una evaluación precisa de la navegación de UAV. 3DG-VLN mejora la fundamentación visual y la alineación espacial utilizando pistas de dirección 3D dinámicas, logrando una mejora del 13.82% en la tasa de éxito sobre las líneas base y validado en pruebas del mundo real.

arxiv arXiv cs.AI · hace 2 h

El Administrador de Tareas Reduce la Latencia de Cola en un 14-75% a Escala Empresarial

Un Administrador de Tareas introduce inferencia de prioridad, fusión de eventos relacionados y preempción para habilitar la operación continua en IA empresarial. Reduce la latencia de colas de alta prioridad entre un 14-77% y mejora la corrección de eventos relacionados en más de 20 puntos porcentuales a escala empresarial, abordando el ruido del descubrimiento de agentes como el principal cuello de botella.

github llama.cpp · hace 2 h

la versión b9831 de llama.cpp añade soporte para DFlash y nuevos binarios

La versión b9831 de llama.cpp introduce soporte para DFlash v2, incluyendo atención de ventana deslizante por tipo de capa, junto con un conjunto completo de binarios precompilados para múltiples plataformas.

arxiv arXiv cs.AI · hace 2 h

Lean como Oráculo de Recompensa Verificado por Proceso en RL para Demostración de Teoremas

Este trabajo muestra que Lean puede servir como un oráculo simbólico de proceso, proporcionando retroalimentación fina y verificada durante el aprendizaje por refuerzo. Al analizar los intentos de demostración en secuencias de tácticas y usar la elaboración de Lean para marcar pasos válidos y primeros fallos, el sistema genera señales de recompensa densas basadas en teoría de tipos. Los experimentos demuestran que la supervisión a nivel de táctica supera a los métodos solo de resultado en benchmarks como MiniF2F y ProofNet, destacando el papel de Lean tanto como evaluador como fuente de recompensa de entrenamiento.

arxiv arXiv cs.AI · hace 2 h

Fusión global aprendible para tokenización de longitud variable en Transformers de difusión

Un nuevo tokenizador de longitud variable utiliza fusión global aprendible para permitir la alineación de representaciones entre longitudes en modelos de difusión. Este enfoque independiente de los datos supera la semántica dependiente de la posición y mejora el equilibrio entre calidad y costo computacional en la generación de ImageNet 256×256 en comparación con métodos anteriores.

arxiv arXiv cs.AI · hace 2 h

Evolución oculta del contexto visual disfrazado en VLMs

Los tokens visuales ingresan a los modelos de lenguaje grandes como señales crudas y no estructuradas. Su transformación e integración internas dependen de la arquitectura, ya sea como prompts in-context o inyectados en capas intermedias, lo que conduce a distintas trayectorias evolutivas en la representación visual y las características de frecuencia. Encontramos que la atención por sí sola es insuficiente; el rendimiento está impulsado por la calidad de las representaciones visuales en cada capa a través de diferentes paradigmas de integración.

arxiv arXiv cs.AI · hace 2 h

Optimización evolutiva en el espacio residual mediante modelos generativos basados en flujos

Un marco agnóstico al modelo combina la edición generativa basada en flujos con algoritmos evolutivos para habilitar la edición de datos en entornos no diferenciables. Opera en el espacio residual, utilizando autofecundación para el refinamiento local y fecundación cruzada para la exploración amplia, validado en MorphoMNIST y datos cristalinos para equilibrar la alineación con el objetivo, la preservación de instancias y la diversidad.

arxiv arXiv cs.AI · hace 2 h

SAC basado en atención para la predicción de porosidad en fabricación aditiva

Un extractor de características con atención multi-cabeza integrado con Soft Actor-Critic mejora la predicción de porosidad y la optimización de parámetros del proceso en fusión por lecho de polvo láser. El método alcanza un valor de convergencia de 322.79 en 14 episodios, superando a DQN, PPO, TD3 y SAC estándar con una convergencia más rápida y mayor estabilidad.

arxiv arXiv cs.AI · hace 2 h

IHUBERT: Modelo preentrenado en persa con deduplicación semántica

IHUBERT es un modelo de lenguaje preentrenado monolingüe en persa, entrenado sobre un subconjunto curado de 45 GB de la colección Sepahr-Danesh. Utiliza deduplicación semántica basada en vectores y una canalización de preentrenamiento equilibrada por dominio para mejorar la calidad del corpus y reducir la redundancia, logrando un rendimiento destacado en respuesta a preguntas extractivas y resultados sólidos en NER y clasificación de temas, aunque la extracción de relaciones sigue siendo un desafío.