Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 107

Juegos de campo medio robustos estacionarios bajo desajustes del modelo

Este artículo introduce un marco de juego de campo medio estacionario que incorpora directamente la incertidumbre distribucional del modelo en la dinámica acoplada por población. Establece un principio de programación dinámica robusta, demuestra la existencia de un equilibrio robusto estacionario y presenta el primer algoritmo con garantías de convergencia. La solución de campo medio aproxima los equilibrios de poblaciones finitas y proporciona límites de error explícitos no asintóticos bajo incertidumbre del modelo.

arxiv arXiv cs.LG · hace 3 h

Clasificación de tareas sin entrenamiento para la fusión de modelos multi-tarea

SiM permite el enrutamiento dinámico en la fusión de modelos multi-tarea sin entrenamiento adicional ni acceso a IDs de tarea. Utiliza aproximaciones basadas en SVD y proyecta las entradas de prueba sobre variedades de tareas precalculadas para enrutar las entradas a los expertos relevantes, mejorando el rendimiento y reduciendo la brecha con los niveles de expertos individuales.

arxiv arXiv cs.LG · hace 3 h

La Destilación On-Policy Ponderada por Importancia Aborda el Sesgo de Posición

La Destilación On-Policy (OPD) sufre de sesgo de posición donde los tokens posteriores proporcionan una supervisión deficiente. Introducimos la Destilación On-Policy Ponderada por Importancia (IW-OPD), que asigna pesos basados en la discrepancia de distribución, priorizando los tokens iniciales. IW-OPD converge más rápido y logra ganancias de rendimiento de hasta 6.9 puntos en AIME-2025.

arxiv arXiv cs.LG · hace 3 h

Modelos Bayesianos escalables para la detección de fulguraciones estelares

Un marco de sustitución generativo que utiliza un Autoencoder Variacional aproxima las priors de Procesos Gaussianos, evitando costosas operaciones de covarianza. La arquitectura VAE+Hidden Markov Model permite una detección rápida y escalable de fulguraciones estelares en grandes series temporales astronómicas, igualando a los modelos exactos en fidelidad estructural mientras reduce significativamente el tiempo computacional.

arxiv arXiv cs.LG · hace 3 h

Los modelos de lenguaje pequeños superan a los LLM de vanguardia en la extracción de relaciones

Un modelo Qwen2.5 de 0.5B parámetros ajustado finamente alcanza un micro-F1 de 0.83 en la extracción de relaciones de dominio general, superando a GPT-5.4 y Claude Sonnet 4.6 en modo zero-shot. En benchmarks literarios, alcanza 0.92 en el conjunto de datos Biográfico, superando a GPT-5.4 y excediendo a los modelos de vanguardia en precisión, demostrando que los modelos pequeños adaptados a la tarea pueden ofrecer un alto rendimiento con una sobrecarga mínima de hardware y privacidad.

Juegos de campo medio robustos estacionarios bajo desajustes del modelo

Clasificación de tareas sin entrenamiento para la fusión de modelos multi-tarea

La Destilación On-Policy Ponderada por Importancia Aborda el Sesgo de Posición

Modelos Bayesianos escalables para la detección de fulguraciones estelares

Los modelos de lenguaje pequeños superan a los LLM de vanguardia en la extracción de relaciones

Programación en línea consciente de la geometría para el servicio de LLM

BabelJudge: Midiendo la confiabilidad de LLM-as-a-Judge en múltiples idiomas y trayectorias de agentes

Optimización de habilidades impulsada por hipótesis para agentes LLM

RoboMME-Interference: Evaluación de la memoria del robot bajo interferencia

Select-to-Act: RL jerárquico con guía de lenguaje adaptativa

SAFER: Adaptación confiable en tiempo de prueba bajo flujos adversarios

Compromiso entre esparsidad, almacenamiento y precisión en el aprendizaje de diccionarios activados parsimoniosamente

Divulgadores de primer token en Transformers: Identidad lingüística y robustez

Evaluación libre de referencias de la consistencia física en la generación de video

ARIA: Un marco consciente de causalidad para rescatar el razonamiento de LLM

Limpieza de etiquetas asistida por LLM en conjunto de datos de TC torácico

HyperAdapter: Adaptación de hiperaristas estructuradas para el ajuste fino de Vision Transformer

MetaPS: Selección adaptativa de estrategias para agentes de mercado

PlanBench-XL: Benchmark para la planificación de uso de herramientas a largo plazo

El marco P4IR mejora la precisión del cumplimiento de código basado en LLM