Todos los artículos
arxiv arXiv cs.LG · hace 3 h

Juegos de campo medio robustos estacionarios bajo desajustes del modelo

Este artículo introduce un marco de juego de campo medio estacionario que incorpora directamente la incertidumbre distribucional del modelo en la dinámica acoplada por población. Establece un principio de programación dinámica robusta, demuestra la existencia de un equilibrio robusto estacionario y presenta el primer algoritmo con garantías de convergencia. La solución de campo medio aproxima los equilibrios de poblaciones finitas y proporciona límites de error explícitos no asintóticos bajo incertidumbre del modelo.

arxiv arXiv cs.LG · hace 3 h

La Destilación On-Policy Ponderada por Importancia Aborda el Sesgo de Posición

La Destilación On-Policy (OPD) sufre de sesgo de posición donde los tokens posteriores proporcionan una supervisión deficiente. Introducimos la Destilación On-Policy Ponderada por Importancia (IW-OPD), que asigna pesos basados en la discrepancia de distribución, priorizando los tokens iniciales. IW-OPD converge más rápido y logra ganancias de rendimiento de hasta 6.9 puntos en AIME-2025.

arxiv arXiv cs.LG · hace 3 h

Modelos Bayesianos escalables para la detección de fulguraciones estelares

Un marco de sustitución generativo que utiliza un Autoencoder Variacional aproxima las priors de Procesos Gaussianos, evitando costosas operaciones de covarianza. La arquitectura VAE+Hidden Markov Model permite una detección rápida y escalable de fulguraciones estelares en grandes series temporales astronómicas, igualando a los modelos exactos en fidelidad estructural mientras reduce significativamente el tiempo computacional.

arxiv arXiv cs.LG · hace 3 h

Los modelos de lenguaje pequeños superan a los LLM de vanguardia en la extracción de relaciones

Un modelo Qwen2.5 de 0.5B parámetros ajustado finamente alcanza un micro-F1 de 0.83 en la extracción de relaciones de dominio general, superando a GPT-5.4 y Claude Sonnet 4.6 en modo zero-shot. En benchmarks literarios, alcanza 0.92 en el conjunto de datos Biográfico, superando a GPT-5.4 y excediendo a los modelos de vanguardia en precisión, demostrando que los modelos pequeños adaptados a la tarea pueden ofrecer un alto rendimiento con una sobrecarga mínima de hardware y privacidad.

arxiv arXiv cs.AI · hace 3 h

Programación en línea consciente de la geometría para el servicio de LLM

Un nuevo algoritmo de programación, Smallest Volume First (SVF), reduce la latencia de inferencia de LLM optimizando la gestión de la caché de claves y valores. El análisis teórico muestra una relación competitiva en el peor caso reducida de 48 a 5, con SVF de 1 bit logrando un rendimiento sólido utilizando información mínima. Las evaluaciones en modelos Llama-3.1 confirman mejoras tanto en la latencia promedio como en la latencia de cola, con el enfoque integrado en vLLM.

arxiv arXiv cs.AI · hace 3 h

BabelJudge: Midiendo la confiabilidad de LLM-as-a-Judge en múltiples idiomas y trayectorias de agentes

BabelJudge introduce un marco de código abierto para medir cuatro modos clave de sesgo en jueces LLM a través de idiomas y trayectorias de agentes. Revela una caída significativa en la confiabilidad del hindi al suajili: de 0.714 a 0.550, destacando una degradación intercultural invisible para la precisión bruta. El marco permite evaluaciones conscientes del sesgo sin etiquetas humanas, utilizando perturbaciones controladas para crear etiquetas doradas conocidas, y se extiende a flujos de trabajo agénticos con nuevas métricas sobre precisión de herramientas y detección de alucinaciones.

arxiv arXiv cs.AI · hace 3 h

RoboMME-Interference: Evaluación de la memoria del robot bajo interferencia

RoboMME-Interference introduce un benchmark transversal por sesión para evaluar la memoria del robot bajo interferencia. Añade sesiones no relacionadas a demostraciones previas, revelando que las variantes de memoria perceptual se degradan significativamente a medida que aumentan las distracciones, destacando la falta de robustez de los sistemas actuales ante la interferencia y la necesidad de memoria de contexto largo.

arxiv arXiv cs.AI · hace 3 h

Select-to-Act: RL jerárquico con guía de lenguaje adaptativa

HRLLI introduce un marco de aprendizaje por refuerzo jerárquico que adapta dinámicamente las instrucciones en lenguaje natural durante la toma de decisiones. Descompone las instrucciones en elementos de guía específicos para cada etapa y utiliza un paradigma select-to-act para permitir la selección en tiempo real de partes relevantes de la instrucción, mejorando la eficiencia de muestras y el rendimiento en entornos complejos.

arxiv arXiv cs.AI · hace 3 h

SAFER: Adaptación confiable en tiempo de prueba bajo flujos adversarios

SAFER es un marco sin entrenamiento que mejora la robustez de la adaptación en tiempo de prueba mediante aumentaciones guiadas por confiabilidad. Genera aumentaciones estocásticas, agrupa predicciones mediante agregación ponderada por correlación con detección de valores atípicos e incluye mezcla adaptativa para preservar el rendimiento limpio bajo ataques adversarios. Las evaluaciones en PACS, VLCS y OfficeHome muestran una resiliencia mejorada sin sacrificar la precisión limpia.

arxiv arXiv cs.AI · hace 3 h

Compromiso entre esparsidad, almacenamiento y precisión en el aprendizaje de diccionarios activados parsimoniosamente

El aprendizaje de diccionarios activados parsimoniosamente (PADL) establece un modelo generativo estructurado con variables latentes auxiliares, permitiendo la estimación del máximo a posteriori. Este marco proporciona garantías de generalización y una caracterización analítica del compromiso entre esparsidad, costo de almacenamiento y precisión de reconstrucción, lo que permite la estimación de hiperparámetros basada en datos. El algoritmo resultante logra un mejor rendimiento de reconstrucción y acelera la inferencia en modelos de visión e idioma.

arxiv arXiv cs.AI · hace 3 h

Divulgadores de primer token en Transformers: Identidad lingüística y robustez

LIHA revela un pequeño conjunto de cabezas divulgadoras de primer token en GPT-2 que persistentemente se atenúan al token inicial del prompt, impulsando cambios de idioma. El ajuste por instrucciones reorganiza estos circuitos, concentrando la identidad del idioma en las capas iniciales, como se observa en Qwen2.5-1.5B-Instruct y confirmado en el manejo de los idiomas chino y ruso en la capa 0.

arxiv arXiv cs.AI · hace 3 h

Limpieza de etiquetas asistida por LLM en conjunto de datos de TC torácico

Un modelo de lenguaje grande (LLM) ayudó a identificar discordancias entre etiquetas e informes en el conjunto de datos de TC torácico CT-RATE. GPT-5.4 logró un 96,4 % de acuerdo con las etiquetas existentes, y la adjudicación por radiólogos respaldó las etiquetas derivadas del LLM en el 74,2 % de las discordancias generales y en el 91,9 % de las de linfadenopatía. Las etiquetas basadas en mayoría de múltiples LLM superaron a otras en puntuación F1 y kappa, y el conjunto de datos limpiado se liberará públicamente.

arxiv arXiv cs.AI · hace 3 h

HyperAdapter: Adaptación de hiperaristas estructuradas para el ajuste fino de Vision Transformer

HyperAdapter introduce un adaptador basado en hipergrafos que realiza una adaptación estructurada y consciente de los grupos en vision transformers operando en el espacio de hiperaristas en lugar del espacio de tokens. Utiliza asignaciones basadas en prototipos para construir un hipergrafo suave, agrega las características de los tokens en representaciones de hiperarista, aplica una adaptación ligera y difunde las actualizaciones de vuelta a través de la estructura del hipergrafo, permitiendo un sesgo inductivo estructural explícito mientras mantiene la eficiencia. Los experimentos muestran ganancias de rendimiento consistentes sobre los métodos PEFT de referencia, especialmente en tareas que requieren razonamiento estructurado.

arxiv arXiv cs.AI · hace 3 h

MetaPS: Selección adaptativa de estrategias para agentes de mercado

MetaPS es un marco guiado por simulaciones que permite a los agentes de mercado seleccionar de forma adaptativa entre estrategias programáticas basadas en estados del mercado. Utiliza mercados simulados para generar datos de entrenamiento supervisados, luego selecciona estrategias durante la inferencia para producir acciones ejecutables. Los experimentos muestran que MetaPS supera a las estrategias fijas y a los agentes basados en LLM, con modelos compactos que superan en rendimiento a modelos de API más potentes.

arxiv arXiv cs.AI · hace 3 h

PlanBench-XL: Benchmark para la planificación de uso de herramientas a largo plazo

PlanBench-XL evalúa la planificación a largo plazo en agentes LLM a través de 1,665 herramientas mediante 327 tareas minoristas. Introduce un mecanismo de bloqueo para simular fallos de herramientas del mundo real, revelando que agentes como GPT-5.4 caen de 51.90% a 11.36% de precisión bajo interrupciones severas, destacando vulnerabilidades en la recuperación y el manejo de errores.

arxiv arXiv cs.AI · hace 3 h

El marco P4IR mejora la precisión del cumplimiento de código basado en LLM

P4IR, un marco de dos etapas, utiliza ajuste fino supervisado y Optimización de Política Relativa de Grupo para mejorar los sistemas automatizados de cumplimiento de código basados en modelos de lenguaje grandes. Reduce las distancias de Levenshtein a nivel de árbol y de token hasta en un 23,8% y un 38,6%, respectivamente, superando a LLMs líderes como Claude Opus, GPT-5.2 y GLM-4.7 en configuraciones zero-shot con prompting few-shot, y reduce los falsos positivos en un margen pequeño pero estadísticamente significativo.