Todos los artículos
arxiv arXiv cs.AI · hace 2 h

BabelJudge: Midiendo la confiabilidad de LLM-as-a-Judge en múltiples idiomas y trayectorias de agentes

BabelJudge introduce un marco de código abierto para medir cuatro modos clave de sesgo en jueces LLM a través de idiomas y trayectorias de agentes. Revela una caída significativa en la confiabilidad del hindi al suajili: de 0.714 a 0.550, destacando una degradación intercultural invisible para la precisión bruta. El marco permite evaluaciones conscientes del sesgo sin etiquetas humanas, utilizando perturbaciones controladas para crear etiquetas doradas conocidas, y se extiende a flujos de trabajo agénticos con nuevas métricas sobre precisión de herramientas y detección de alucinaciones.

arxiv arXiv cs.AI · hace 2 h

RoboMME-Interference: Evaluación de la memoria del robot bajo interferencia

RoboMME-Interference introduce un benchmark transversal por sesión para evaluar la memoria del robot bajo interferencia. Añade sesiones no relacionadas a demostraciones previas, revelando que las variantes de memoria perceptual se degradan significativamente a medida que aumentan las distracciones, destacando la falta de robustez de los sistemas actuales ante la interferencia y la necesidad de memoria de contexto largo.

arxiv arXiv cs.AI · hace 2 h

Select-to-Act: RL jerárquico con guía de lenguaje adaptativa

HRLLI introduce un marco de aprendizaje por refuerzo jerárquico que adapta dinámicamente las instrucciones en lenguaje natural durante la toma de decisiones. Descompone las instrucciones en elementos de guía específicos para cada etapa y utiliza un paradigma select-to-act para permitir la selección en tiempo real de partes relevantes de la instrucción, mejorando la eficiencia de muestras y el rendimiento en entornos complejos.

arxiv arXiv cs.AI · hace 2 h

SAFER: Adaptación confiable en tiempo de prueba bajo flujos adversarios

SAFER es un marco sin entrenamiento que mejora la robustez de la adaptación en tiempo de prueba mediante aumentaciones guiadas por confiabilidad. Genera aumentaciones estocásticas, agrupa predicciones mediante agregación ponderada por correlación con detección de valores atípicos e incluye mezcla adaptativa para preservar el rendimiento limpio bajo ataques adversarios. Las evaluaciones en PACS, VLCS y OfficeHome muestran una resiliencia mejorada sin sacrificar la precisión limpia.

arxiv arXiv cs.AI · hace 2 h

Compromiso entre esparsidad, almacenamiento y precisión en el aprendizaje de diccionarios activados parsimoniosamente

El aprendizaje de diccionarios activados parsimoniosamente (PADL) establece un modelo generativo estructurado con variables latentes auxiliares, permitiendo la estimación del máximo a posteriori. Este marco proporciona garantías de generalización y una caracterización analítica del compromiso entre esparsidad, costo de almacenamiento y precisión de reconstrucción, lo que permite la estimación de hiperparámetros basada en datos. El algoritmo resultante logra un mejor rendimiento de reconstrucción y acelera la inferencia en modelos de visión e idioma.

arxiv arXiv cs.AI · hace 2 h

Divulgadores de primer token en Transformers: Identidad lingüística y robustez

LIHA revela un pequeño conjunto de cabezas divulgadoras de primer token en GPT-2 que persistentemente se atenúan al token inicial del prompt, impulsando cambios de idioma. El ajuste por instrucciones reorganiza estos circuitos, concentrando la identidad del idioma en las capas iniciales, como se observa en Qwen2.5-1.5B-Instruct y confirmado en el manejo de los idiomas chino y ruso en la capa 0.

arxiv arXiv cs.AI · hace 2 h

Limpieza de etiquetas asistida por LLM en conjunto de datos de TC torácico

Un modelo de lenguaje grande (LLM) ayudó a identificar discordancias entre etiquetas e informes en el conjunto de datos de TC torácico CT-RATE. GPT-5.4 logró un 96,4 % de acuerdo con las etiquetas existentes, y la adjudicación por radiólogos respaldó las etiquetas derivadas del LLM en el 74,2 % de las discordancias generales y en el 91,9 % de las de linfadenopatía. Las etiquetas basadas en mayoría de múltiples LLM superaron a otras en puntuación F1 y kappa, y el conjunto de datos limpiado se liberará públicamente.

arxiv arXiv cs.AI · hace 2 h

HyperAdapter: Adaptación de hiperaristas estructuradas para el ajuste fino de Vision Transformer

HyperAdapter introduce un adaptador basado en hipergrafos que realiza una adaptación estructurada y consciente de los grupos en vision transformers operando en el espacio de hiperaristas en lugar del espacio de tokens. Utiliza asignaciones basadas en prototipos para construir un hipergrafo suave, agrega las características de los tokens en representaciones de hiperarista, aplica una adaptación ligera y difunde las actualizaciones de vuelta a través de la estructura del hipergrafo, permitiendo un sesgo inductivo estructural explícito mientras mantiene la eficiencia. Los experimentos muestran ganancias de rendimiento consistentes sobre los métodos PEFT de referencia, especialmente en tareas que requieren razonamiento estructurado.

arxiv arXiv cs.AI · hace 2 h

MetaPS: Selección adaptativa de estrategias para agentes de mercado

MetaPS es un marco guiado por simulaciones que permite a los agentes de mercado seleccionar de forma adaptativa entre estrategias programáticas basadas en estados del mercado. Utiliza mercados simulados para generar datos de entrenamiento supervisados, luego selecciona estrategias durante la inferencia para producir acciones ejecutables. Los experimentos muestran que MetaPS supera a las estrategias fijas y a los agentes basados en LLM, con modelos compactos que superan en rendimiento a modelos de API más potentes.

arxiv arXiv cs.AI · hace 2 h

PlanBench-XL: Benchmark para la planificación de uso de herramientas a largo plazo

PlanBench-XL evalúa la planificación a largo plazo en agentes LLM a través de 1,665 herramientas mediante 327 tareas minoristas. Introduce un mecanismo de bloqueo para simular fallos de herramientas del mundo real, revelando que agentes como GPT-5.4 caen de 51.90% a 11.36% de precisión bajo interrupciones severas, destacando vulnerabilidades en la recuperación y el manejo de errores.

arxiv arXiv cs.AI · hace 2 h

El marco P4IR mejora la precisión del cumplimiento de código basado en LLM

P4IR, un marco de dos etapas, utiliza ajuste fino supervisado y Optimización de Política Relativa de Grupo para mejorar los sistemas automatizados de cumplimiento de código basados en modelos de lenguaje grandes. Reduce las distancias de Levenshtein a nivel de árbol y de token hasta en un 23,8% y un 38,6%, respectivamente, superando a LLMs líderes como Claude Opus, GPT-5.2 y GLM-4.7 en configuraciones zero-shot con prompting few-shot, y reduce los falsos positivos en un margen pequeño pero estadísticamente significativo.

arxiv arXiv cs.AI · hace 2 h

Gold Points Sniper: Razonamiento visual autoguiado para la comprensión de acciones finas

Gold Points Sniper (GPS) permite a los modelos ligeros de visión y lenguaje realizar razonamiento multimodal autoguiado para la comprensión de acciones humanas finas. Al integrar un Extractor de Puntos Dorados, un Cuestionador Socrático Selectivo y un Evaluador de Entailment Semántico, GPS alcanza un rendimiento comparable al de GPT-4o mientras mantiene una precisión factual superior en datos de ajuste por instrucciones basados en el benchmark CAP.

arxiv arXiv cs.AI · hace 2 h

SciVerseGym: Entorno de aprendizaje por refuerzo para el descubrimiento de cristales

SciVerseGym introduce un entorno compatible con Gymnasium que enmarca el descubrimiento de cristales como un proceso de decisión de Markov. Permite a los agentes realizar ediciones químicamente significativas en estructuras atómicas y recibir retroalimentación de evaluadores configurables, apoyando diversas acciones y tipos de observación con potenciales aprendidos por máquina o calculadoras compatibles con ASE.

arxiv arXiv cs.AI · hace 2 h

Los LLMs usan lógica de causalidad diferencial para aprender la estructura causal

Los modelos de lenguaje grandes aprenden la estructura causal a través de una lógica de causalidad diferencial, similar al método experimental. Este enfoque identifica qué secuencias de palabras influyen en los resultados y cuáles no, utilizando grandes volúmenes de datos de texto durante el entrenamiento. Características arquitecturales como las incrustaciones de tokens y la autoatención apoyan este proceso inductivo al detectar patrones de variación e indiferencia en el lenguaje.

arxiv arXiv cs.AI · hace 2 h

MMGist: Un Benchmark Multimodal Integral para 2027

MMGist es un benchmark multimodal curado con 7.262 elementos, diseñado para abordar las deficiencias de los benchmarks existentes de visión-lenguaje. Reduce el tamaño de la evaluación en un 69% y mejora la discriminación entre modelos en un 78%, mientras preserva el ranking de los modelos con una correlación de Spearman de 0,98. El benchmark destaca la lógica visual como una debilidad clave y enfatiza la importancia de la dependencia visual, el poder discriminatorio y la fiabilidad en la evaluación.