Todos los artículos
arxiv arXiv cs.AI · hace 2 h

Text2DSL: Generación de código basada en LLM para lenguajes específicos del dominio

Este artículo presenta Text2DSL, una tarea distintiva de generación de código de lenguajes específicos del dominio a partir de lenguaje natural. Utilizando el conjunto de datos PolkitBench con 4,204 pares validados, muestra que el contexto estructurado —como gramáticas BNF y especificaciones de API— mejora la validez sintáctica y estructural, así como las puntuaciones CodeBLEU en un 60% a 95% en diferentes modelos LLM, sin ajuste fino.

arxiv arXiv cs.AI · hace 2 h

La Destilación On-Policy Ponderada por Importancia Aborda el Sesgo de Posición

La Destilación On-Policy (OPD) sufre de sesgo de posición donde los tokens posteriores proporcionan una supervisión deficiente. La OPD ponderada por importancia (IW-OPD) asigna pesos dinámicos basados en la discrepancia de distribución, priorizando los tokens iniciales y suprimiendo los tardíos. IW-OPD converge más rápido y logra ganancias de rendimiento de hasta 6.9 puntos en AIME-2025 en comparación con OPD estándar.

arxiv arXiv cs.AI · hace 2 h

PaperClaw: Investigación autónoma con refinamiento humano en el bucle

PaperClaw es un sistema multiagente que realiza investigación de forma autónoma, desde la selección del campo hasta la publicación del artículo. Utiliza un ciclo propuesto-validado de propuesta-prueba-reflexión, basado en referencias reales y resultados ejecutables, y admite refinamiento humano en el bucle en cualquier etapa. La evaluación muestra que produce artículos sólidos tanto de forma autónoma como con supervisión humana.

arxiv arXiv cs.LG · hace 2 h

Preentrenamiento sin recompensas para aprendizaje por refuerzo mediante maximización de cobertura de ocupación

ROVER permite el preentrenamiento sin recompensas maximizando la cobertura de ocupación en el espacio de estados, utilizando un modelo del mundo aprendido para estimar la ocupación sin necesidad de estimación de densidad o entropía. Introduce un estado sumidero virtual para equilibrar la exploración de regiones conocidas y desconocidas, logrando una cobertura más uniforme y un mejor rendimiento en tareas posteriores de navegación tabular y basada en píxeles.

arxiv arXiv cs.LG · hace 2 h

TeaNet mejora el aprendizaje con pocos ejemplos en espectroscopía vibracional

TeaNet, una red de aumento mejorada por tareas, reconstruye espectros enmascarados aleatoriamente para generar muestras aumentadas que preservan las características espectrales originales mientras introducen variaciones específicas del dominio. Este enfoque permite a las redes neuronales profundas identificar números de onda discriminantes de manera más efectiva, superando a las CNN en un 17% en escenarios sintéticos desafiantes y ofreciendo una interpretabilidad mejorada en tareas de aprendizaje con pocos ejemplos.

arxiv arXiv cs.LG · hace 2 h

NASDAQ: Dinámica del Espacio de Observación Normalizado con Q-Learning Aumentado

NASDAQ aborda los desafíos de observación de baja dimensión en el aprendizaje por refuerzo al normalizar los espacios de observación para equilibrar las pérdidas de reconstrucción. Integra el aprendizaje de valores con el valor a corto plazo y la predicción de la siguiente observación, logrando un rendimiento competitivo o superior con menos tiempo de entrenamiento en diversos dominios.

arxiv arXiv cs.LG · hace 2 h

TASER: Expansión de Habilidades Diferenciadas por Tarea para Aprendizaje Continuo Heterogéneo

TASER introduce un marco que expande y enruta dinámicamente habilidades atómicas para el aprendizaje continuo a través de tareas altamente heterogéneas. Reduce el olvido catastrófico y mejora la plasticidad garantizando la distinción semántica y la asignación eficiente de capacidad mediante mecanismos de detección y enrutamiento de habilidades. Evaluado en HeteroCLBench, un benchmark con 19 tareas diversas a lo largo de 9 dimensiones cognitivas, TASER supera a las líneas base existentes.

arxiv arXiv cs.LG · hace 2 h

Diagnósticos para la selección de políticas en MORL

Proponemos un flujo de trabajo diagnóstico para revelar variación conductual en políticas de aprendizaje por refuerzo multiobjetivo. El método destaca diferencias en las trayectorias de las políticas más allá de los retornos esperados, ofreciendo herramientas cuantitativas y visuales para la inspección de políticas. Validado en mundos de cuadrícula y escalado a tareas de control continuo, captura eficazmente la diversidad conductual bajo complejidad creciente.

arxiv arXiv cs.LG · hace 3 h

MedTS-TTT: Entrenamiento en tiempo de prueba para series temporales médicas

MedTS-TTT introduce un marco de entrenamiento en tiempo de prueba para la clasificación de series temporales médicas. Basado en CLSA-TTT y una columna vertebral de convolución con compuertas, permite una adaptación rápida en un solo paso sin optimización iterativa. En cuatro conjuntos de datos públicos, alcanza 11 primeros puestos entre 12 evaluaciones a través de nueve líneas base y tres métricas.

arxiv arXiv cs.LG · hace 3 h

Computación de reservorio para procesamiento de señales de audio sin características

Este artículo explora la Computación de Reservorio como un método libre de características para la clasificación de señales de audio en bruto. Muestra que las arquitecturas paralelas de reservorio profundo superan a las superficiales y secuenciales en precisión mientras mantienen baja complejidad, permitiendo un procesamiento de audio eficiente y de bajo consumo con mínima preprocesamiento.

arxiv arXiv cs.LG · hace 3 h

DataClaw0: Adaptación agéntica de datos multimodales a partir de flujos en bruto

DataClaw0 introduce un paradigma agéntico para refinar activamente los datos multimodales en bruto con el fin de alinearse con las intenciones del usuario y de las tareas posteriores. Utiliza una canalización en dos etapas basada en anclajes factuales para generar un conjunto de datos a gran escala en cinco dominios, y combina el ajuste fino supervisado con GRPO para lograr una fuerte alineación con tareas de refinamiento complejas. Evaluado en generación de video, VQA y navegación por GUI, DataClaw0 produce datos adaptados de alta densidad de información, lo que permite una adaptación eficiente del modelo con mínimos datos de entrenamiento.

arxiv arXiv cs.LG · hace 3 h

Los modelos de Transformer son altamente sensibles a datos ruidosos en la predicción de trayectorias

Un estudio descubre que los modelos de predicción de trayectorias basados en Transformer se degradan significativamente con datos de estado de objetos ruidosos. La precisión disminuye 1.3x bajo ruido leve y hasta 3.9x bajo condiciones de alto ruido realistas, destacando la sensibilidad de los modelos y la necesidad de datos de entrenamiento más ruidosos del mundo real y estrategias de mitigación.

arxiv arXiv cs.LG · hace 3 h

Interpretación de Árboles de Comportamiento Temporales mediante Redes de Petri con Recompensas

Este artículo presenta una interpretación de Árboles de Comportamiento Temporales (TBT) mediante Redes de Petri con recompensas para el aprendizaje por refuerzo. Traduce los TBTs a Redes de Petri, asignando recompensas basadas en restricciones estructurales definidas en Lógica Temporal Lineal, lo que permite un aprendizaje efectivo en tareas robóticas complejas y de largo plazo donde el RL estándar falla.

arxiv arXiv cs.LG · hace 3 h

Marco de Datos Abiertos Identifica la Topología de la Red Eléctrica Urbana

Un nuevo marco utiliza datos de infraestructura pública y OpenStreetMap para reconstruir la topología de la red eléctrica urbana, desde las conexiones de transmisión hasta el nivel de los edificios. Mapea con éxito la red para 7,330 edificios en el distrito Alna de Oslo, permitiendo un análisis detallado del sistema eléctrico, como la optimización del flujo y estudios de resiliencia.