Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 105

Text2DSL: Generación de código basada en LLM para lenguajes específicos del dominio

Este artículo presenta Text2DSL, una tarea distintiva de generación de código de lenguajes específicos del dominio a partir de lenguaje natural. Utilizando el conjunto de datos PolkitBench con 4,204 pares validados, muestra que el contexto estructurado —como gramáticas BNF y especificaciones de API— mejora la validez sintáctica y estructural, así como las puntuaciones CodeBLEU en un 60% a 95% en diferentes modelos LLM, sin ajuste fino.

arxiv arXiv cs.AI · hace 2 h

La Destilación On-Policy Ponderada por Importancia Aborda el Sesgo de Posición

La Destilación On-Policy (OPD) sufre de sesgo de posición donde los tokens posteriores proporcionan una supervisión deficiente. La OPD ponderada por importancia (IW-OPD) asigna pesos dinámicos basados en la discrepancia de distribución, priorizando los tokens iniciales y suprimiendo los tardíos. IW-OPD converge más rápido y logra ganancias de rendimiento de hasta 6.9 puntos en AIME-2025 en comparación con OPD estándar.

arxiv arXiv cs.AI · hace 2 h

PaperClaw: Investigación autónoma con refinamiento humano en el bucle

PaperClaw es un sistema multiagente que realiza investigación de forma autónoma, desde la selección del campo hasta la publicación del artículo. Utiliza un ciclo propuesto-validado de propuesta-prueba-reflexión, basado en referencias reales y resultados ejecutables, y admite refinamiento humano en el bucle en cualquier etapa. La evaluación muestra que produce artículos sólidos tanto de forma autónoma como con supervisión humana.

media Interconnects · hace 2 h

Artefactos 22: Zyphra, Cohere y Poolside están ampliando la amplitud del ecosistema

El panorama de los modelos de IA abierta se está volviendo cada vez más diverso, pasando de la dominación por unos pocos actores chinos a una mezcla más amplia de organizaciones que incluyen iniciativas de IA soberana, Big Tech y empresas de productos.

arxiv arXiv cs.LG · hace 2 h

Muestreo óptimo en RKHS para aprendizaje supervisado

Este artículo propone un esquema de muestreo óptimo en espacios de Hilbert con núcleo reproductor, basado en el análisis asintótico de un minimizador del riesgo empírico con reponderación de Horvitz-Thompson. El esquema, derivado a través de la traza del operador de covarianza, se muestra implementable mediante plug-in y funciona bien en conjuntos de datos sintéticos y del mundo real.

arxiv arXiv cs.LG · hace 2 h

Preentrenamiento sin recompensas para aprendizaje por refuerzo mediante maximización de cobertura de ocupación

ROVER permite el preentrenamiento sin recompensas maximizando la cobertura de ocupación en el espacio de estados, utilizando un modelo del mundo aprendido para estimar la ocupación sin necesidad de estimación de densidad o entropía. Introduce un estado sumidero virtual para equilibrar la exploración de regiones conocidas y desconocidas, logrando una cobertura más uniforme y un mejor rendimiento en tareas posteriores de navegación tabular y basada en píxeles.

arxiv arXiv cs.LG · hace 2 h

TeaNet mejora el aprendizaje con pocos ejemplos en espectroscopía vibracional

TeaNet, una red de aumento mejorada por tareas, reconstruye espectros enmascarados aleatoriamente para generar muestras aumentadas que preservan las características espectrales originales mientras introducen variaciones específicas del dominio. Este enfoque permite a las redes neuronales profundas identificar números de onda discriminantes de manera más efectiva, superando a las CNN en un 17% en escenarios sintéticos desafiantes y ofreciendo una interpretabilidad mejorada en tareas de aprendizaje con pocos ejemplos.

arxiv arXiv cs.LG · hace 2 h

Dinámica Neural Topológica: Modelado de Secuencias por Neurona

La Dinámica Neural Topológica (TND) introduce un marco por neurona para el modelado de secuencias, donde cada neurona evoluciona independientemente a través de una estructura de grafo dirigido. En una tarea de clonación de comportamiento de Pong para un solo jugador, TND alcanza una media de 17.47 capturas consecutivas por ronda, superando a todos los modelos base en más de tres veces.

arxiv arXiv cs.LG · hace 2 h

NASDAQ: Dinámica del Espacio de Observación Normalizado con Q-Learning Aumentado

NASDAQ aborda los desafíos de observación de baja dimensión en el aprendizaje por refuerzo al normalizar los espacios de observación para equilibrar las pérdidas de reconstrucción. Integra el aprendizaje de valores con el valor a corto plazo y la predicción de la siguiente observación, logrando un rendimiento competitivo o superior con menos tiempo de entrenamiento en diversos dominios.

arxiv arXiv cs.LG · hace 2 h

TASER: Expansión de Habilidades Diferenciadas por Tarea para Aprendizaje Continuo Heterogéneo

TASER introduce un marco que expande y enruta dinámicamente habilidades atómicas para el aprendizaje continuo a través de tareas altamente heterogéneas. Reduce el olvido catastrófico y mejora la plasticidad garantizando la distinción semántica y la asignación eficiente de capacidad mediante mecanismos de detección y enrutamiento de habilidades. Evaluado en HeteroCLBench, un benchmark con 19 tareas diversas a lo largo de 9 dimensiones cognitivas, TASER supera a las líneas base existentes.

arxiv arXiv cs.LG · hace 2 h

Diagnósticos para la selección de políticas en MORL

Proponemos un flujo de trabajo diagnóstico para revelar variación conductual en políticas de aprendizaje por refuerzo multiobjetivo. El método destaca diferencias en las trayectorias de las políticas más allá de los retornos esperados, ofreciendo herramientas cuantitativas y visuales para la inspección de políticas. Validado en mundos de cuadrícula y escalado a tareas de control continuo, captura eficazmente la diversidad conductual bajo complejidad creciente.

arxiv arXiv cs.LG · hace 2 h

Detección de anomalías no supervisada con computadoras de reservorio

Una prueba de Kolmogorov--Smirnov en los pesos de salida de la computadora de reservorio detecta cambios de régimen en sistemas no lineales. El método distingue atractores visualmente idénticos, resuelve desviaciones de parámetros siete veces más pequeñas que las líneas base de aprendizaje profundo e identifica flutter ventricular en grabaciones de ECG.

arxiv arXiv cs.LG · hace 2 h

Sea-Scan: Detección de buques oscuros basada en ML con supervisión débil

Sea-Scan utiliza aprendizaje automático para detectar y localizar buques oscuros a partir de datos sin etiquetar. Alcanza una tasa de detección del 97,8% con solo una tasa de activación falsa del 1,98%, utilizando supervisión débil a partir de etiquetas AIS imperfectas.

arxiv arXiv cs.LG · hace 3 h

MedTS-TTT: Entrenamiento en tiempo de prueba para series temporales médicas

MedTS-TTT introduce un marco de entrenamiento en tiempo de prueba para la clasificación de series temporales médicas. Basado en CLSA-TTT y una columna vertebral de convolución con compuertas, permite una adaptación rápida en un solo paso sin optimización iterativa. En cuatro conjuntos de datos públicos, alcanza 11 primeros puestos entre 12 evaluaciones a través de nueve líneas base y tres métricas.

arxiv arXiv cs.LG · hace 3 h

El reensamblaje de grafos de Ramanujan alivia el sobre-aplastamiento en GNN

La propagación de Ramanujan utiliza grafos de Ramanujan para reducir el sobre-aplastamiento en Redes Neuronales Graficas asegurando una curvatura de resistencia no negativa. El método preserva la conectividad local mientras permite un flujo eficiente de información a largo plazo, superando a nueve técnicas de reensamblaje de vanguardia.

arxiv arXiv cs.LG · hace 3 h

Computación de reservorio para procesamiento de señales de audio sin características

Este artículo explora la Computación de Reservorio como un método libre de características para la clasificación de señales de audio en bruto. Muestra que las arquitecturas paralelas de reservorio profundo superan a las superficiales y secuenciales en precisión mientras mantienen baja complejidad, permitiendo un procesamiento de audio eficiente y de bajo consumo con mínima preprocesamiento.

arxiv arXiv cs.LG · hace 3 h

DataClaw0: Adaptación agéntica de datos multimodales a partir de flujos en bruto

DataClaw0 introduce un paradigma agéntico para refinar activamente los datos multimodales en bruto con el fin de alinearse con las intenciones del usuario y de las tareas posteriores. Utiliza una canalización en dos etapas basada en anclajes factuales para generar un conjunto de datos a gran escala en cinco dominios, y combina el ajuste fino supervisado con GRPO para lograr una fuerte alineación con tareas de refinamiento complejas. Evaluado en generación de video, VQA y navegación por GUI, DataClaw0 produce datos adaptados de alta densidad de información, lo que permite una adaptación eficiente del modelo con mínimos datos de entrenamiento.

arxiv arXiv cs.LG · hace 3 h

Los modelos de Transformer son altamente sensibles a datos ruidosos en la predicción de trayectorias

Un estudio descubre que los modelos de predicción de trayectorias basados en Transformer se degradan significativamente con datos de estado de objetos ruidosos. La precisión disminuye 1.3x bajo ruido leve y hasta 3.9x bajo condiciones de alto ruido realistas, destacando la sensibilidad de los modelos y la necesidad de datos de entrenamiento más ruidosos del mundo real y estrategias de mitigación.

arxiv arXiv cs.LG · hace 3 h

Interpretación de Árboles de Comportamiento Temporales mediante Redes de Petri con Recompensas

Este artículo presenta una interpretación de Árboles de Comportamiento Temporales (TBT) mediante Redes de Petri con recompensas para el aprendizaje por refuerzo. Traduce los TBTs a Redes de Petri, asignando recompensas basadas en restricciones estructurales definidas en Lógica Temporal Lineal, lo que permite un aprendizaje efectivo en tareas robóticas complejas y de largo plazo donde el RL estándar falla.

arxiv arXiv cs.LG · hace 3 h

Marco de Datos Abiertos Identifica la Topología de la Red Eléctrica Urbana

Un nuevo marco utiliza datos de infraestructura pública y OpenStreetMap para reconstruir la topología de la red eléctrica urbana, desde las conexiones de transmisión hasta el nivel de los edificios. Mapea con éxito la red para 7,330 edificios en el distrito Alna de Oslo, permitiendo un análisis detallado del sistema eléctrico, como la optimización del flujo y estudios de resiliencia.