Todos los artículos
arxiv arXiv cs.LG · hace 1 h En vivo

LoopCoder-v2 logra el rendimiento óptimo en bucles anidados

LoopCoder-v2, un modelo Transformer de bucles paralelos, alcanza un rendimiento superior en generación y razonamiento de código con dos bucles, mejorando SWE-bench Verified de 43.0 a 64.4 puntos y Multi-SWE de 14.0 a 31.0 puntos. Las variantes con tres o más bucles tienen un rendimiento peor, lo que indica un efecto no monótono del conteo de bucles debido al creciente desajuste posicional y rendimientos decrecientes.

arxiv arXiv cs.AI · hace 1 h En vivo

LoopCoder-v2 logra un rendimiento óptimo en bucles anidados

LoopCoder-v2, un modelo Transformer de bucles paralelos, logra ganancias significativas en generación de código y razonamiento con dos bucles, mejorando SWE-bench Verified de 43.0 a 64.4 puntos y Multi-SWE de 14.0 a 31.0 puntos. Las variantes con tres o más bucles tienen un rendimiento peor, mostrando rendimientos decrecientes y actualizaciones oscilatorias debido a desajustes posicionales por desplazamientos entre bucles.

arxiv arXiv cs.LG · hace 2 h

INI-VPINN: Red neuronal informada por física con manejo implícito de fronteras

INI-VPINN es una red neuronal variacional informada por física que aplica implícitamente condiciones de Neumann e interfaz mediante funciones de ponderación de soporte compacto e integración por partes. Logra mayor precisión y convergencia más rápida que los métodos PINN existentes al resolver problemas multimatéricos con singularidades geométricas y condiciones mixtas de frontera, y está disponible públicamente en GitHub.

arxiv arXiv cs.LG · hace 2 h

Cuantificación de la incertidumbre para modelos de visión-lenguaje-acción basados en flujos

Proponemos un método que utiliza el desacuerdo del campo de velocidades para cuantificar la incertidumbre epistémica en modelos de visión-lenguaje-acción basados en emparejamiento de flujos. Esta estimación de la incertidumbre permite la detección de fallos durante el despliegue y el ajuste fino activo a través del marco SAVE, que reduce las demostraciones expertas en al menos un 22% en comparación con los métodos base, con predicciones mejor calibradas en el benchmark LIBERO.

arxiv arXiv cs.LG · hace 2 h

ScaFE: Uso de LLMs para extraer características clínicamente significativas de cicatrices

ScaFE reposiciona los grandes modelos de lenguaje como ingenieros de características para la clasificación de cicatrices, generando código Python ejecutable a partir de criterios clínicos para extraer características interpretables. El marco logra un rendimiento superior con datos limitados, preserva la privacidad al procesar las imágenes localmente y produce características fundamentadas en la clínica alineadas con sistemas de puntuación establecidos como la Escala de Cicatrices de Vancouver.

arxiv arXiv cs.LG · hace 2 h

NoiseTilt: Kernels inversos con inclinación de ruido para la alineación de recompensas en difusión

NoiseTilt introduce NTRK, un muestreador de difusión guiado por recompensa que inyecta gradientes de recompensa a través del término de ruido sin alterar el kernel inverso. Al utilizar un operador de blanqueo, NTRK sesga de forma segura el ruido hacia la alta recompensa, preservando la calidad de la muestra mientras mantiene una fuerte guía. En la generación estética, NTRK logra un rendimiento de recompensa superior con 25 NFEs, reduciendo el cómputo en 20× en comparación con las líneas base más avanzadas.

arxiv arXiv cs.LG · hace 2 h

Los Modelos Generativos de Volterra Introducen Ruido Fraccional para la Generación Basada en Puntuación

Los modelos generativos de Volterra proponen un marco basado en puntuación de tiempo continuo que utiliza núcleos fraccionarios para inyectar ruido dependiente de la trayectoria, evitando el enmascaramiento sin memoria en los modelos de difusión tradicionales. El enfoque introduce elevaciones markovianas de dimensión finita y demuestra cotas de error cuadrático, mostrando una generación mejorada en MNIST y potencial para imágenes naturales, con un muestreador de puente que mejora la estabilidad para modelos más grandes.

arxiv arXiv cs.LG · hace 2 h

Algoritmo de descubrimiento causal de segundo orden basado en tensores

TSCD utiliza matrices de covarianza de datos observacionales e intervencionales para identificar estructuras causales en modelos de ecuaciones estructurales lineales sobre DAGs. Requiere únicamente ruido no correlacionado y logra órdenes y parámetros causales identificables con conteos logarítmicos de intervenciones, escalando a cientos de variables mientras permanece robusto al ruido y competitivo frente a métodos existentes.

arxiv arXiv cs.LG · hace 2 h

Sign-Rank, Índice y Replicabilidad de Lista: Conexiones y Separaciones

El artículo establece que el índice \mathbb{Z}_2\ está acotado superiormente por una función lineal del número de replicabilidad de lista. Demuestra una fuerte separación entre el sign-rank y el índice \mathbb{Z}_2\, y muestra que la replicabilidad de lista está acotada superiormente por la altura y el número mínimo de estrellas, con un resultado de composición para el producto de clases de conceptos.

arxiv arXiv cs.LG · hace 2 h

Edge Flow: Un modelo de tiempo continuo para el descenso del gradiente en el borde de la estabilidad

Edge Flow es un modelo de tiempo continuo tratable y predictivo que captura la dinámica del descenso del gradiente en el borde de la estabilidad. Descompone la dinámica en dirección central, oscilación y magnitud, con autoestabilización de la nitidez emergente a partir de retroalimentación acoplada. El modelo requiere solo dos evaluaciones del gradiente y un producto Hessian-vector por iteración y supera a los modelos anteriores en el seguimiento de las oscilaciones y la explicación de inestabilidades en EoS.

arxiv arXiv cs.LG · hace 2 h

Generalización composicional en el razonamiento de modelos de lenguaje

Un modelo de selección latente jerárquico muestra que el ajuste fino supervisado y el aprendizaje por refuerzo trabajan juntos para habilitar la generalización composicional en modelos de lenguaje. El SFT proporciona materiales de módulos crudos, mientras que el RL identifica y recombina módulos atómicos a partir de trazas compuestas para resolver nuevos problemas. Entrenar en trazas compuestas conduce a una generalización más fuerte que el entrenamiento de módulos aislados, y se encuentra un protocolo efectivo donde el SFT asegura la cobertura de módulos y el RL impulsa la exploración de composiciones novedosas.

arxiv arXiv cs.LG · hace 2 h

OmniPlan: Marco adaptativo para la planificación de redes oportuna y casi óptima

OmniPlan introduce un marco adaptativo que convierte las intenciones del usuario en lenguaje natural en preferencias cuantificables utilizando un modelo de lenguaje grande. Selecciona dinámicamente entre expertos de programación entera mixta, heurísticas y aprendizaje por refuerzo profundo para lograr tanto la oportunidad como la casi-optimalidad en la planificación de redes. Las evaluaciones en cargas de trabajo de aprendizaje automático distribuido muestran una reducción de latencia de hasta el 97,8% y un consumo de recursos un 11,5% menor.

arxiv arXiv cs.LG · hace 2 h

Aprendizaje por Refuerzo Profundo para Conjuntos Mínimos de Forzamiento Cero

Este artículo propone SD-ZFS, un marco de aprendizaje por refuerzo profundo adaptado de S2V-DQN, para resolver el problema NP-duro del conjunto mínimo de forzamiento cero en grafos no dirigidos. El marco demuestra un rendimiento fuerte en comparación con las soluciones óptimas y las heurísticas voraces, mostrando una generalización efectiva, escalabilidad y transferencia a través de diversas estructuras de grafos.

arxiv arXiv cs.LG · hace 2 h

Aprendiendo políticas óptimas de Pareto justas en aprendizaje por refuerzo multiobjetivo

El artículo presenta un marco para el aprendizaje por refuerzo multiobjetivo con múltiples políticas que aprende un conjunto de políticas óptimas de Pareto garantizando equidad entre diversas preferencias de usuarios. Demuestra que las políticas justas permanecen dentro del conjunto de cobertura convexa para funciones de bienestar cóncavas y propone tres algoritmos que incorporan dinámicas de política no estacionarias y estocásticas. Los resultados empíricos muestran que estos métodos aprenden eficazmente políticas justas adaptables a diferentes preferencias de usuarios.

arxiv arXiv cs.LG · hace 2 h

Las inyecciones de triple llave en Handlebars explotan los delimitadores de rol estructural

La interpolación de triple llave de Handlebars no protege contra la inyección de rol estructural, ya que el escape de HTML solo neutraliza los delimitadores de corchetes angulares. Deja intactos los delimitadores de dos puntos y de hash de Markdown, lo que permite a los atacantes secuestrar el comportamiento del modelo. El escape predeterminado no proporciona protección para la mayoría de los esquemas de delimitador de rol y no puede reemplazar una clara separación de instrucciones y datos.