Todos los artículos
arxiv arXiv cs.AI · hace 3 h

Compensaciones del tamaño de lote en métodos de momento estocástico

Los métodos de momento estocástico como HB y ASGD muestran compensaciones distintas del tamaño de lote en eficiencia computacional y tiempo de ejecución serial. HB mantiene la eficiencia computacional a nivel de SGD en una ventana de tamaño de lote hasta un factor \sqrt{\kappa} mayor que el tamaño crítico de lote de SGD, mientras que ASGD mejora la eficiencia para lotes pequeños en espectras que decaen rápidamente pero la sacrifica para lotes más grandes a cambio de reducir el tiempo de ejecución serial.

arxiv arXiv cs.AI · hace 3 h

XGBoost-Forget para el desprendimiento de aprendizaje en la detección de intrusiones de red

XGBoost-Forget permite el desprendimiento de aprendizaje eficiente para modelos XGBoost en conjuntos de datos tabulares de intrusiones de red. Mantiene el rendimiento del modelo mientras logra un desprendimiento más rápido en comparación con el reentrenamiento completo, abordando una brecha en la investigación sobre desprendimiento de aprendizaje para datos tabulares en la detección de intrusiones de red.

arxiv arXiv cs.AI · hace 3 h

MAST permite el olvido selectivo en el razonamiento inducido por RLVR

MAST, un método de olvido guiado por mecanismos, logra el olvido dirigido del razonamiento inducido por RLVR con daños colaterales mínimos. En Qwen2.5-Math-1.5B y Qwen3-1.7B-Base, reduce significativamente el rendimiento en MATH (de 45/150 a 37/15-0) mientras preserva la precisión de GSM8K en +0.8 puntos y mantiene la retención de MATH en -0.5 puntos. Los resultados se mantienen consistentes entre semillas, objetivos y modelos, mostrando una estabilidad superior frente al olvido de parámetros completos.

arxiv arXiv cs.AI · hace 3 h

STARE: Reponderación de ventajas a nivel de token guiada por sorpresividad para la estabilidad de la entropía de política

STARE aborda el colapso de la entropía de política en el aprendizaje por refuerzo basado en GRPO identificando subconjuntos de tokens críticos para la entropía mediante cuantiles de sorpresividad y reponderando sus ventajas. Mantiene una entropía de política estable a través de escalas de modelos y tareas, superando a DAPO y otras líneas base entre un 4% y un 8% en AIME24 y AIME25, con un equilibrio consistente entre exploración y explotación.

arxiv arXiv cs.AI · hace 3 h

TxBench-PP: Benchmark de Agentes de IA en Farmacología Preclínica

TxBench-PP es un benchmark verificable para farmacología preclínica de moléculas pequeñas, que prueba la capacidad de los agentes de IA para derivar conclusiones precisas a partir de datos de ensayos del mundo real. En 16 configuraciones de modelos, ningún sistema pasó confiablemente todas las evaluaciones, con la configuración de mejor rendimiento (Claude Opus 4.8 / Pi) logrando una tasa de éxito del 59.3% en 300 intentos de punto final.

arxiv arXiv cs.AI · hace 3 h

X+Slides: Benchmark para la Generación de Diapositivas Condicionada por Audiencia

X+Slides introduce un benchmark que evalúa la generación de diapositivas en función de las necesidades del público objetivo. Utiliza 8,133 sondas fundamentadas en la fuente a través de 113 temas y siete escenas para medir la Cobertura de Audiencia, Cobertura por Dominio, Eficiencia y Corrección, revelando que los sistemas actuales recuperan solo información parcial esencial para la audiencia, con DeepPresenter logrando 0.714 de Cobertura de Audiencia, SlideTailor 0.594 y NotebookLM ablation 0.853, destacando la necesidad de una evaluación fundamentada en la fuente.

arxiv arXiv cs.AI · hace 3 h

Compensaciones en la adaptación de LLM médicos: Estudio de QA en francés

Un estudio compara el preentrenamiento continuo (CPT), el ajuste fino supervisado (SFT) y su combinación para QA médico en francés. CPT+SFT obtiene los mejores resultados en QA de opción múltiple, aunque las mejoras sobre SFT son pequeñas y a menudo insignificantes, lo que convierte a SFT en una opción predeterminada rentable. Para QA abierto, CPT mejora las métricas mientras que SFT degrada la calidad, siendo el ajuste de instrucciones y CPT+SFT favorecidos por evaluaciones basadas en LLM. Los resultados multilingües muestran una transferencia efectiva de los benchmarks de francés a inglés.

arxiv arXiv cs.AI · hace 3 h

NeSyCat Torch: Implementación de tensores diferenciables para aprendizaje neurosimbólico

NeSyCat Torch proporciona una implementación de tensores diferenciables de la semántica categórica para el aprendizaje neurosimbólico, unificando sistemas clásicos, difusos, probabilísticos y neuronales bajo una única definición inductiva de verdad. Supera a LTN y DeepProbLog en velocidad y precisión en la suma de MNIST, igualando la precisión de DeepStochLog mientras opera dentro de un marco uniforme extensible a la probabilidad continua mediante instanciación de mónad.

arxiv arXiv cs.AI · hace 3 h

La autocorrección aumenta la confianza en los chatbots sociales

Un estudio descubre que los chatbots sociales que corrigen sus propios errores obtienen mayor confianza del usuario y percepción de expertise que aquellos que dependen de correcciones externas. La fuerza de la conexión social entre el usuario y el chatbot mejora el cambio de creencia únicamente cuando el chatbot se autocorrige, lo que muestra que la conexión social amplifica la efectividad de la corrección de errores.

arxiv arXiv cs.AI · hace 3 h

Ingeniería inversa de la atención del Transformer con programas ejecutables

Un nuevo método utiliza síntesis de programas para generar programas en Python que reproducen los patrones de atención en modelos Transformer. Menos de 1,000 de estos programas logran una similitud de intersección sobre unión superior al 75% en TinyStories, y reemplazar el 25% de las cabezas de atención con estos programas aumenta la perplexidad solo un 16% mientras preserva el rendimiento en tareas de respuesta a preguntas.

arxiv arXiv cs.AI · hace 3 h

ScenA: Generación de Escenas de Audio Multi-Parlante Basada en Referencias

ScenA condiciona un modelo base de texto a audio en múltiples voces de referencia y una descripción de escena en lenguaje natural para generar conversaciones realistas multi-parlante. Aborda el problema del 'Atajo de Referencia' mediante un programa de entrenamiento con sesgo hacia alto ruido, asegurando que la asignación del hablante dependa de las indicaciones de texto en lugar de la similitud acústica. Evaluado en CoVoMix2-Dialogue, ScenA supera a los sistemas existentes en la vinculación de hablantes y produce audio rico y naturalista con habla superpuesta y ruido ambiental.

arxiv arXiv cs.AI · hace 3 h

Marco de Auto-Distilación Condicionada por Rúbrica

La Auto-Distilación Condicionada por Rúbrica introduce un marco que utiliza rúbricas estructuradas para proporcionar retroalimentación a nivel de token y de alta granularidad durante la auto-distilación de modelos de lenguaje de razonamiento. Al condicionar los modelos maestro en criterios a nivel de rúbrica, permite una asignación de crédito más precisa que las recompensas escalares, superando a GRPO y OPSD por 1.0 y 0.9 puntos en promedio en benchmarks de razonamiento científico.