Todos los artículos
arxiv arXiv cs.LG · hace 3 h

El catálogo Chandra-Gaia utiliza aprendizaje automático para resolver coincidencias de fuentes de rayos X y ópticas

Un marco de aprendizaje automático resuelve coincidencias ambiguas entre fuentes de rayos X de Chandra y fuentes ópticas de Gaia utilizando datos de magnitud, color y distancia. Identifica contrapartes para 113,000 de 254,000 fuentes de Chandra, encuentra múltiples contrapartes plausibles para 7,000 y valida su rendimiento en la encuesta COUP con un 95% de precisión sin datos posicionales.

arxiv arXiv cs.AI · hace 3 h

Preentrenamiento con Reflexiones de Seguridad para LLMs

El Preentrenamiento con Reflexiones de Seguridad inserta breves reflexiones de seguridad en los datos de preentrenamiento para habilitar la auto-monitoreo en modelos de lenguaje. Los experimentos con modelos de 1.7B en FineWeb-Edu muestran una mayor precisión de seguridad y tasas reducidas de éxito de ataque, mientras que MedSafetyWorld demuestra que el método previene mejor que la filtración o reescritura de datos que los comportamientos inseguros se generalicen a partir de datos seguros.

arxiv arXiv cs.AI · hace 3 h

Usuario como Engrama: Ediciones paramétricas locales para memoria personal

User as Engram propone almacenar los hechos por usuario como ediciones quirúrgicas con clave hash en una tabla de memoria, dejando el razonamiento en un adaptador compartido. Este diseño logra una precisión de razonamiento indirecto 5.6x mayor y mantiene el rendimiento de razonamiento base, con una huella de memoria 33,000x más pequeña que LoRA por usuario. El enfoque permite ediciones de usuarios independientes que se componen sin pérdidas, superando a los pipelines de recuperación más allá de 100 hechos.

arxiv arXiv cs.AI · hace 3 h

Pipeline centrado en el clínico para la anotación y evaluación de IA en ultrasonido

Un nuevo pipeline permite a los clínicos realizar anotaciones remotas y evaluaciones ciegas de modelos de IA en ultrasonido sin descargas locales de datos. Soporta la participación de múltiples evaluadores, agregación de resultados y análisis estadístico automatizado, validado en un estudio de segmentación de ultrasonido fetal con seis evaluadores de diversa experiencia. Los resultados muestran un acuerdo moderado a fuerte y una preferencia por los modelos posteriores de aprendizaje activo en las clasificaciones ciegas.

arxiv arXiv cs.AI · hace 3 h

Compensaciones del tamaño de lote en métodos de momento estocástico

Los métodos de momento estocástico como HB y ASGD muestran compensaciones distintas del tamaño de lote en eficiencia computacional y tiempo de ejecución serial. HB mantiene la eficiencia computacional a nivel de SGD en una ventana de tamaño de lote hasta un factor \sqrt{\kappa} mayor que el tamaño crítico de lote de SGD, mientras que ASGD mejora la eficiencia para lotes pequeños en espectras que decaen rápidamente pero la sacrifica para lotes más grandes a cambio de reducir el tiempo de ejecución serial.

arxiv arXiv cs.AI · hace 3 h

XGBoost-Forget para el desprendimiento de aprendizaje en la detección de intrusiones de red

XGBoost-Forget permite el desprendimiento de aprendizaje eficiente para modelos XGBoost en conjuntos de datos tabulares de intrusiones de red. Mantiene el rendimiento del modelo mientras logra un desprendimiento más rápido en comparación con el reentrenamiento completo, abordando una brecha en la investigación sobre desprendimiento de aprendizaje para datos tabulares en la detección de intrusiones de red.

arxiv arXiv cs.AI · hace 3 h

MAST permite el olvido selectivo en el razonamiento inducido por RLVR

MAST, un método de olvido guiado por mecanismos, logra el olvido dirigido del razonamiento inducido por RLVR con daños colaterales mínimos. En Qwen2.5-Math-1.5B y Qwen3-1.7B-Base, reduce significativamente el rendimiento en MATH (de 45/150 a 37/15-0) mientras preserva la precisión de GSM8K en +0.8 puntos y mantiene la retención de MATH en -0.5 puntos. Los resultados se mantienen consistentes entre semillas, objetivos y modelos, mostrando una estabilidad superior frente al olvido de parámetros completos.

arxiv arXiv cs.AI · hace 3 h

STARE: Reponderación de ventajas a nivel de token guiada por sorpresividad para la estabilidad de la entropía de política

STARE aborda el colapso de la entropía de política en el aprendizaje por refuerzo basado en GRPO identificando subconjuntos de tokens críticos para la entropía mediante cuantiles de sorpresividad y reponderando sus ventajas. Mantiene una entropía de política estable a través de escalas de modelos y tareas, superando a DAPO y otras líneas base entre un 4% y un 8% en AIME24 y AIME25, con un equilibrio consistente entre exploración y explotación.

arxiv arXiv cs.AI · hace 3 h

TxBench-PP: Benchmark de Agentes de IA en Farmacología Preclínica

TxBench-PP es un benchmark verificable para farmacología preclínica de moléculas pequeñas, que prueba la capacidad de los agentes de IA para derivar conclusiones precisas a partir de datos de ensayos del mundo real. En 16 configuraciones de modelos, ningún sistema pasó confiablemente todas las evaluaciones, con la configuración de mejor rendimiento (Claude Opus 4.8 / Pi) logrando una tasa de éxito del 59.3% en 300 intentos de punto final.

arxiv arXiv cs.AI · hace 4 h

X+Slides: Benchmark para la Generación de Diapositivas Condicionada por Audiencia

X+Slides introduce un benchmark que evalúa la generación de diapositivas en función de las necesidades del público objetivo. Utiliza 8,133 sondas fundamentadas en la fuente a través de 113 temas y siete escenas para medir la Cobertura de Audiencia, Cobertura por Dominio, Eficiencia y Corrección, revelando que los sistemas actuales recuperan solo información parcial esencial para la audiencia, con DeepPresenter logrando 0.714 de Cobertura de Audiencia, SlideTailor 0.594 y NotebookLM ablation 0.853, destacando la necesidad de una evaluación fundamentada en la fuente.