Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 87

UBP2: Planificación de preferencias equilibrada en incertidumbre para RL basado en preferencias eficiente

UBP2 introduce un método basado en modelos que explora activamente entornos razonando conjuntamente sobre las incertidumbres en las funciones de recompensa, dinámica y valor. Logra una mayor eficiencia de muestreo en el aprendizaje por refuerzo basado en preferencias, superando a las líneas base sin modelo y basadas en modelos no optimistas en la benchmark Meta-World.

arxiv arXiv cs.LG · hace 2 h

El catálogo Chandra-Gaia utiliza aprendizaje automático para resolver coincidencias de fuentes de rayos X y ópticas

Un marco de aprendizaje automático resuelve coincidencias ambiguas entre fuentes de rayos X de Chandra y fuentes ópticas de Gaia utilizando datos de magnitud, color y distancia. Identifica contrapartes para 113,000 de 254,000 fuentes de Chandra, encuentra múltiples contrapartes plausibles para 7,000 y valida su rendimiento en la encuesta COUP con un 95% de precisión sin datos posicionales.

arxiv arXiv cs.LG · hace 2 h

LOCUS: Un Corpus de Ordenanzas Locales para Estados Unidos

LOCUS proporciona acceso legible por máquina a ordenanzas municipales y condado de EE. UU., cubriendo 9,239 ciudades y condados. Incluye una capa armonizada por condado para 2,309 de los 3,144 condados de EE. UU., sirviendo a la mayoría de la población. El corpus, construido con OCR y metadatos, permite investigación sobre opacidad legal y paternalismo utilizando modelos basados en ModernBERT.

arxiv arXiv cs.AI · hace 2 h

Fusión Esencial de Subespacios para Aprendizaje Multi-Tarea

La Fusión Esencial de Subespacios (ESM) reduce la interferencia inter-tareas al centrarse en las direcciones principales de los cambios de activación. ESM++ extiende esto con selección dinámica de expertos mediante enrutamiento basado en prototipos, permitiendo la fusión de modelos multi-tarea sin entrenamiento y con el conocimiento de las tareas preservado.

arxiv arXiv cs.AI · hace 2 h

Preentrenamiento con Reflexiones de Seguridad para LLMs

El Preentrenamiento con Reflexiones de Seguridad inserta breves reflexiones de seguridad en los datos de preentrenamiento para habilitar la auto-monitoreo en modelos de lenguaje. Los experimentos con modelos de 1.7B en FineWeb-Edu muestran una mayor precisión de seguridad y tasas reducidas de éxito de ataque, mientras que MedSafetyWorld demuestra que el método previene mejor que la filtración o reescritura de datos que los comportamientos inseguros se generalicen a partir de datos seguros.

arxiv arXiv cs.AI · hace 2 h

Usuario como Engrama: Ediciones paramétricas locales para memoria personal

User as Engram propone almacenar los hechos por usuario como ediciones quirúrgicas con clave hash en una tabla de memoria, dejando el razonamiento en un adaptador compartido. Este diseño logra una precisión de razonamiento indirecto 5.6x mayor y mantiene el rendimiento de razonamiento base, con una huella de memoria 33,000x más pequeña que LoRA por usuario. El enfoque permite ediciones de usuarios independientes que se componen sin pérdidas, superando a los pipelines de recuperación más allá de 100 hechos.

arxiv arXiv cs.AI · hace 2 h

Pipeline centrado en el clínico para la anotación y evaluación de IA en ultrasonido

Un nuevo pipeline permite a los clínicos realizar anotaciones remotas y evaluaciones ciegas de modelos de IA en ultrasonido sin descargas locales de datos. Soporta la participación de múltiples evaluadores, agregación de resultados y análisis estadístico automatizado, validado en un estudio de segmentación de ultrasonido fetal con seis evaluadores de diversa experiencia. Los resultados muestran un acuerdo moderado a fuerte y una preferencia por los modelos posteriores de aprendizaje activo en las clasificaciones ciegas.

arxiv arXiv cs.LG · hace 2 h

GrapNet: Un sustrato de grafos neurales de arquitectura dinámica programable

GrapNet introduce un sustrato de grafos neurales programable donde las ediciones de la arquitectura son operaciones de primera clase. Supera a los MLP densos en Split Fashion-MNIST y CIFAR-10, logrando ganancias de precisión del 63.16% y 3.81% respectivamente, con resultados estadísticamente significativos.

media r/LocalLLaMA · hace 2 h

Un motor de inferencia mínimo solo para CPU para Qwen 3, escrito desde cero en C puro

Un desarrollador ha publicado una implementación en C puro de un motor de inferencia diseñado específicamente para los modelos Qwen 3 de tamaño 4B y menores. El proyecto está disponible en GitHub como recurso educativo que prioriza la legibilidad del código y el valor pedagógico sobre el rendimiento bruto.

media r/LocalLLaMA · hace 2 h

Probablemente lo necesitemos pronto.

Este post de Reddit comparte un meme con citas de Vladik y Shaw en 𝕏 sobre las necesidades futuras en el campo.

arxiv arXiv cs.AI · hace 2 h

Visión en el bucle validada por hardware para la autonomía de UAV marítimos

Un estimador de pose monocular profundo procesa entornos marítimos renderizados en tiempo real, fusionados con datos del IMU mediante un filtro de Kalman retardado. El sistema permite vuelo autónomo en interiores con latencia de percepción y restricciones computacionales, validando la autonomía de UAV marítimos de forma segura antes del despliegue a bordo.

arxiv arXiv cs.AI · hace 2 h

Compensaciones del tamaño de lote en métodos de momento estocástico

Los métodos de momento estocástico como HB y ASGD muestran compensaciones distintas del tamaño de lote en eficiencia computacional y tiempo de ejecución serial. HB mantiene la eficiencia computacional a nivel de SGD en una ventana de tamaño de lote hasta un factor \sqrt{\kappa} mayor que el tamaño crítico de lote de SGD, mientras que ASGD mejora la eficiencia para lotes pequeños en espectras que decaen rápidamente pero la sacrifica para lotes más grandes a cambio de reducir el tiempo de ejecución serial.

arxiv arXiv cs.AI · hace 2 h

LLM-as-Interface, ML-as-Predictor para Apendicitis Pediátrica

ClaMPAPP, un sistema híbrido, utiliza un LLM para extraer características clínicas estructuradas de notas en texto libre y las pasa a un clasificador XGBoost para el diagnóstico. Superó a los LLMs end-to-end tanto en validación interna como externa, con mejor rendimiento diagnóstico y menos casos pasados por alto, demostrando mayor estabilidad y seguridad en la triaje de apendicitis pediátrica.

arxiv arXiv cs.AI · hace 2 h

Combinar propiedades en la abducción de ABox de ELbot

El artículo explora la abducción de ABox en ELbot bajo semántica valiente y AR, centrándose en hipótesis que satisfacen múltiples propiedades o criterios de optimalidad. Muestra que añadir dichas propiedades no aumenta significativamente la complejidad computacional.

arxiv arXiv cs.AI · hace 2 h

RL enfocado en decisiones para carga de vehículos eléctricos con tiempos de salida desconocidos

Un marco de RL enfocado en entrena conjuntamente un pronosticador y un controlador de carga para manejar tiempos de salida desconocidos de los vehículos eléctricos. El método mejora las decisiones de carga hasta en un 14% en recompensa total y reduce la energía no suministrada en un 55% en comparación con el RL estándar sin pronóstico.

arxiv arXiv cs.AI · hace 2 h

XGBoost-Forget para el desprendimiento de aprendizaje en la detección de intrusiones de red

XGBoost-Forget permite el desprendimiento de aprendizaje eficiente para modelos XGBoost en conjuntos de datos tabulares de intrusiones de red. Mantiene el rendimiento del modelo mientras logra un desprendimiento más rápido en comparación con el reentrenamiento completo, abordando una brecha en la investigación sobre desprendimiento de aprendizaje para datos tabulares en la detección de intrusiones de red.

arxiv arXiv cs.AI · hace 2 h

MAST permite el olvido selectivo en el razonamiento inducido por RLVR

MAST, un método de olvido guiado por mecanismos, logra el olvido dirigido del razonamiento inducido por RLVR con daños colaterales mínimos. En Qwen2.5-Math-1.5B y Qwen3-1.7B-Base, reduce significativamente el rendimiento en MATH (de 45/150 a 37/15-0) mientras preserva la precisión de GSM8K en +0.8 puntos y mantiene la retención de MATH en -0.5 puntos. Los resultados se mantienen consistentes entre semillas, objetivos y modelos, mostrando una estabilidad superior frente al olvido de parámetros completos.

arxiv arXiv cs.AI · hace 2 h

STARE: Reponderación de ventajas a nivel de token guiada por sorpresividad para la estabilidad de la entropía de política

STARE aborda el colapso de la entropía de política en el aprendizaje por refuerzo basado en GRPO identificando subconjuntos de tokens críticos para la entropía mediante cuantiles de sorpresividad y reponderando sus ventajas. Mantiene una entropía de política estable a través de escalas de modelos y tareas, superando a DAPO y otras líneas base entre un 4% y un 8% en AIME24 y AIME25, con un equilibrio consistente entre exploración y explotación.

arxiv arXiv cs.AI · hace 2 h

TxBench-PP: Benchmark de Agentes de IA en Farmacología Preclínica

TxBench-PP es un benchmark verificable para farmacología preclínica de moléculas pequeñas, que prueba la capacidad de los agentes de IA para derivar conclusiones precisas a partir de datos de ensayos del mundo real. En 16 configuraciones de modelos, ningún sistema pasó confiablemente todas las evaluaciones, con la configuración de mejor rendimiento (Claude Opus 4.8 / Pi) logrando una tasa de éxito del 59.3% en 300 intentos de punto final.

arxiv arXiv cs.AI · hace 2 h

Los enlaces de taxonomía conectan las necesidades de los cuidadores con la tecnología de salud mental

Una nueva taxonomía conecta las necesidades de salud mental de los cuidadores de personas con Alzheimer y demencia con intervenciones tecnológicas. Identifica lagunas en el apoyo para problemas como la tensión relacional y la fatiga por compasión, y ofrece un marco compartido para diseñar tecnologías centradas en la persona y fundamentadas clínicamente.