Todos los artículos — korshunov.ai

Todos los artículos Página 1 / 87

NeSyCat Torch: Implementación de tensores diferenciables para aprendizaje neurosimbólico

NeSyCat Torch proporciona una implementación de tensores diferenciables de la semántica categórica para el aprendizaje neurosimbólico, unificando sistemas clásicos, difusos, probabilísticos y neuronales bajo una única definición inductiva de verdad. Supera a LTN y DeepProbLog en velocidad y precisión en la suma de MNIST, igualando la precisión de DeepStochLog mientras opera dentro de un marco uniforme extensible a la probabilidad continua mediante instanciación de mónadas.

arxiv arXiv cs.LG · hace 2 h

El sonido y la luz ambiental predicen el delirio en la UCI

Un estudio descubre que el sonido ambiental y la intensidad de la luz pueden predecir independientemente el delirio en las UCI. Las características del sonido fueron los predictores dominantes, con la combinación de sonido y luz mejorando la estimación del riesgo de delirio a corto plazo, especialmente dentro de una semana.

arxiv arXiv cs.LG · hace 2 h

La alineación de incertidumbre con MC Dropout es insuficiente para la seguridad clínica en la segmentación de glioma

Un estudio sobre 126 pacientes de BraTS21 encuentra que, aunque MC Dropout logra una fuerte alineación entre incertidumbre y error, falla en detectar problemas críticos de calibración en las regiones de tumor realzante. El modelo UNet-Res muestra entropia cercana a cero y ECE alto en estas áreas clínicamente vitales, con un puntaje Dice bajo de 0.714, lo que indica una severa descualibración invisible para métricas estándar como Dice y AUROC. Estos resultados destacan que la alineación de incertidumbre por sí sola es insuficiente para la seguridad clínica y que la calibración específica por región debe evaluarse junto con las métricas estándar.

arxiv arXiv cs.LG · hace 2 h

Optimizar escenarios climáticos mejora la generalización del emulador

Un nuevo método utiliza un modelo climático simple diferenciable para optimizar los escenarios de entrenamiento, mejorando la generalización del emulador. El entrenamiento con un escenario optimizado supera a seis trayectorias estándar de ScenarioMIP, y estos escenarios producen emuladores más precisos cuando se utilizan con modelos de complejidad intermedia, a pesar de los tamaños de conjunto de datos más pequeños.

arxiv arXiv cs.LG · hace 2 h

P-K-GCN: Red de Convolución Gráfica Mejorada con Koopman y Aumentada con Física

P-K-GCN permite una super-resolución espacio-temporal de alta fidelidad en geometrías irregulares combinando redes de convolución gráfica con la teoría del operador de Koopman. Incorpora una pérdida basada en física para garantizar el cumplimiento de las leyes físicas, reduciendo el error de super-resolución mediante una mejor generalización y precisión, como se validó en la reconstrucción de electrodinámica cardíaca.

arxiv arXiv cs.LG · hace 2 h

Diffusion-Proof: Primer marco para LLMs de difusión en demostración formal de teoremas

Diffusion-Proof es el primer marco para entrenar y aplicar modelos de lenguaje de difusión para la demostración formal de teoremas. Introduce dLLM-Prover-7B para la escritura completa de pruebas con coherencia a largo plazo y dLLM-Corrector-7- para la corrección local de pruebas utilizando información bidireccional. El marco supera las líneas base de LLMs autoregresivos en un 1.61% en ProofNet-Test y un 6.14% en MiniF2F-Test, y resuelve un problema del IMO más allá de la capacidad de DeepSeek-Prover-V2-7B.

arxiv arXiv cs.LG · hace 2 h

Ingeniería inversa de la atención en Transformers mediante programas ejecutables

Un nuevo método utiliza síntesis de programas para generar programas en Python que reproducen los patrones de atención en modelos Transformer. Estos programas logran más del 75% de similitud promedio Intersection-over-Union en datos no vistos y pueden reemplazar hasta el 25% de las cabezas de atención con impacto mínimo en el rendimiento del modelo, aumentando la perplexidad solo un 16% en promedio.

arxiv arXiv cs.AI · hace 2 h

OneCanvas: Comprensión de escenas 3D mediante reproyección panorámica

OneCanvas permite la comprensión de escenas 3D en Modelos Visión-Lenguaje agregando características de parches sobre un lienzo panorámico utilizando coordenadas del mundo 3D. Logra resultados de última generación en SQA3D y VSI-Bench, con una fuerte generalización en SPBench, utilizando significativamente menos recursos de entrenamiento que los métodos anteriores.

arxiv arXiv cs.LG · hace 2 h

UBP2: Planificación de preferencias equilibrada en incertidumbre para RL basado en preferencias eficiente

UBP2 introduce un método basado en modelos que explora activamente entornos razonando conjuntamente sobre las incertidumbres en las funciones de recompensa, dinámica y valor. Logra una mayor eficiencia de muestreo en el aprendizaje por refuerzo basado en preferencias, superando a las líneas base sin modelo y basadas en modelos no optimistas en la benchmark Meta-World.

arxiv arXiv cs.LG · hace 2 h

El catálogo Chandra-Gaia utiliza aprendizaje automático para resolver coincidencias de fuentes de rayos X y ópticas

Un marco de aprendizaje automático resuelve coincidencias ambiguas entre fuentes de rayos X de Chandra y fuentes ópticas de Gaia utilizando datos de magnitud, color y distancia. Identifica contrapartes para 113,000 de 254,000 fuentes de Chandra, encuentra múltiples contrapartes plausibles para 7,000 y valida su rendimiento en la encuesta COUP con un 95% de precisión sin datos posicionales.

arxiv arXiv cs.LG · hace 2 h

LOCUS: Un Corpus de Ordenanzas Locales para Estados Unidos

LOCUS proporciona acceso legible por máquina a ordenanzas municipales y condado de EE. UU., cubriendo 9,239 ciudades y condados. Incluye una capa armonizada por condado para 2,309 de los 3,144 condados de EE. UU., sirviendo a la mayoría de la población. El corpus, construido con OCR y metadatos, permite investigación sobre opacidad legal y paternalismo utilizando modelos basados en ModernBERT.

arxiv arXiv cs.AI · hace 2 h

Fusión Esencial de Subespacios para Aprendizaje Multi-Tarea

La Fusión Esencial de Subespacios (ESM) reduce la interferencia inter-tareas al centrarse en las direcciones principales de los cambios de activación. ESM++ extiende esto con selección dinámica de expertos mediante enrutamiento basado en prototipos, permitiendo la fusión de modelos multi-tarea sin entrenamiento y con el conocimiento de las tareas preservado.

arxiv arXiv cs.AI · hace 2 h

Preentrenamiento con Reflexiones de Seguridad para LLMs

El Preentrenamiento con Reflexiones de Seguridad inserta breves reflexiones de seguridad en los datos de preentrenamiento para habilitar la auto-monitoreo en modelos de lenguaje. Los experimentos con modelos de 1.7B en FineWeb-Edu muestran una mayor precisión de seguridad y tasas reducidas de éxito de ataque, mientras que MedSafetyWorld demuestra que el método previene mejor que la filtración o reescritura de datos que los comportamientos inseguros se generalicen a partir de datos seguros.

arxiv arXiv cs.AI · hace 2 h

Usuario como Engrama: Ediciones paramétricas locales para memoria personal

User as Engram propone almacenar los hechos por usuario como ediciones quirúrgicas con clave hash en una tabla de memoria, dejando el razonamiento en un adaptador compartido. Este diseño logra una precisión de razonamiento indirecto 5.6x mayor y mantiene el rendimiento de razonamiento base, con una huella de memoria 33,000x más pequeña que LoRA por usuario. El enfoque permite ediciones de usuarios independientes que se componen sin pérdidas, superando a los pipelines de recuperación más allá de 100 hechos.

arxiv arXiv cs.AI · hace 2 h

Pipeline centrado en el clínico para la anotación y evaluación de IA en ultrasonido

Un nuevo pipeline permite a los clínicos realizar anotaciones remotas y evaluaciones ciegas de modelos de IA en ultrasonido sin descargas locales de datos. Soporta la participación de múltiples evaluadores, agregación de resultados y análisis estadístico automatizado, validado en un estudio de segmentación de ultrasonido fetal con seis evaluadores de diversa experiencia. Los resultados muestran un acuerdo moderado a fuerte y una preferencia por los modelos posteriores de aprendizaje activo en las clasificaciones ciegas.

arxiv arXiv cs.LG · hace 2 h

GrapNet: Un sustrato de grafos neurales de arquitectura dinámica programable

GrapNet introduce un sustrato de grafos neurales programable donde las ediciones de la arquitectura son operaciones de primera clase. Supera a los MLP densos en Split Fashion-MNIST y CIFAR-10, logrando ganancias de precisión del 63.16% y 3.81% respectivamente, con resultados estadísticamente significativos.

media r/LocalLLaMA · hace 2 h

Un motor de inferencia mínimo solo para CPU para Qwen 3, escrito desde cero en C puro

Un desarrollador ha publicado una implementación en C puro de un motor de inferencia diseñado específicamente para los modelos Qwen 3 de tamaño 4B y menores. El proyecto está disponible en GitHub como recurso educativo que prioriza la legibilidad del código y el valor pedagógico sobre el rendimiento bruto.

media r/LocalLLaMA · hace 2 h

Probablemente lo necesitemos pronto.

Este post de Reddit comparte un meme con citas de Vladik y Shaw en 𝕏 sobre las necesidades futuras en el campo.

arxiv arXiv cs.AI · hace 2 h

Visión en el bucle validada por hardware para la autonomía de UAV marítimos

Un estimador de pose monocular profundo procesa entornos marítimos renderizados en tiempo real, fusionados con datos del IMU mediante un filtro de Kalman retardado. El sistema permite vuelo autónomo en interiores con latencia de percepción y restricciones computacionales, validando la autonomía de UAV marítimos de forma segura antes del despliegue a bordo.

arxiv arXiv cs.AI · hace 2 h

Compensaciones del tamaño de lote en métodos de momento estocástico

Los métodos de momento estocástico como HB y ASGD muestran compensaciones distintas del tamaño de lote en eficiencia computacional y tiempo de ejecución serial. HB mantiene la eficiencia computacional a nivel de SGD en una ventana de tamaño de lote hasta un factor \sqrt{\kappa} mayor que el tamaño crítico de lote de SGD, mientras que ASGD mejora la eficiencia para lotes pequeños en espectras que decaen rápidamente pero la sacrifica para lotes más grandes a cambio de reducir el tiempo de ejecución serial.