Todos los artículos
arxiv arXiv cs.LG · hace 1 h En vivo

STARE: Reponderación de ventajas a nivel de token guiada por sorpresal para la estabilidad de la entropía de la política

STARE aborda el colapso de la entropía de la política en el aprendizaje por refuerzo basado en GRPO identificando subconjuntos de tokens críticos para la entropía mediante cuantiles de sorpresal y reponderando sus ventajas. Mantiene una entropía de la política estable a través de escalas de modelos y tareas, superando a DAPO y otras líneas base entre un 4% y un 8% en AIME24 y AIME25, con un equilibrio consistente entre exploración y explotación.

arxiv arXiv cs.LG · hace 1 h En vivo

TxBench-PP: Rendimiento de Agentes de IA en Farmacología Preclínica

TxBench-PP es una benchmark verificable para farmacología preclínica de moléculas pequeñas, que prueba la capacidad de los agentes de IA para derivar conclusiones precisas a partir de datos de ensayos del mundo real. En 16 configuraciones de model-harness, ningún sistema tomó decisiones de farmacología preclínica correctas de manera confiable, con el mejor rendimiento en 59.3% (Claude Opus 4.8 / Pi) y 55.3% (GPT-5.5 / Pi) de intentos de punto final.

arxiv arXiv cs.LG · hace 1 h En vivo

TGO-I: Geometría espectral de los Vision Transformers

TGO-I analiza la geometría espectral de los Vision Transformers utilizando ViT-Small/16 entrenado en ImageNet-100. Revela un aumento en la utilización dimensional y una reducción de la anisotropía, con espectros propios que se vuelven más planos y entropía espectral creciente. El token CLS final muestra la mayor dimensionalidad efectiva y la menor anisotropía, lo que indica una distribución amplia de varianza a través de las dimensiones.

arxiv arXiv cs.LG · hace 1 h En vivo

Las redes neuronales gráficas aceleran el solucionador de presión multigrid algebraico

Una red neuronal gráfica mejora los solucionadores multigrid algebraicos al predecir coeficientes polinómicos óptimos para operadores pseudo-inversos dispersos. El método reduce las iteraciones del ciclo V y logra aceleraciones en tiempo real de 4% a 37% en benchmarks, con un rendimiento robusto en mallas hasta 128 veces más grandes que los datos de entrenamiento y en problemas industriales no vistos como AirfRANS.

arxiv arXiv cs.LG · hace 1 h En vivo

OneCanvas: Comprensión de escenas 3D mediante reproyección panorámica

OneCanvas permite la comprensión de escenas 3D en Modelos Visión-Lenguaje agregando características de parches sobre un único lienzo panorámico utilizando coordenadas del mundo 3D. Alcanza rendimiento de vanguardia en SQA3D y VSI-Bench, y se generaliza a datos fuera de distribución en SPBench, utilizando significativamente menos capacidad de entrenamiento que los métodos existentes.

arxiv arXiv cs.LG · hace 1 h En vivo

SCAN: Agrupamiento Multiescala para Detección de Anomalías en Series Temporales

SCAN mejora la detección de anomalías en series temporales basada en reconstrucción mediante la integración de agrupamiento multiescale centrado en el vecindario. Utiliza representaciones del centro del clúster para restringir la reconstrucción de patrones normales y deriva una puntuación de confianza de anomalía basada en la probabilidad de pertenencia al clúster, combinada con el error de reconstrucción. Experimentos extensos en conjuntos de datos reales muestran que SCAN alcanza un rendimiento de vanguardia.

arxiv arXiv cs.LG · hace 1 h En vivo

Gibbs de Lenguaje Grande para Inferencia Probabilística Estructurada

Gibbs de Lenguaje Grande utiliza distribuciones condicionales de LLM como operadores de transición para el remuestreo iterativo de variables. Este método permite una inferencia probabilística coherente e independiente del orden al lograr una distribución estacionaria que equilibra los condicionales locales, ofreciendo una alternativa práctica a la generación de un solo pase para tareas de razonamiento estructurado.

media r/LocalLLaMA · hace 1 h En vivo

Publicación de Reddit destaca requisitos biométricos para la vista previa de GPT 5.6 Sol

Un usuario de Reddit compartió una imagen que muestra una interfaz de aplicación simulada que requiere escaneo facial, verificación de huellas dactilares y validación de pasaporte para unirse a la vista previa de GPT 5.6 Sol. La publicación caracteriza estos estrictos pasos de verificación de identidad como inusuales o "locos" para acceder a una vista previa del modelo.

arxiv arXiv cs.LG · hace 2 h

Innovación conceptual en la IA de imagen médica

Una nueva perspectiva sostiene que la investigación en IA de imagen médica debería priorizar la innovación conceptual —reformulación de problemas, métricas de evaluación y relevancia clínica— por encima de las mejoras algorítmicas por sí solas. El artículo destaca que los incentivos académicos actuales subestiman las contribuciones conceptuales, lo que lleva a objetivos desalineados e impacto limitado en el mundo real, y ofrece recomendaciones para investigadores, mentores y revistas con el fin de apoyar mejor dicha innovación.

arxiv arXiv cs.LG · hace 2 h

NeSyCat Torch: Implementación de tensores diferenciables para aprendizaje neurosimbólico

NeSyCat Torch proporciona una implementación de tensores diferenciables de la semántica categórica para el aprendizaje neurosimbólico, unificando sistemas clásicos, difusos, probabilísticos y neuronales bajo una única definición inductiva de verdad. Supera a LTN y DeepProbLog en velocidad y precisión en la suma de MNIST, igualando la precisión de DeepStochLog mientras opera dentro de un marco uniforme extensible a la probabilidad continua mediante instanciación de mónadas.

arxiv arXiv cs.LG · hace 2 h

La alineación de incertidumbre con MC Dropout es insuficiente para la seguridad clínica en la segmentación de glioma

Un estudio sobre 126 pacientes de BraTS21 encuentra que, aunque MC Dropout logra una fuerte alineación entre incertidumbre y error, falla en detectar problemas críticos de calibración en las regiones de tumor realzante. El modelo UNet-Res muestra entropia cercana a cero y ECE alto en estas áreas clínicamente vitales, con un puntaje Dice bajo de 0.714, lo que indica una severa descualibración invisible para métricas estándar como Dice y AUROC. Estos resultados destacan que la alineación de incertidumbre por sí sola es insuficiente para la seguridad clínica y que la calibración específica por región debe evaluarse junto con las métricas estándar.

arxiv arXiv cs.LG · hace 2 h

Optimizar escenarios climáticos mejora la generalización del emulador

Un nuevo método utiliza un modelo climático simple diferenciable para optimizar los escenarios de entrenamiento, mejorando la generalización del emulador. El entrenamiento con un escenario optimizado supera a seis trayectorias estándar de ScenarioMIP, y estos escenarios producen emuladores más precisos cuando se utilizan con modelos de complejidad intermedia, a pesar de los tamaños de conjunto de datos más pequeños.

arxiv arXiv cs.LG · hace 2 h

P-K-GCN: Red de Convolución Gráfica Mejorada con Koopman y Aumentada con Física

P-K-GCN permite una super-resolución espacio-temporal de alta fidelidad en geometrías irregulares combinando redes de convolución gráfica con la teoría del operador de Koopman. Incorpora una pérdida basada en física para garantizar el cumplimiento de las leyes físicas, reduciendo el error de super-resolución mediante una mejor generalización y precisión, como se validó en la reconstrucción de electrodinámica cardíaca.

arxiv arXiv cs.LG · hace 2 h

Diffusion-Proof: Primer marco para LLMs de difusión en demostración formal de teoremas

Diffusion-Proof es el primer marco para entrenar y aplicar modelos de lenguaje de difusión para la demostración formal de teoremas. Introduce dLLM-Prover-7B para la escritura completa de pruebas con coherencia a largo plazo y dLLM-Corrector-7- para la corrección local de pruebas utilizando información bidireccional. El marco supera las líneas base de LLMs autoregresivos en un 1.61% en ProofNet-Test y un 6.14% en MiniF2F-Test, y resuelve un problema del IMO más allá de la capacidad de DeepSeek-Prover-V2-7B.

arxiv arXiv cs.LG · hace 2 h

Ingeniería inversa de la atención en Transformers mediante programas ejecutables

Un nuevo método utiliza síntesis de programas para generar programas en Python que reproducen los patrones de atención en modelos Transformer. Estos programas logran más del 75% de similitud promedio Intersection-over-Union en datos no vistos y pueden reemplazar hasta el 25% de las cabezas de atención con impacto mínimo en el rendimiento del modelo, aumentando la perplexidad solo un 16% en promedio.