Todos los artículos
arxiv arXiv cs.AI · hace 1 h En vivo

El espacio es inteligencia: Superposición de semigrupos neuronales para la generación de métricas riemannianas

La inteligencia está incrustada en el propio espacio, donde las escenas inducen una métrica riemanniana en los espacios de configuración. Una única red Encoder-Router utiliza superposición de semigrupos para generar esta métrica, permitiendo generalización zero-shot a través de configuraciones de obstáculos no vistas con grandes diferencias de costo entre rutas libres de colisiones y aquellas que penetran los obstáculos.

arxiv arXiv cs.AI · hace 1 h En vivo

La receta de datos mejora el razonamiento de contexto largo en LLMs

Un enfoque centrado en los datos mejora el razonamiento de contexto largo en modelos de lenguaje grandes, utilizando ocho conjuntos de datos curados con 14K ejemplos en tareas de recuperación, síntesis multi-evidencia y razonamiento. Al combinarse con entrenamiento GRPO basado mínimamente en resultados, logra ganancias promedio de +7.2 a +6.4 puntos en siete benchmarks, superando conjuntos de entrenamiento RL previos, y mejora el rendimiento agénico en +4.8 y +7.0 puntos en GAIA y BrowseComp respectivamente.

arxiv arXiv cs.AI · hace 1 h En vivo

TRUST: Recurso de Confianza Objetivo con Máquinas tSeTlin

TRUST permite a los usuarios especificar la confianza de predicción deseada al generar explicaciones contrafácticas. Al optimizar directamente para objetivos de confianza utilizando una Máquina Tsetlin Probabilística y optimización bayesiana, TRUST produce un recurso más robusto e interpretable que los métodos tradicionales basados en fronteras, logrando una robustez perfecta con bajo costo y alta confianza en conjuntos de datos del mundo real.

arxiv arXiv cs.AI · hace 1 h En vivo

El robot utiliza la experiencia previa del equipo para mejorar el éxito en rescates USAR

Un robot inicializado con un patrón de colaboración previo seleccionado mejoró el éxito en rescates del 25.7% al 41.3% en tareas de búsqueda y rescate urbano. Esta mejora redujo el tiempo promedio de la tarea en 283 segundos, con los mayores beneficios observados al inicio de las interacciones, lo que indica una transferencia efectiva del conocimiento de la tarea temprana a través de la memoria episódica.

arxiv arXiv cs.AI · hace 1 h En vivo

Skill-MAS: Evolución de Meta-Habilidades para Sistemas Multi-Agente Automáticos

Skill-MAS introduce un nuevo enfoque que desacopla la retención de experiencia de las actualizaciones paramétricas modelando la orquestación como una Meta-Habilidad evolutiva. Utiliza un proceso de bucle cerrado que involucra rollouts multi-trayectoria y reflexión selectiva para destilar principios de estrategia reutilizables, logrando fuertes mejoras de rendimiento y transferibilidad robusta entre tareas y LLMs.

arxiv arXiv cs.AI · hace 1 h En vivo

WorldLines: Evaluación de la memoria de agentes encarnados en horizontes temporales largos

WorldLines presenta una evaluación basada en proyectos para la asistencia doméstica encarnada en horizontes temporales largos, capturando secuencias extendidas del hogar con diálogos, acciones y cambios de estado. Permite muestras vinculadas a evidencia para Memoria QA y Planificación de Tareas Encarnadas, y propone ObsMem, un marco de memoria basado en observadores que soporta memorias conscientes de la visibilidad y decisiones conscientes del estado. Los experimentos destacan los desafíos en la observabilidad parcial y la traducción de memoria, con ObsMem proporcionando una arquitectura de referencia más sólida para este tipo de entornos.

arxiv arXiv cs.AI · hace 1 h En vivo

ImpSH mejora la detección de discurso de odio implícito en múltiples dominios

ImpSH, un marco basado en tripletes, alinea publicaciones con declaraciones implícitas y utiliza negativos semi-duros acotados por contexto para mejorar la detección de discurso de odio implícito. Evaluado en IHC, SBIC y DynaHate con BERT y HateBERT, ImpSH supera a los métodos contrastivos supervisados estándar en configuraciones de dominio cruzado, mostrando una generalización y estabilidad mejoradas.

arxiv arXiv cs.AI · hace 2 h

KinemaForge: Síntesis de URDF a partir de secuencias RGB-D

KinemaForge infiere conjuntamente la forma a nivel de partes, la topología de las articulaciones y los parámetros a partir de secuencias RGB-D utilizando un grafo de restricciones cinemáticas y un solucionador de ejes de tornillo diferenciable. Valida los resultados con un verificador consistente en energía, reduciendo el error del eje de la articulación y la deriva de la simulación, mientras mejora el éxito de la manipulación en bucle cerrado en 14,6 puntos porcentuales sobre Ditto.

arxiv arXiv cs.AI · hace 2 h

Escalado de AEB con datos masivos no etiquetados mediante SSL de meta-retroalimentación

Un marco de aprendizaje semi-supervisado de meta-retroalimentación permite escalar el frenado automático de emergencia utilizando datos masivos de flotas no etiquetados. El enfoque estabilizado reduce los errores de pseudo-etiquetas mediante desacoplamiento consciente del ruido y pseudo-etiquetado con compuerta cinemática, mejorando la seguridad con una relación de activaciones positivas a falsas de 100:1 y un 35% más de kilómetros de conducción sin accidentes en comparación con los sistemas basados en reglas.

arxiv arXiv cs.AI · hace 2 h

Redes neuronales conscientes del cambio de dominio para la estimación de masas desbalanceadas

Se propone una red neuronal consciente del cambio de dominio para estimar masas desbalanceadas en sistemas rotativos bajo condiciones variables. El modelo utiliza la discrepancia media máxima para alinear las representaciones de características entre diferentes dominios operativos, mejorando la precisión de la predicción cuando los comportamientos del sistema difieren de las condiciones de entrenamiento. Los resultados muestran su efectividad en aplicaciones de monitoreo de salud estructural.

arxiv arXiv cs.AI · hace 2 h

Destilación de continuación guiada por habilidades para agentes GUI

SGCD introduce un marco iterativo para mejorar los agentes GUI abordando las brechas de supervisión en estados fuera de trayectoria. Extrae habilidades tanto de rollouts exitosos como fallidos, utilizándolas para guiar continuaciones de políticas que se mezclan con trayectorias expertas. En OSWorld-Verified, SGCD aumenta las tasas de éxito de tres modelos base desde el 30% bajo hasta más del 50%.

arxiv arXiv cs.AI · hace 2 h

SAERec: Priors de intención de gran detalle mediante autoencoders dispersos

SAERec construye priors de intención de gran detalle e interpretables a partir de corpus textuales utilizando autoencoders dispersos para desentrañar la semántica relacionada con la intención. Recupera intenciones tanto personales como públicas para los usuarios, guiando las recomendaciones con explicaciones comprensibles para humanos y supera a los modelos más avanzados en conjuntos de datos públicos.

arxiv arXiv cs.AI · hace 2 h

TransitNet alcanza un 95,2 % de precisión en búsquedas de tránsitos con baja relación señal-ruido

TransitNet, un marco compacto de aprendizaje profundo aumentado con atención, alcanza un 95,2 % de precisión en búsquedas ciegas de tránsitos con baja relación señal-ruido, superando a TLS y BLS en valores de ROC-AUC y PR-AP. Recupera el 93,0 % de los tránsitos inyectados del tamaño de la Tierra y sub-Tierra, con el 97,4 % de los tránsitos inyectados completamente cubiertos por las ventanas de tránsito estimadas, y recupera con éxito los 34 planetas confirmados de Kepler con un error medio en el punto medio de 1,24 horas.

arxiv arXiv cs.AI · hace 2 h

SciRisk-Bench: Una evaluación de referencia consciente de las dimensiones del riesgo para la seguridad en IA4Science

SciRisk-Bench introduce una evaluación de referencia para evaluar la seguridad de IA4Science mediante la evaluación de modelos en 7 disciplinas, 31 subdisciplinas y 10 dimensiones de riesgo. Evalúa tanto LLMs mainstream como orientados a la ciencia para identificar brechas específicas en el reconocimiento y la evitación de riesgos dentro de contextos científicos de alto riesgo.

arxiv arXiv cs.AI · hace 2 h

Desacoplar la búsqueda del razonamiento en agentes LLM

La fundamentación de búsqueda desacoplada (DSG) separa la funcionalidad de búsqueda de los modelos de razonamiento, permitiendo una fundamentación de búsqueda agnóstica al proveedor, ajustable y reutilizable. DSG logra una precisión casi nativa en SimpleQA con un 91% menos de costo de búsqueda y una tasa de acierto en caché caliente del 99.4%, mientras reduce la latencia en un 68% y preserva los contratos de salida concisos.

arxiv arXiv cs.AI · hace 2 h

RTSGameBench: Un benchmark de RTS para el razonamiento estratégico

RTSGameBench aborda las limitaciones de los benchmarks de RTS existentes ofreciendo una jugabilidad diversa, diagnóstico de competencias específicas y generación de escenarios autoevolutivos. Evalúa modelos de visión y lenguaje en el razonamiento estratégico bajo incertidumbre, revelando que los modelos de última generación tienen dificultades con la coordinación multiagente y tareas a gran escala.

arxiv arXiv cs.AI · hace 2 h

La Aumento de GAN Cuántico No Muestra Beneficio en Resonancia Magnética Cerebral

Un benchmark controlado no encontró ganancia significativa de rendimiento de modelos generativos cuánticos en aumento de resonancia magnética cerebral. Las muestras sintéticas producidas por GANs cuánticas y clásicas fueron estadísticamente indistinguibles, mostrando ambas colapso de modo y muestras fuera de distribución, especialmente a fracciones bajas de datos. El estudio concluye que el aumento cuántico no proporciona expansión significativa de datos y actúa más como regularización.