Todos los artículos
arxiv arXiv cs.AI · hace 2 h

HyGRAG: Marco unificado para Graph RAG consciente del contexto y las relaciones

HyGRAG introduce un marco de Graph RAG jerárquico que integra información contextual y relacional a través de resúmenes sintetizados. Permite la recuperación de conocimiento emergente mediante búsqueda consciente del contexto y las relaciones en múltiples niveles de abstracción y admite actualizaciones dinámicas con re-resumen local. Los experimentos muestran una mejora del 9,7% en la precisión del razonamiento multi-hop.

arxiv arXiv cs.AI · hace 2 h

EAGG: Generación de agarres alineada con la representación mediante condicionamiento gráfico consciente de la geometría

EAGG introduce un generador de agarres que alinea la estructura de la representación dentro de un modelo compartido utilizando gráficos conscientes de la topología y tokens conscientes de la geometría. Logra un 56,17% de éxito promedio en MultiGripperGrasp, igualando a modelos especializados dentro de 1,10 puntos porcentuales y reduciendo la distancia media de contacto de 0,239 cm a 0,189 cm.

arxiv arXiv cs.AI · hace 2 h

IsabeLLM: Demostración de Teoremas impulsada por IA para Verificación de Consenso

IsabeLLM, una herramienta automatizada de demostración de teoremas en Isabelle, incorpora un marco de Generación Aumentada por Recuperación, rastreo de errores y generación de contraejemplos para mejorar el contexto de los modelos de lenguaje grandes. La versión actualizada demuestra un mejor rendimiento en la verificación del protocolo de consenso de Prueba de Trabajo de Bitcoin en comparación con la original.

arxiv arXiv cs.AI · hace 2 h

Auto-distillación consciente de la calidad para el anclaje en GUI

Un nuevo método mejora el anclaje en GUI mediante el uso de puertas de corrección suave y escalado de probabilidades del maestro para mejorar las señales de los tokens de coordenadas del maestro. Estos componentes trabajan juntos para suprimir la supervisión poco fiable y calibrar las señales restantes, con experimentos que muestran mejoras consistentes en el rendimiento a través de seis puntos de referencia.

arxiv arXiv cs.AI · hace 2 h

ALeRCE lanza un sistema de texto a SQL con LLMs

La base de datos astronómica ALeRCE presenta un sistema de texto a SQL que utiliza modelos de lenguaje grandes, permitiendo consultas en lenguaje natural para generar SQL ejecutable. El sistema, evaluado en 110 pares NL/SQL, emplea un marco paso a paso que supera las líneas base de inferencia directa, con Claude Opus 4.6 logrando alta precisión en consultas simples y uno de los mejores rendimientos generales entre los modelos evaluados.

arxiv arXiv cs.AI · hace 2 h

Aprendiendo políticas óptimas de Pareto justas en aprendizaje por refuerzo multiobjetivo

El artículo presenta un marco para el aprendizaje por refuerzo multiobjetivo con múltiples políticas que aprende un conjunto de políticas óptimas de Pareto garantizando equidad entre diversas preferencias de usuarios. Demuestra que las políticas justas permanecen dentro del conjunto de cobertura convexa para funciones de bienestar cóncavas como GGF y propone tres algoritmos que incorporan políticas no estacionarias y estocásticas para adaptarse a inequidades históricas. Los resultados empíricos muestran que estos métodos aprenden efectivamente políticas justas en múltiples dominios.

arxiv arXiv cs.AI · hace 2 h

Ternary Mamba: QAT preentrenada para compresión eficiente de SSM

Ternary Mamba logra una compresión de 3.61x de Mamba-2 mediante entrenamiento cuantizado con conciencia de cuantización agrupado desde un checkpoint preentrenado, reduciendo la memoria de 2,687 a 744 MB. Alcanza una precisión zero-shot del 48.1% con solo 102M tokens y 4 GPU-hours, igualando a Bi-Mamba dentro de 0.9 puntos porcentuales, mientras revela nueva inestabilidad de las escalas de cuantización aprendibles y acumulación de errores en la recurrencia.

arxiv arXiv cs.AI · hace 2 h

Las inyecciones de triple llave en Handlebars explotan los delimitadores de rol estructural

La interpolación de triple llave de Handlebars no protege contra la inyección de rol estructural, ya que el escape HTML solo neutraliza los delimitadores de corchetes angulares. Deja intactos los delimitadores de dos puntos y hash de Markdown, permitiendo a los atacantes secuestrar los turnos del modelo. El escape predeterminado no proporciona protección para la mayoría de las familias de delimitadores y no puede reemplazar una separación estructural entre instrucción y datos.

arxiv arXiv cs.AI · hace 2 h

Flujo de trabajo de ML embebido para dispositivos de borde con microcontroladores

Este artículo describe un flujo de trabajo orientado a sistemas para el aprendizaje automático embebido en dispositivos de clase microcontroladora. Detalla decisiones clave de ingeniería como la muestreo de datos, extracción de características, validación del desbalance de clases, co-diseño modelo-tiempo de ejecución y despliegue en streaming, utilizando el reconocimiento de movimiento inercial y la detección de palabras clave como estudios de caso. El trabajo proporciona reglas prácticas de diseño para una inferencia robusta en dispositivo, incluyendo curación de datos, cuantización, umbralización, programación y monitoreo en campo.

arxiv arXiv cs.AI · hace 2 h

Presentación de COGNITIVE ATROPHY BENCH para interacciones de salud mental con LLM

Un nuevo benchmark, COGNITIVE ATROPHY BENCH, mide cómo los LLM inducen deterioro cognitivo en conversaciones de salud mental. Construido a partir de 1,576 sesiones de consejería generadas por humanos y evaluado por expertos clínicos, identifica patrones como consejos directivos y validación que pueden reducir la autonomía del usuario. La herramienta introduce métricas como UIRI y ARI para evaluar el riesgo de atrofia y rastrear trayectorias conductuales a lo largo de las interacciones con el usuario.

arxiv arXiv cs.AI · hace 2 h

Reutilización del Conocimiento Meta en el Aprendizaje por Refuerzo

Un nuevo marco aprende conocimiento a nivel de tarea en un agente simplificado y lo transfiere a agentes heterogéneos. Utiliza priors no paramétricos bayesianos y una política de alto nivel para generar guía de tareas, con una interfaz de magnitud semántica y un adaptador temporal para alinear el conocimiento meta con controladores específicos de la encarnación. Los experimentos muestran una reducción del 94.75% al 99.79% en el error de seguimiento del paso final y un rendimiento comparable utilizando el 23.8% de los datos de interacción de los métodos más avanzados.

arxiv arXiv cs.AI · hace 2 h

Presentación de C3GD: Un conjunto de datos público de audio de disparos

El conjunto de datos de clasificación de calibre de disparo Certus (C3GD) contiene más de 8000 muestras de audio de disparos recopiladas en campo, procedentes de 28 armas de fuego y 16 calibres. Ofrece metadatos detallados sobre armas de fuego, calibres, micrófonos y colocación, lo que permite un análisis académico sólido y aplicaciones del mundo real en la detección de disparos y el procesamiento de señales de audio.

arxiv arXiv cs.AI · hace 2 h

La resistencia de la memoria flash como capital depreciado en la memoria del robot

La resistencia de la memoria flash de un robot es un activo no renovable que se degrada con cada escritura. Un modelo de precios consciente del desgaste introduce un precio sombra $η$ para guiar la colocación de la memoria entre RAM, NVM y la nube, con el enrutamiento óptimo dependiendo de la asociación valor-escritura $χ$. Las mediciones empíricas muestran que $χ$ es positivo en manipulación a largo plazo, nulo en tareas a corto plazo y negativo en teleoperación, y el presupuesto de resistencia es limitante solo en memoria QLC/eMMC de gama baja, donde el control consciente del desgaste influye en el enrutamiento basado en el valor de la tarea sin mejorar el rendimiento.

arxiv arXiv cs.AI · hace 2 h

LEADS: Descubrimiento agéntico de modelos híbridos para la electrofisiología cardíaca

LEADS propone un marco que utiliza un agente LLM para descubrir modelos híbridos de electrofisiología cardíaca a través de un bucle iterativo de razonamiento y acción. Formula el conocimiento del dominio como un espacio de acciones estructurado, permitiendo diseños de modelos físicamente fundamentados, interpretables y numéricamente estables, superando tanto a los diseñados por humanos como a otros enfoques basados en LLM en datos cardíacos sintéticos y reales.