Todos los artículos
arxiv arXiv cs.AI · hace 1 h En vivo

ProvenanceGuard: Verificación de factualidad consciente de la fuente para agentes LLM basados en MCP

ProvenanceGuard introduce un verificador consciente de la fuente para agentes LLM basados en MCP que detecta la confluencia entre fuentes al enrutar afirmaciones a fuentes de evidencia específicas y comparar la atribución declarada con la propiedad real de la fuente. Logra un F1 por bloque de 0.802 y una precisión de fuente de 0.858 en 260 afirmaciones elegibles por fuente, superando a las líneas base ciegas a la fuente, y detecta todos los intercambios de atribución inyectados en 50 pruebas clínicas.

arxiv arXiv cs.AI · hace 1 h En vivo

La experiencia vivida sintética de la IA en el apoyo al cuidado

Los LLM pueden generar respuestas similares a las de pares que imitan narrativas personales, creando una falsa impresión de experiencia vivida. El análisis psicolingüístico muestra que la IA utiliza menos lenguaje en primera persona y centrado en el pasado que los humanos, y a menudo fabrica fundamentos experienciales. Esto revela una brecha en la autenticidad narrativa, requiriendo que los sistemas de IA distingan entre un marco de apoyo y una experiencia vivida fabricada.

arxiv arXiv cs.AI · hace 1 h En vivo

PseudoBench: Evaluación de la resistencia de los sistemas de auto-investigación agéntica frente a la seudociencia

PseudoBench evalúa la capacidad de los sistemas de auto-investigación agéntica para detectar afirmaciones seudocientíficas. Al probar siete agentes de última generación, encuentra tasas de rechazo cercanas a cero y solo un 27,4% de resistencia a las narrativas seudocientíficas. Los sistemas actuales suelen presentar la seudociencia con lenguaje científico creíble, lo que destaca un riesgo crítico para la integridad científica.

arxiv arXiv cs.AI · hace 1 h En vivo

Indicaciones de seguridad y privacidad en conversaciones usuario-LLM

Un estudio de 14.727 indicaciones de seguridad y privacidad de 3,2M de conversaciones reales entre usuarios y LLMs identifica nueve categorías de preguntas de S&P. El análisis temático y las pruebas de respuesta muestran que los LLMs comerciales superan a los modelos abiertos, con GPT 5.5 proporcionando buenas respuestas en el 98% de las indicaciones frente al 47% de Llama 4, aunque algunos modelos comerciales producen respuestas inconsistentes entre ejecuciones.

arxiv arXiv cs.AI · hace 1 h En vivo

ScaFE: Uso de LLMs para extraer características clínicamente significativas de cicatrices

ScaFE propone el uso de modelos de lenguaje grandes como ingenieros de características para transformar imágenes médicas en representaciones clínicamente interpretables. Al generar código Python determinista a partir de criterios establecidos de evaluación de cicatrices, extrae características alineadas con sistemas de puntuación clínica como la Escala de Cicatrices de Vancouver. El método logra un rendimiento superior con datos limitados, con ventajas en eficiencia de datos, preservación de la privacidad e interpretabilidad.

arxiv arXiv cs.AI · hace 1 h En vivo

El marco de IA agente reduce errores diagnósticos en la atención médica

Un marco de IA multiagente aborda el traspaso prematuro del diagnóstico y las alucinaciones silenciosas en la atención médica mediante la aplicación estricta de protocolos clínicos estructurados y la cuantificación de la incertidumbre epistémica. Las evaluaciones en 150 casos simulados muestran una precisión diagnóstica del 49,3%, una mejora de 11,3 puntos porcentuales sobre la línea base, con una correlación negativa estadísticamente significativa entre la completitud de OLDCARTS y la incertidumbre diagnóstica.

arxiv arXiv cs.AI · hace 1 h En vivo

Los Modelos Generativos de Volterra Introducen Ruido Fraccional para la Generación Basada en Puntuación

Los modelos generativos de Volterra proponen un marco continuo basado en puntuación que utiliza núcleos fraccionarios para inyectar ruido dependiente de la trayectoria, evitando el ruido sin memoria en los modelos de difusión tradicionales. El enfoque emplea elevaciones markovianas de dimensión finita y demuestra una generación mejorada en MNIST y CIFAR-10, con un muestreador de puente que mejora la estabilidad para modelos más grandes.

arxiv arXiv cs.AI · hace 1 h En vivo

HyGRAG: Marco unificado para Graph RAG consciente del contexto y las relaciones

HyGRAG introduce un marco de Graph RAG jerárquico que integra información contextual y relacional a través de resúmenes sintetizados. Permite la recuperación de conocimiento emergente mediante búsqueda consciente del contexto y las relaciones en múltiples niveles de abstracción y admite actualizaciones dinámicas con re-resumen local. Los experimentos muestran una mejora del 9,7% en la precisión del razonamiento multi-hop.

arxiv arXiv cs.AI · hace 1 h En vivo

EAGG: Generación de agarres alineada con la representación mediante condicionamiento gráfico consciente de la geometría

EAGG introduce un generador de agarres que alinea la estructura de la representación dentro de un modelo compartido utilizando gráficos conscientes de la topología y tokens conscientes de la geometría. Logra un 56,17% de éxito promedio en MultiGripperGrasp, igualando a modelos especializados dentro de 1,10 puntos porcentuales y reduciendo la distancia media de contacto de 0,239 cm a 0,189 cm.

arxiv arXiv cs.AI · hace 1 h En vivo

IsabeLLM: Demostración de Teoremas impulsada por IA para Verificación de Consenso

IsabeLLM, una herramienta automatizada de demostración de teoremas en Isabelle, incorpora un marco de Generación Aumentada por Recuperación, rastreo de errores y generación de contraejemplos para mejorar el contexto de los modelos de lenguaje grandes. La versión actualizada demuestra un mejor rendimiento en la verificación del protocolo de consenso de Prueba de Trabajo de Bitcoin en comparación con la original.

arxiv arXiv cs.AI · hace 1 h En vivo

Auto-distillación consciente de la calidad para el anclaje en GUI

Un nuevo método mejora el anclaje en GUI mediante el uso de puertas de corrección suave y escalado de probabilidades del maestro para mejorar las señales de los tokens de coordenadas del maestro. Estos componentes trabajan juntos para suprimir la supervisión poco fiable y calibrar las señales restantes, con experimentos que muestran mejoras consistentes en el rendimiento a través de seis puntos de referencia.

arxiv arXiv cs.AI · hace 1 h En vivo

ALeRCE lanza un sistema de texto a SQL con LLMs

La base de datos astronómica ALeRCE presenta un sistema de texto a SQL que utiliza modelos de lenguaje grandes, permitiendo consultas en lenguaje natural para generar SQL ejecutable. El sistema, evaluado en 110 pares NL/SQL, emplea un marco paso a paso que supera las líneas base de inferencia directa, con Claude Opus 4.6 logrando alta precisión en consultas simples y uno de los mejores rendimientos generales entre los modelos evaluados.

arxiv arXiv cs.AI · hace 1 h En vivo

Aprendiendo políticas óptimas de Pareto justas en aprendizaje por refuerzo multiobjetivo

El artículo presenta un marco para el aprendizaje por refuerzo multiobjetivo con múltiples políticas que aprende un conjunto de políticas óptimas de Pareto garantizando equidad entre diversas preferencias de usuarios. Demuestra que las políticas justas permanecen dentro del conjunto de cobertura convexa para funciones de bienestar cóncavas como GGF y propone tres algoritmos que incorporan políticas no estacionarias y estocásticas para adaptarse a inequidades históricas. Los resultados empíricos muestran que estos métodos aprenden efectivamente políticas justas en múltiples dominios.

arxiv arXiv cs.AI · hace 1 h En vivo

Ternary Mamba: QAT preentrenada para compresión eficiente de SSM

Ternary Mamba logra una compresión de 3.61x de Mamba-2 mediante entrenamiento cuantizado con conciencia de cuantización agrupado desde un checkpoint preentrenado, reduciendo la memoria de 2,687 a 744 MB. Alcanza una precisión zero-shot del 48.1% con solo 102M tokens y 4 GPU-hours, igualando a Bi-Mamba dentro de 0.9 puntos porcentuales, mientras revela nueva inestabilidad de las escalas de cuantización aprendibles y acumulación de errores en la recurrencia.

arxiv arXiv cs.AI · hace 1 h En vivo

Las inyecciones de triple llave en Handlebars explotan los delimitadores de rol estructural

La interpolación de triple llave de Handlebars no protege contra la inyección de rol estructural, ya que el escape HTML solo neutraliza los delimitadores de corchetes angulares. Deja intactos los delimitadores de dos puntos y hash de Markdown, permitiendo a los atacantes secuestrar los turnos del modelo. El escape predeterminado no proporciona protección para la mayoría de las familias de delimitadores y no puede reemplazar una separación estructural entre instrucción y datos.

arxiv arXiv cs.AI · hace 1 h En vivo

Flujo de trabajo de ML embebido para dispositivos de borde con microcontroladores

Este artículo describe un flujo de trabajo orientado a sistemas para el aprendizaje automático embebido en dispositivos de clase microcontroladora. Detalla decisiones clave de ingeniería como la muestreo de datos, extracción de características, validación del desbalance de clases, co-diseño modelo-tiempo de ejecución y despliegue en streaming, utilizando el reconocimiento de movimiento inercial y la detección de palabras clave como estudios de caso. El trabajo proporciona reglas prácticas de diseño para una inferencia robusta en dispositivo, incluyendo curación de datos, cuantización, umbralización, programación y monitoreo en campo.