Todos los artículos
arxiv arXiv cs.AI · hace 1 h En vivo

Desacoplar la búsqueda del razonamiento en agentes LLM

La fundamentación de búsqueda desacoplada (DSG) separa la funcionalidad de búsqueda de los modelos de razonamiento, permitiendo una fundamentación de búsqueda agnóstica al proveedor, ajustable y reutilizable. DSG logra una precisión casi nativa en SimpleQA con un 91% menos de costo de búsqueda y una tasa de acierto en caché caliente del 99.4%, mientras reduce la latencia en un 68% y preserva los contratos de salida concisos.

arxiv arXiv cs.AI · hace 1 h En vivo

RTSGameBench: Un benchmark de RTS para el razonamiento estratégico

RTSGameBench aborda las limitaciones de los benchmarks de RTS existentes ofreciendo una jugabilidad diversa, diagnóstico de competencias específicas y generación de escenarios autoevolutivos. Evalúa modelos de visión y lenguaje en el razonamiento estratégico bajo incertidumbre, revelando que los modelos de última generación tienen dificultades con la coordinación multiagente y tareas a gran escala.

arxiv arXiv cs.AI · hace 1 h En vivo

La Aumento de GAN Cuántico No Muestra Beneficio en Resonancia Magnética Cerebral

Un benchmark controlado no encontró ganancia significativa de rendimiento de modelos generativos cuánticos en aumento de resonancia magnética cerebral. Las muestras sintéticas producidas por GANs cuánticas y clásicas fueron estadísticamente indistinguibles, mostrando ambas colapso de modo y muestras fuera de distribución, especialmente a fracciones bajas de datos. El estudio concluye que el aumento cuántico no proporciona expansión significativa de datos y actúa más como regularización.

arxiv arXiv cs.AI · hace 1 h En vivo

CAPRA: Sistema de LLM multiagente para retroalimentación de arquitectura de software

CAPRA es un sistema de LLM multiagente que genera retroalimentación en LaTeX personalizada y conforme a plantillas sobre entregables de arquitectura de software. Utiliza agentes especializados, PyMuPDF y gpt-4o para extraer y analizar texto y diagramas UML, con anclaje de evidencia y gestión de consistencia para garantizar la fiabilidad. Una evaluación preliminar de 10 informes estudiantiles muestra que CAPRA cumplió el 88.8% de ocho criterios y logró un acuerdo moderado entre evaluadores (kappa = 0.582), con cada informe procesado en menos de 4 minutos.

arxiv arXiv cs.AI · hace 1 h En vivo

ThinkDeception: Marco de detección de engaño multimodal interpretable

ThinkDeception introduce un marco de aprendizaje por refuerzo progresivo que permite la detección de engaño multimodal interpretable. Aprovecha un conjunto de datos de Cadena de Pensamiento anotado paso a paso y propone la Optimización de Política Relativa Grupal Visual-Audio con un currículo dinámico, mejorando la calidad del razonamiento y superando a los métodos existentes en benchmarks principales.

arxiv arXiv cs.AI · hace 1 h En vivo

G-IdiomAlign: Benchmark con pivote de glosa para la alineación de modismos multilingües

G-IdiomAlign introduce un benchmark con pivote de glosa que utiliza glosas en inglés de Wiktionary para anclar los modismos. Incluye protocolos de equivalencia de opción múltiple controlada y generación contrastiva de glosas, mostrando que las glosas mejoran el rendimiento en la alineación semántica basada en embeddings, aunque los resultados siguen siendo modestos, lo que indica un potencial significativo de mejora en la generación de modismos multilingües.

arxiv arXiv cs.AI · hace 1 h En vivo

TRAP: Benchmark para la finalización de tareas y resistencia a la extracción activa de privacidad

TRAP evalúa qué tan bien los modelos completan tareas utilizando datos privados sin filtrarlos. En 22 modelos, todos muestran una filtración de privacidad no trivial, con la capacidad de seguir instrucciones vinculada a una mayor filtración. El aislamiento estructural de campos privados previene la filtración reemplazando los campos privados con claves hash, manteniendo la precisión de la tarea sin sacrificar la privacidad.

arxiv arXiv cs.AI · hace 1 h En vivo

FoMoE rompe la barrera de réplicas completas con capas de expertos particionadas

FoMoE introduce un sistema que particiona las capas de expertos entre trabajadores para evitar réplicas completas del modelo, reduciendo los costos de comunicación hasta 1.42x en comparación con las bases eficientes y 45.44x en comparación con DDP. Logra aceleraciones de rendimiento de hasta 1.4x mediante un mecanismo de salto de tokens y demuestra un enrutamiento estable, con beneficios proyectados que se extienden a modelos de escala 100B a través del modelado del sistema.

arxiv arXiv cs.AI · hace 1 h En vivo

El Transformer de Visión LSTM mejora la predicción del error de pronóstico HRRR

Un marco híbrido de LSTM-Transformer de Visión mejora la predicción de errores de pronóstico HRRR al integrar perfiles atmosféricos de profilers mesonet. Logra hasta una mejora de dos veces en la predicción del error de precipitación, especialmente durante períodos activos de la capa límite planetaria, al capturar mejor la evolución del error convectivo y reducir la degradación relacionada con la PBL.

arxiv arXiv cs.AI · hace 1 h En vivo

Variabilidad en el software generado por IA: un enfoque de línea de productos

Un análisis exploratorio de 10 proyectos C/C++ codificados con "vibe" revela una variabilidad casi nula entre artefactos, con todas las decisiones resueltas durante la generación. El artículo propone Variabilidad por Regeneración (VbR), un enfoque de línea de productos donde un LLM actúa como motor de derivación, generando binarios adaptados a partir de especificaciones declarativas, con un despachador de variantes que enruta las solicitudes del usuario al binario correcto. VbR traslada la variabilidad a las especificaciones, no al código, ofreciendo un nuevo paradigma para la ingeniería de SPL.

arxiv arXiv cs.AI · hace 1 h En vivo

RODS: Síntesis de datos en línea impulsada por recompensa para agentes de uso de herramientas multi-turno

RODS aborda el agotamiento de muestras en RL de uso de herramientas multi-turno utilizando la varianza de la recompensa para detectar límites de capacidad. Sintetiza nuevos datos en tiempo real, coincidiendo con la complejidad estructural de las muestras límite, y mantiene un búfer de repetición dinámico que coevoluciona con la política. RODS logra un rendimiento comparable a una tubería offline de 17K muestras con 20x menos trayectorias.

arxiv arXiv cs.AI · hace 1 h En vivo

ARIADNE: Enrutamiento agnóstico para la selección de adaptadores en tiempo de inferencia

ARIADNE permite la selección dinámica y sin entrenamiento de adaptadores en tiempo de inferencia utilizando centroides de los embeddings de los datos de entrenamiento de los adaptadores. Selecciona el adaptador más apropiado basándose en la proximidad en el espacio latente, sin requerir acceso a los internos del adaptador ni entrenamiento adicional, y logra una precisión promedio de selección del 89.7% en 44 tareas de PLN.

arxiv arXiv cs.AI · hace 1 h En vivo

ProductConsistency: Mejorar la identidad del producto en la edición de imágenes

El conjunto de datos ProductConsistency introduce 87k muestras SFT y 869 muestras RL para mejorar la preservación de la identidad del producto en la edición de imágenes. Incluye un benchmark para evaluación estandarizada y utiliza una recompensa de consistencia cíclica para imponer la identidad semántica del producto a través de la similitud de las descripciones. El ajuste fino de Qwen-Image-Edit-2511 y Flux.1-Kontext-dev muestra una reducción de 5 veces en la tasa de error de caracteres y una mejora en la renderización de texto y la calidad visual.

arxiv arXiv cs.AI · hace 1 h En vivo

Liderazgo como control de coordinación en equipos de LLM multiagente

Un estudio encuentra que los estilos de liderazgo en equipos de LLM multiagente solo mejoran el rendimiento cuando el consenso inicial es poco fiable, recuperable y no autocorregido por interacción no dirigida. El control de coordinación a nivel de proceso añade valor solo bajo condiciones específicas predichas por la ciencia de equipos, sin que un único estilo de liderazgo supere a los demás en precisión entre tareas y modelos.

arxiv arXiv cs.AI · hace 1 h En vivo

Hacia una Web Centrada en Agentes: Rediseñando la Web para Agentes de IA

Un nuevo artículo propone un rediseño fundamental de la web para priorizar el acceso de los agentes de IA, desafiando la larga asumida premisa de que los humanos son los usuarios principales de la web. Introduce reformas en las capas de acceso, económicas y de contenido —incluyendo encabezados HTTP identificables para agentes, modelos de suscripción basados en intención y un sistema criptográfico de procedencia— para habilitar a los agentes de IA como participantes de primera clase, con supervisión humana y responsabilidad integradas en la arquitectura.

arxiv arXiv cs.AI · hace 1 h En vivo

XAI revela los impulsores clave en los mercados europeos de electricidad

Un estudio utiliza técnicas SHAP y SSHAP para analizar los impulsores de los precios de la electricidad en 39 zonas de oferta europeas. Encuentra que la energía solar tiene un impacto desproporcionado en los precios, el gas sigue siendo un factor dominante, y las interconexiones destacan la interdependencia regional. La investigación también construye un mercado sintético a nivel de la UE para examinar un escenario totalmente integrado.

arxiv arXiv cs.AI · hace 1 h En vivo

Taxonomía técnica de protocolos de comunicación de agentes LLM

Una nueva taxonomía clasifica los protocolos de comunicación de agentes LLM en cinco dimensiones: contraparte, carga útil, estado de interacción, mecanismo de descubrimiento y flexibilidad del esquema. El análisis muestra que las cargas útiles híbridas, la persistencia del estado de sesión y la negociación de esquemas en tiempo de ejecución son comunes, mientras que el descubrimiento descentralizado sigue siendo raro. El estudio predice una convergencia a corto plazo hacia protocolos unificados de agente-a-agente y agente-a-contexto, y una evolución a largo plazo hacia una pila de protocolos federada y en capas.