Todos los artículos
arxiv arXiv cs.AI · hace 1 h En vivo

ARIADNE: Enrutamiento agnóstico para la selección de adaptadores en tiempo de inferencia

ARIADNE permite la selección dinámica y sin entrenamiento de adaptadores en tiempo de inferencia utilizando centroides de los embeddings de los datos de entrenamiento de los adaptadores. Selecciona el adaptador más apropiado basándose en la proximidad en el espacio latente, sin requerir acceso a los internos del adaptador ni entrenamiento adicional, y logra una precisión promedio de selección del 89.7% en 44 tareas de PLN.

arxiv arXiv cs.AI · hace 1 h En vivo

ProductConsistency: Mejorar la identidad del producto en la edición de imágenes

El conjunto de datos ProductConsistency introduce 87k muestras SFT y 869 muestras RL para mejorar la preservación de la identidad del producto en la edición de imágenes. Incluye un benchmark para evaluación estandarizada y utiliza una recompensa de consistencia cíclica para imponer la identidad semántica del producto a través de la similitud de las descripciones. El ajuste fino de Qwen-Image-Edit-2511 y Flux.1-Kontext-dev muestra una reducción de 5 veces en la tasa de error de caracteres y una mejora en la renderización de texto y la calidad visual.

arxiv arXiv cs.AI · hace 1 h En vivo

Liderazgo como control de coordinación en equipos de LLM multiagente

Un estudio encuentra que los estilos de liderazgo en equipos de LLM multiagente solo mejoran el rendimiento cuando el consenso inicial es poco fiable, recuperable y no autocorregido por interacción no dirigida. El control de coordinación a nivel de proceso añade valor solo bajo condiciones específicas predichas por la ciencia de equipos, sin que un único estilo de liderazgo supere a los demás en precisión entre tareas y modelos.

arxiv arXiv cs.AI · hace 1 h En vivo

Hacia una Web Centrada en Agentes: Rediseñando la Web para Agentes de IA

Un nuevo artículo propone un rediseño fundamental de la web para priorizar el acceso de los agentes de IA, desafiando la larga asumida premisa de que los humanos son los usuarios principales de la web. Introduce reformas en las capas de acceso, económicas y de contenido —incluyendo encabezados HTTP identificables para agentes, modelos de suscripción basados en intención y un sistema criptográfico de procedencia— para habilitar a los agentes de IA como participantes de primera clase, con supervisión humana y responsabilidad integradas en la arquitectura.

arxiv arXiv cs.AI · hace 1 h En vivo

XAI revela los impulsores clave en los mercados europeos de electricidad

Un estudio utiliza técnicas SHAP y SSHAP para analizar los impulsores de los precios de la electricidad en 39 zonas de oferta europeas. Encuentra que la energía solar tiene un impacto desproporcionado en los precios, el gas sigue siendo un factor dominante, y las interconexiones destacan la interdependencia regional. La investigación también construye un mercado sintético a nivel de la UE para examinar un escenario totalmente integrado.

arxiv arXiv cs.AI · hace 1 h En vivo

Taxonomía técnica de protocolos de comunicación de agentes LLM

Una nueva taxonomía clasifica los protocolos de comunicación de agentes LLM en cinco dimensiones: contraparte, carga útil, estado de interacción, mecanismo de descubrimiento y flexibilidad del esquema. El análisis muestra que las cargas útiles híbridas, la persistencia del estado de sesión y la negociación de esquemas en tiempo de ejecución son comunes, mientras que el descubrimiento descentralizado sigue siendo raro. El estudio predice una convergencia a corto plazo hacia protocolos unificados de agente-a-agente y agente-a-contexto, y una evolución a largo plazo hacia una pila de protocolos federada y en capas.

arxiv arXiv cs.AI · hace 1 h En vivo

El marco de coevolución humano-IA revela la emergencia de la inteligencia social

El Marco de Dinámicas de Coevolución Humano-IA (HACD-H) introduce un modelo unificado para la interacción a largo plazo entre humanos e IA, integrando adaptación emocional, memoria y personalidad en un sistema autoorganizado. Los resultados muestran que la inteligencia social emerge a través de la coevolución, con una correlación negativa significativa entre la inteligencia social y la energía cognitiva social (r = -0.391, p < 0.001), y una reducción progresiva de la energía con el tiempo.

arxiv arXiv cs.AI · hace 1 h En vivo

OrthoReg: Regularización ortogonal para sistemas dinámicos híbridos simbólico-neurales

OrthoReg introduce regularización ortogonal para evitar que los componentes neurales reaprendan estructuras simbólicas en sistemas dinámicos híbridos. Al penalizar directamente la superposición entre las partes simbólicas y neurales, permite una descomplementaria donde los modelos simbólicos capturan la física expresable y los componentes neurales manejan la dinámica restante. En benchmarks con desajuste parcial de bibliotecas, OrthoReg mejora la recuperación simbólica y el rendimiento fuera de distribución.

arxiv arXiv cs.AI · hace 1 h En vivo

AdsMind: Sistema multiagente fundamentado en física para el descubrimiento de adsorción

AdsMind es un sistema multiagente de bucle cerrado que utiliza campos de fuerza basados en aprendizaje automático y retroalimentación para corregir errores en las búsquedas de configuraciones de adsorción sobre superficies catalíticas. Alcanza tasas de éxito del 100% y 98.8% en los benchmarks AA20 y OCD-GMAE62, reduce la dispersión energética 14 veces en comparación con las líneas base y mantiene los signos correctos de energía de adsorción en la validación DFT, superando a los agentes LLM de bucle abierto.

media Latent Space · hace 1 h En vivo

Radical AI logra una aceleración de 10x en el descubrimiento de materiales

Radical AI ha acelerado el descubrimiento de materiales al producir y caracterizar 1.200 aleaciones en seis meses, casi 10 veces más rápido que el objetivo de DARPA/GE MACH de 500 aleaciones en un año. Sus laboratorios autónomos utilizan científicos de IA para generar y probar hipótesis en sistemas de bucle cerrado, lo que ha llevado a 300 nuevos materiales, con 10 exhibiendo propiedades novedosas y de vanguardia que ahora se están desarrollando para uso comercial.

media Latent Space · hace 1 h En vivo

GLM-5.2 Reclama el Primer Puesto en Programación Frontend con Decodificación Especulativa

GLM-5.2, un modelo de 744B parámetros de Z.ai, ha sido evaluado como el mejor modelo de programación frontend a nivel mundial, superando a todas las versiones de Opus, incluyendo Opus 4.8. Este logro se destaca en evaluaciones de terceros que validan las pruebas oficiales offline, marcando un hito significativo para un modelo de su tamaño, particularmente en el competitivo dominio de la programación frontend.

arxiv arXiv cs.LG · hace 1 h En vivo

LegalHalluLens: Auditoría de alucinaciones en IA legal

LegalHalluLens presenta un marco para auditar alucinaciones de IA en contextos legales mediante el análisis de perfiles tipificados de alucinaciones en cuatro categorías de afirmaciones. Revela una brecha de 38-40 puntos entre las afirmaciones obligatorias/numéricas y temporales, y muestra que dos sistemas con tasas de alucinación idénticas del 52% pueden tener direcciones de riesgo opuestas. El marco utiliza un Índice de Dirección de Riesgo y pipelines de debate calibrados para reducir las detecciones fabricadas en un 45%, ofreciendo diagnósticos accionables para el despliegue confiable de IA legal.

arxiv arXiv cs.LG · hace 1 h En vivo

Los Modelos de Difusión Enmascarados Recursivos Introducen un Nuevo Eje de Escalado

Los Modelos de Difusión Enmascarados Recursivos (R-MDMs) introducen la profundidad recursiva como un tercer eje de escalado al reaplicar un transformador de denoising dentro de cada paso de difusión. Esta recursión permite el refinamiento iterativo de la salida sin aumentar el número de parámetros, logrando un rendimiento comparable al de modelos no recursivos con hasta L veces más parámetros, donde L es el número de iteraciones. Los R-MDMs también reducen el cómputo de inferencia al reemplazar parcialmente los pasos de denoising con refinamiento recursivo.

arxiv arXiv cs.LG · hace 1 h En vivo

LoopCoder-v2 logra el rendimiento óptimo en bucles anidados

LoopCoder-v2, un modelo Transformer de bucles paralelos, alcanza un rendimiento superior en generación y razonamiento de código con dos bucles, mejorando SWE-bench Verified de 43.0 a 64.4 puntos y Multi-SWE de 14.0 a 31.0 puntos. Las variantes con tres o más bucles tienen un rendimiento peor, lo que indica un efecto no monótono del conteo de bucles debido al creciente desajuste posicional y rendimientos decrecientes.

arxiv arXiv cs.AI · hace 1 h En vivo

LoopCoder-v2 logra un rendimiento óptimo en bucles anidados

LoopCoder-v2, un modelo Transformer de bucles paralelos, logra ganancias significativas en generación de código y razonamiento con dos bucles, mejorando SWE-bench Verified de 43.0 a 64.4 puntos y Multi-SWE de 14.0 a 31.0 puntos. Las variantes con tres o más bucles tienen un rendimiento peor, mostrando rendimientos decrecientes y actualizaciones oscilatorias debido a desajustes posicionales por desplazamientos entre bucles.

arxiv arXiv cs.LG · hace 2 h

INI-VPINN: Red neuronal informada por física con manejo implícito de fronteras

INI-VPINN es una red neuronal variacional informada por física que aplica implícitamente condiciones de Neumann e interfaz mediante funciones de ponderación de soporte compacto e integración por partes. Logra mayor precisión y convergencia más rápida que los métodos PINN existentes al resolver problemas multimatéricos con singularidades geométricas y condiciones mixtas de frontera, y está disponible públicamente en GitHub.

arxiv arXiv cs.LG · hace 2 h

Cuantificación de la incertidumbre para modelos de visión-lenguaje-acción basados en flujos

Proponemos un método que utiliza el desacuerdo del campo de velocidades para cuantificar la incertidumbre epistémica en modelos de visión-lenguaje-acción basados en emparejamiento de flujos. Esta estimación de la incertidumbre permite la detección de fallos durante el despliegue y el ajuste fino activo a través del marco SAVE, que reduce las demostraciones expertas en al menos un 22% en comparación con los métodos base, con predicciones mejor calibradas en el benchmark LIBERO.