Todos los artículos
arxiv arXiv cs.AI · hace 13 d

El Transformer de Visión LSTM mejora la predicción del error de pronóstico HRRR

Un marco híbrido de LSTM-Transformer de Visión mejora la predicción de errores de pronóstico HRRR al integrar perfiles atmosféricos de profilers mesonet. Logra hasta una mejora de dos veces en la predicción del error de precipitación, especialmente durante períodos activos de la capa límite planetaria, al capturar mejor la evolución del error convectivo y reducir la degradación relacionada con la PBL.

arxiv arXiv cs.AI · hace 13 d

Variabilidad en el software generado por IA: un enfoque de línea de productos

Un análisis exploratorio de 10 proyectos C/C++ codificados con "vibe" revela una variabilidad casi nula entre artefactos, con todas las decisiones resueltas durante la generación. El artículo propone Variabilidad por Regeneración (VbR), un enfoque de línea de productos donde un LLM actúa como motor de derivación, generando binarios adaptados a partir de especificaciones declarativas, con un despachador de variantes que enruta las solicitudes del usuario al binario correcto. VbR traslada la variabilidad a las especificaciones, no al código, ofreciendo un nuevo paradigma para la ingeniería de SPL.

arxiv arXiv cs.AI · hace 13 d

RODS: Síntesis de datos en línea impulsada por recompensa para agentes de uso de herramientas multi-turno

RODS aborda el agotamiento de muestras en RL de uso de herramientas multi-turno utilizando la varianza de la recompensa para detectar límites de capacidad. Sintetiza nuevos datos en tiempo real, coincidiendo con la complejidad estructural de las muestras límite, y mantiene un búfer de repetición dinámico que coevoluciona con la política. RODS logra un rendimiento comparable a una tubería offline de 17K muestras con 20x menos trayectorias.

arxiv arXiv cs.AI · hace 13 d

ARIADNE: Enrutamiento agnóstico para la selección de adaptadores en tiempo de inferencia

ARIADNE permite la selección dinámica y sin entrenamiento de adaptadores en tiempo de inferencia utilizando centroides de los embeddings de los datos de entrenamiento de los adaptadores. Selecciona el adaptador más apropiado basándose en la proximidad en el espacio latente, sin requerir acceso a los internos del adaptador ni entrenamiento adicional, y logra una precisión promedio de selección del 89.7% en 44 tareas de PLN.

arxiv arXiv cs.AI · hace 13 d

ProductConsistency: Mejorar la identidad del producto en la edición de imágenes

El conjunto de datos ProductConsistency introduce 87k muestras SFT y 869 muestras RL para mejorar la preservación de la identidad del producto en la edición de imágenes. Incluye un benchmark para evaluación estandarizada y utiliza una recompensa de consistencia cíclica para imponer la identidad semántica del producto a través de la similitud de las descripciones. El ajuste fino de Qwen-Image-Edit-2511 y Flux.1-Kontext-dev muestra una reducción de 5 veces en la tasa de error de caracteres y una mejora en la renderización de texto y la calidad visual.

arxiv arXiv cs.AI · hace 13 d

Liderazgo como control de coordinación en equipos de LLM multiagente

Un estudio encuentra que los estilos de liderazgo en equipos de LLM multiagente solo mejoran el rendimiento cuando el consenso inicial es poco fiable, recuperable y no autocorregido por interacción no dirigida. El control de coordinación a nivel de proceso añade valor solo bajo condiciones específicas predichas por la ciencia de equipos, sin que un único estilo de liderazgo supere a los demás en precisión entre tareas y modelos.

arxiv arXiv cs.AI · hace 13 d

Hacia una Web Centrada en Agentes: Rediseñando la Web para Agentes de IA

Un nuevo artículo propone un rediseño fundamental de la web para priorizar el acceso de los agentes de IA, desafiando la larga asumida premisa de que los humanos son los usuarios principales de la web. Introduce reformas en las capas de acceso, económicas y de contenido —incluyendo encabezados HTTP identificables para agentes, modelos de suscripción basados en intención y un sistema criptográfico de procedencia— para habilitar a los agentes de IA como participantes de primera clase, con supervisión humana y responsabilidad integradas en la arquitectura.

arxiv arXiv cs.AI · hace 13 d

XAI revela los impulsores clave en los mercados europeos de electricidad

Un estudio utiliza técnicas SHAP y SSHAP para analizar los impulsores de los precios de la electricidad en 39 zonas de oferta europeas. Encuentra que la energía solar tiene un impacto desproporcionado en los precios, el gas sigue siendo un factor dominante, y las interconexiones destacan la interdependencia regional. La investigación también construye un mercado sintético a nivel de la UE para examinar un escenario totalmente integrado.

arxiv arXiv cs.AI · hace 13 d

Taxonomía técnica de protocolos de comunicación de agentes LLM

Una nueva taxonomía clasifica los protocolos de comunicación de agentes LLM en cinco dimensiones: contraparte, carga útil, estado de interacción, mecanismo de descubrimiento y flexibilidad del esquema. El análisis muestra que las cargas útiles híbridas, la persistencia del estado de sesión y la negociación de esquemas en tiempo de ejecución son comunes, mientras que el descubrimiento descentralizado sigue siendo raro. El estudio predice una convergencia a corto plazo hacia protocolos unificados de agente-a-agente y agente-a-contexto, y una evolución a largo plazo hacia una pila de protocolos federada y en capas.

arxiv arXiv cs.AI · hace 13 d

El marco de coevolución humano-IA revela la emergencia de la inteligencia social

El Marco de Dinámicas de Coevolución Humano-IA (HACD-H) introduce un modelo unificado para la interacción a largo plazo entre humanos e IA, integrando adaptación emocional, memoria y personalidad en un sistema autoorganizado. Los resultados muestran que la inteligencia social emerge a través de la coevolución, con una correlación negativa significativa entre la inteligencia social y la energía cognitiva social (r = -0.391, p < 0.001), y una reducción progresiva de la energía con el tiempo.

arxiv arXiv cs.AI · hace 13 d

OrthoReg: Regularización ortogonal para sistemas dinámicos híbridos simbólico-neurales

OrthoReg introduce regularización ortogonal para evitar que los componentes neurales reaprendan estructuras simbólicas en sistemas dinámicos híbridos. Al penalizar directamente la superposición entre las partes simbólicas y neurales, permite una descomplementaria donde los modelos simbólicos capturan la física expresable y los componentes neurales manejan la dinámica restante. En benchmarks con desajuste parcial de bibliotecas, OrthoReg mejora la recuperación simbólica y el rendimiento fuera de distribución.

arxiv arXiv cs.AI · hace 13 d

AdsMind: Sistema multiagente fundamentado en física para el descubrimiento de adsorción

AdsMind es un sistema multiagente de bucle cerrado que utiliza campos de fuerza basados en aprendizaje automático y retroalimentación para corregir errores en las búsquedas de configuraciones de adsorción sobre superficies catalíticas. Alcanza tasas de éxito del 100% y 98.8% en los benchmarks AA20 y OCD-GMAE62, reduce la dispersión energética 14 veces en comparación con las líneas base y mantiene los signos correctos de energía de adsorción en la validación DFT, superando a los agentes LLM de bucle abierto.

blog Simon Willison · hace 13 d

GLM-5.2 es el modelo de pesos abiertos líder en el Índice de Inteligencia de Artificial Analysis

GLM-5.2, un modelo de solo texto con 753B parámetros de Z.ai, es ahora el modelo de pesos abiertos principal en el Índice de Inteligencia de Artificial Analysis, superando a MiniMax-M3, DeepSeek V4 Pro y Kimi K2.6. Cuenta con una ventana de contexto de 1 millón de tokens y ocupa el segundo lugar en la tabla de clasificación Code Arena WebDev, a pesar de carecer de capacidades de entrada de imagen.

lab Claude Code Releases · hace 14 d

Notas de la versión de Claude Code v2.1.181

Claude Code v2.1.181 introduce soporte para configurar ajustes mediante sintaxis de prompt como /config thinking=false, añade soporte para eventos Apple en sandbox en macOS y mejora el streaming, el reintento automático y el comportamiento del subagente. También corrige numerosos errores relacionados con el inicio, el manejo de archivos, el portapapeles y la respuesta de la interfaz de usuario en todas las plataformas.