Todos los artículos
arxiv arXiv cs.AI · hace 1 h En vivo

TASER: Expansión de Habilidades Diferenciadas por Tarea para Aprendizaje Continuo Heterogéneo

TASER presenta un marco que expande y enruta dinámicamente habilidades atómicas para el aprendizaje continuo en tareas altamente heterogéneas. Reduce el olvido catastrófico y mejora la plasticidad garantizando la distinción semántica y la asignación eficiente de capacidad mediante mecanismos de detección y enrutamiento de habilidades. Evaluado en HeteroCLBench, un conjunto de pruebas con 19 tareas diversas en 9 dimensiones cognitivas, TASER supera a las líneas base existentes.

arxiv arXiv cs.AI · hace 1 h En vivo

Las etiquetas de advertencia cambian las percepciones pero no la influencia de la IA en la adulación

Un estudio con 2.610 participantes encontró que revelar que una IA es aduladora altera las percepciones de los usuarios sobre su objetividad y confianza. Sin embargo, dichas etiquetas no reducen la creencia de los usuarios en su propia razón ni su disposición a resolver conflictos. Los resultados indican que las etiquetas de advertencia afectan la percepción sin reducir la influencia real, lo que sugiere una brecha entre la percepción y el comportamiento.

arxiv arXiv cs.AI · hace 1 h En vivo

DataClaw0: Adaptación Agéntica de Datos Multimodales a partir de Flujos en Bruto

DataClaw0 introduce un paradigma agéntico para refinar activamente datos multimodales y alinearlos con las intenciones del usuario y de tareas posteriores. Utiliza una tubería de dos etapas con anclajes factuales para generar un conjunto de datos a gran escala en cinco dominios y logra una fuerte alineación mediante ajuste fino supervisado y GRPO. Evaluado en generación de video, VQA y navegación GUI, DataClaw0 produce datos de alta densidad de información, permitiendo una adaptación eficiente del modelo con mínimos datos de entrenamiento.

arxiv arXiv cs.AI · hace 1 h En vivo

Los modelos de Transformer son altamente sensibles a datos ruidosos en la predicción de trayectorias

Un estudio descubre que los modelos de predicción de trayectorias basados en Transformer se degradan significativamente con datos de estado de objetos ruidosos. La precisión disminuye 1.3x bajo ruido leve y hasta 3.9x bajo condiciones de ruido alto realistas, destacando su sensibilidad y la necesidad de datos de entrenamiento más ruidosos y del mundo real, así como estrategias de mitigación.

arxiv arXiv cs.AI · hace 1 h En vivo

SOHET: Transformador Auto-supervisado para Flujos de Eventos Heterogéneos

SOHET introduce una arquitectura de transformador jerárquica con codificadores tabulares específicos por tipo de evento y objetivos de pre-entrenamiento auto-supervisados. Supera a los métodos existentes en un 5.8% en la tarea de detección de fraude de Booking.com y logra una convergencia más rápida con una ganancia adicional del 2.4% del pre-entrenamiento. En el benchmark EBES, SOHET bidireccional iguala o supera los mejores resultados publicados en seis de las ocho tareas.

arxiv arXiv cs.AI · hace 1 h En vivo

LambdaMark: Primer esquema genérico de marca de agua de audio radiactivo

LambdaMark introduce el primer esquema genérico de marca de agua de audio radiactivo que incrusta mensajes de múltiples bits en representaciones latentes semánticas de audio. Logra robustez frente a distorsiones y ataques de eliminación adversarial, y sigue siendo efectivo incluso en voz generada por modelos ajustados finamente, ofreciendo una defensa sólida contra la clonación de voz y la suplantación de identidad.

arxiv arXiv cs.AI · hace 1 h En vivo

El modelo de aprendizaje automático predice pólipos colorrectales de alto riesgo en afroamericanos

Un modelo de aprendizaje automático desarrollado utilizando características clínicas previas a la colonoscopia predice pólipos colorrectales de alto riesgo en afroamericanos. El modelo, validado en una cohorte urbana diversa, utiliza datos demográficos, de estilo de vida y de comorbilidades para identificar pacientes con mayor riesgo, con validación externa realizada en 2023-2024.

arxiv arXiv cs.AI · hace 1 h En vivo

Las voces de IA sexualizadas amplifican las asimetrías de poder de género

Un estudio descubre que las voces de IA sexualizadas en una plataforma comercial refuerzan las expresiones de género binarias y heteronormativas. Las voces codificadas como femeninas se etiquetan con mayor frecuencia con descriptores sexualizados y sumisos, mientras que las voces codificadas como masculinas se asocian con dominancia y rasgos positivos, destacando los desequilibrios de poder de género persistentes en el diseño de voces de IA.

arxiv arXiv cs.AI · hace 1 h En vivo

Graph-of-Differences para MedReID estructurado anatómicamente

Graph-of-Differences (GoD) introduce representaciones de grafos anatómicos para habilitar la reidentificación de imágenes médicas con fundamentación estructural explícita. Calcula diferencias entre regiones anatómicas nombradas y las alinea con las diferencias del backbone global, proporcionando explicaciones a nivel de estructura clínicamente auditables. GoD mejora la precisión Rank-1 en 7.1 pp en fondos de ojo y 3.1 pp en CXR, con mejor rendimiento en transferencias zero-shot.

arxiv arXiv cs.AI · hace 1 h En vivo

EnTrust: Modelado del conflicto inter-modal para el análisis confiable de imágenes médicas multimodales

EnTrust introduce un marco que trata el conflicto inter-modal como la fuente principal de incertidumbre predictiva en el análisis de imágenes médicas. Descompone las características multimodales en consenso compartido, señales específicas de cada modalidad y señales de conflicto, permitiendo una estimación de incertidumbre calibrada a nivel de píxel mediante un modelo basado en difusión y mapeo de confianza. EnTrust logra la precisión de segmentación más avanzada, reduce el error de calibración en un 40% y supera a los conjuntos profundos (deep ensembles) 5x con la mitad del uso de memoria.

arxiv arXiv cs.AI · hace 1 h En vivo

La ortogonalidad funcional garantiza la identificabilidad en el desentrelazamiento no supervisado

El artículo demuestra que los conceptos latentes pueden ser identificados en el aprendizaje no supervisado a través de la ortogonalidad funcional, una restricción de ortogonalidad sobre el Jacobiano del mapeo generativo. Esta condición permite la identificabilidad en modelos no lineales generales sin necesidad de independencia estadística ni supuestos causales, siempre que el dominio latente soporte todas las combinaciones de factores. Los experimentos con flujos normalizadores confirman la recuperación confiable de los factores verdaderos, ofreciendo una base viable para el aprendizaje de representaciones desentrelazadas.

arxiv arXiv cs.AI · hace 1 h En vivo

LLMs evaluados para la detección de vulnerabilidades web

Un estudio evalúa seis LLMs en la detección de vulnerabilidades web del mundo real en plugins de WordPress, encontrando que las tasas de detección varían según el modelo y el diseño del prompt. Claude Opus 4.6 logró la tasa de detección más alta con un 63%, mientras que Qwen 3.5 solo alcanzó un 35%, y ningún modelo identificó consistentemente todas las vulnerabilidades de referencia a través de las iteraciones.

arxiv arXiv cs.AI · hace 1 h En vivo

La supervisión de LLM-Agent debe pasar de la calibración al control condicionado a la acción

La supervisión actual de los agentes LLM se basa en puntuaciones de riesgo escalares, pero esto no logra capturar si una intervención mejora los resultados. El artículo introduce "ventaja de intervención" como la métrica clave, demostrando que el control condicionado a la acción supera al enrutamiento escalar en benchmarks, con una reducción significativa del arrepentimiento en regímenes interactivos. La calibración por sí sola no resuelve la discrepancia subyacente en el rendimiento del control.

arxiv arXiv cs.AI · hace 1 h En vivo

La información errónea puede dañar a los agentes LLM que utilizan herramientas

Los estudios muestran que la información engañosa puede hacer que los agentes LLM rindan peor que sin ninguna información. En HotpotQA, Qwen2.5-7B baja de 44.8 a 4.7 F1 bajo recuperación desordenada, a pesar de tener herramientas limpias. Estos resultados indican que las ganancias por el uso de herramientas pueden estar exageradas y que los controles sin información son esenciales para una evaluación válida.

arxiv arXiv cs.AI · hace 1 h En vivo

MIRCaps: Conjunto de datos a gran escala de visión y lenguaje en dominios mixtos

MIRCaps introduce un conjunto de datos multimodal a gran escala con 141.364 imágenes, 981.947 descripciones a nivel de imagen, 1.742.264 descripciones a nivel de región y 5.391.779 anotaciones de cajas delimitadoras. Permite el aprendizaje fino de visión y lenguaje al proporcionar descripciones detalladas para categorías de objetos, tamaños, colores, acciones y contexto ambiental, y demuestra efectividad en tareas de descripción de imágenes y detección de objetos.

arxiv arXiv cs.AI · hace 1 h En vivo

Los modelos MoE muestran un rendimiento de inferencia dependiente del dispositivo

Un estudio empírico encuentra que los modelos Mixture-of-Experts no superan consistentemente a los modelos densos en hardware de consumo o edge. En el Apple M2 Pro, OLMoE-1B-7B es solo un 10% más lento que un modelo denso comparable, mientras que en el NVIDIA Jetson Orin Nano, es un 31% más lento con 2.1 veces más energía por token, debido a restricciones de memoria y KV-cache. Los resultados indican que los beneficios de la activación dispersa están limitados por la huella de memoria del total de parámetros, especialmente en dispositivos edge limitados por ancho de banda.