Todos los artículos
arxiv arXiv cs.AI · hace 1 h En vivo

Marco causal para auditar divulgaciones de datos sintéticos

Un nuevo marco de auditoría empírica detecta y clasifica las divulgaciones de datos sintéticos como verdaderas o fantasma. Distingue reproducciones directas de datos de usuario de la generación incidental sin acceso ni entrenamiento del modelo, utilizando únicamente la salida sintética y un conjunto de control retenido. El método proporciona límites más ajustados de filtración de privacidad que los enfoques anteriores y requiere significativamente menos recursos computacionales.

arxiv arXiv cs.AI · hace 1 h En vivo

Degradación de baja tasa de fotogramas en códecs de audio neuronales

Un precipicio de calidad a 6.25 Hz en códecs de audio neuronales es causado por la exposición insuficiente de tokens de entrenamiento debido a una duración fija del clip. Corregir esta configuración de entrenamiento permite una degradación suave de WER hasta 3.1 Hz y 1.6 Hz, lo que indica que la eficiencia a baja tasa de fotogramas es más alcanzable de lo que se pensaba anteriormente.

arxiv arXiv cs.AI · hace 1 h En vivo

Las reseñas textuales tienen un impacto limitado en los modelos de recomendación

Un estudio descubre que, aunque las señales de reseñas textuales pueden fusionarse con datos colaborativos, su contribución marginal sigue siendo limitada en comparación con las señales colaborativas en modelos de factorización de matrices. Los mecanismos de fusión adaptativa y atención cruzada mejoran la flexibilidad de la representación, pero no aumentan significativamente el rendimiento en los conjuntos de datos.

arxiv arXiv cs.AI · hace 1 h En vivo

La documentación de investigación en IA mejora durante una década

El análisis de 56.800 artículos de conferencias de IA muestra que las prácticas de documentación mejoraron entre 2014 y 2024. Los artículos que compartían código y datos aumentaron del 11% al 64%, y la reproducibilidad estimada subió del 28% al 64%. Estas mejoras preceden a las listas de verificación formales de reproducibilidad, lo que indica un cambio más amplio hacia la ciencia abierta.

arxiv arXiv cs.AI · hace 1 h En vivo

Marco de LLM Agente para Clasificación de Código HTS

Se propone un marco de modelo de lenguaje grande agente basado en consenso para la clasificación precisa de códigos del Arancel Armonizado de 10 dígitos en la logística marítima canadiense. Evaluado en 3,300 registros de productos etiquetados por expertos, el marco muestra que la clasificación HTS de gran detalle sigue siendo un desafío para los LLM avanzados, destacando la necesidad de flujos de trabajo fundamentados en evidencia, conscientes de la incertidumbre y con humanos en el bucle.

arxiv arXiv cs.AI · hace 1 h En vivo

ActiveSAM: Segmentación de vocabulario abierto rápida y precisa

ActiveSAM es un marco sin entrenamiento y zero-shot que mejora SAM 3 para la segmentación semántica de vocabulario abierto identificando un conjunto activo de clases condicionado por imagen. Mejora el equilibrio entre velocidad y precisión, superando a SegEarth-OV3 en +1.4 mIoU en promedio y ejecutándose hasta 5.5 veces más rápido en conjuntos de datos de gran vocabulario, con una fuerte robustez bajo corrupción de imágenes.

arxiv arXiv cs.AI · hace 1 h En vivo

Las auditorías bayesianas revelan plazos inconsistentes en la evaluación de IA

Los archivos públicos de evaluación de IA muestran que un único resultado terminal puede surgir de dos historias pre-terminales distintas, con tiempos estimados para alcanzar el 95% de los techos de rendimiento en 23.03 o 75.13. Un modelo de frontera consciente de la selección de candidatos falla en la recuperación sintética y la calibración de incertidumbre, y es rechazado por puertas de auditoría fijas. Un protocolo de archivo y adjudicación verifica los límites temporales y refuta las afirmaciones de frontera no respaldadas.

arxiv arXiv cs.AI · hace 1 h En vivo

TuneJury: Métrica abierta para la alineación de preferencias en la generación de música

TuneJury es un modelo de recompensa por pares a nivel de instancia que predice puntuaciones de preferencia musical a partir de indicaciones de texto y clips de audio. Está entrenado con datos diversos de preferencia humana y demuestra una fuerte capacidad de generalización, con calibración de anclaje que permite una alineación posterior eficiente para sistemas de generación de música.

arxiv arXiv cs.AI · hace 1 h En vivo

TokenPilot: Gestión de contexto eficiente en caché para agentes LLM

TokenPilot reduce los costos de inferencia entre un 61% y un 87% tanto en modos aislados como continuos, superando a sistemas anteriores en eficiencia de costos mientras mantiene un rendimiento competitivo. Utiliza compactación consciente de la ingestión y evicción consciente del ciclo de vida para preservar la continuidad de la caché de prompts y minimizar la huella de tokens sin introducir desajustes de prefijo.

arxiv arXiv cs.AI · hace 1 h En vivo

FusionRS: Primer conjunto de datos a gran escala de teledetección RGB-infrarrojo

FusionRS presenta el primer conjunto de datos a gran escala RGB-infrarrojo-texto para la modelización de visión-lenguaje en teledetección. Alinea imágenes RGB e infrarrojas con descripciones conscientes del infrarrojo, permitiendo modelos de base de visión-lenguaje bimodales. Los experimentos muestran una mejora en la alineación RGB-IR, recuperación y generación de descripciones, con estudios de ablación que confirman el papel crítico de la supervisión textual específica de la modalidad.

arxiv arXiv cs.AI · hace 1 h En vivo

HAMON: Pronóstico óptico pasivo para series temporales de largo plazo

HAMON utiliza componentes ópticos pasivos para realizar pronósticos de series temporales de largo plazo, superando a los mejores modelos digitales en ETTm2 en todos los horizontes y en ETTh2 en todos excepto el horizonte más largo. Logra hasta un 14% menos de MSE y se basa en la propagación óptica física sin capas digitales entrenables, demostrando que la mezcla óptica pasiva puede producir pronósticos competitivos.

media Latent Space · hace 1 h En vivo

Satya Nadella sobre Loopcraft y ecosistemas de vanguardia

El CEO de Microsoft, Satya Nadella, presenta 'Loopcraft' como una nueva teoría de la empresa, enfatizando que la verdadera oportunidad en la IA no radica en seleccionar el mejor modelo, sino en construir bucles de aprendizaje que acumulen capital humano y de tokens. Afirma que la prioridad debe ser crear ecosistemas de vanguardia donde cada organización pueda poseer y desarrollar su conocimiento institucional, permitiendo un amplio flujo de valor a través de industrias y países.

arxiv arXiv cs.LG · hace 1 h En vivo

CEAP reduce la varianza en el descubrimiento de circuitos de LLM

CEAP, un nuevo método de descubrimiento de circuitos, reduce sustancialmente la varianza de remuestreo en comparación con EAP-IG. El artículo muestra que la varianza por reformulación surge porque las plantillas de prompt activan diferentes circuitos, lo que sugiere que los LLM son inherentemente difíciles de dirigir a través de entradas diversas. La varianza por muestra es en gran medida benigna, ya que los puntajes bajos de fidelidad se deben al escalado selectivo de contribuciones, no a defectos del circuito.

arxiv arXiv cs.LG · hace 2 h

Descenso de gradiente funcional adaptativo con garantías de convergencia

Proponemos un nuevo algoritmo de descenso de gradiente funcional que adapta su representación durante la optimización. El método logra converger a un punto estacionario bajo pérdidas suaves y a un minimizador global bajo suavidad y una condición de Polyak-Lojasiewicz, a pesar de usar aproximaciones de dimensión finita. Supera tanto al FGD con aproximación fija como a las líneas base de redes neuronales en tareas de regresión, resolución de EDP y visión por computadora.

arxiv arXiv cs.LG · hace 2 h

Taxonomía unificada de origen causal de los cambios de distribución en el aprendizaje por refuerzo

Este artículo propone una taxonomía unificada de origen causal para los cambios de distribución en el aprendizaje por refuerzo, vinculando la generalización ID/OOD con entornos no estacionarios. Descompone la interacción agente-entorno utilizando un marco POMDP, identificando cambios internos impulsados por el agente y externos impulsados por el entorno, con tipos explícitos, implícitos e híbridos definidos por el límite de tiempo desplazado. El trabajo introduce un marco de evaluación para medir el impacto del cambio a través de métricas de degradación y recuperación del rendimiento, permitiendo un análisis sistemático de la robustez del RL.