Todos los artículos
arxiv arXiv cs.AI · hace 2 h

CORTIS: Adaptación de Modelos de Lenguaje Hablado Solo con Texto

CORTIS permite que los agentes de voz orientados a tareas generen salidas de habla estructuradas mediante el ajuste fino de modelos de lenguaje hablado utilizando únicamente supervisión de tareas en formato texto. Supera a las cascadas ASR-LLM bajo degradación acústica, especialmente en la preservación de la semántica de alto nivel de la tarea, sin requerir anotaciones emparejadas de habla-objetivo durante el entrenamiento.

arxiv arXiv cs.AI · hace 2 h

Evaluación de referencia de modelos de lenguaje pequeños para PLN en árabe

Una evaluación de referencia con 240 elementos de prueba en árabe en ocho dominios y diez habilidades evalúa doce modelos de lenguaje pequeños en configuraciones zero-shot. Gemma 3 (12B) obtuvo la puntuación general más alta (4.548/5), seguido por Aya y C4AI Command Arabic, con un rendimiento vinculado más a la alineación con el árabe y al seguimiento de instrucciones que al tamaño del modelo. Los modos de fallo comunes incluyen filtración de prompt, alucinación y débil adherencia a la tarea.

arxiv arXiv cs.AI · hace 2 h

El modelo bayesiano consciente del contexto mejora la predicción del éxito de la FIV

Un modelo bayesiano jerárquico que utiliza 55 características ambientales conscientes del contexto reduce el error de predicción al 1.27% en datos de FIV, en comparación con el 3-5% obtenido con promedios crudos de sensores. El modelo alcanza un R2 = 0.86 en datos no vistos y reduce el error en un 64% para mujeres de 35 a 39 años, mostrando una señal clínica transferible entre clínicas.

arxiv arXiv cs.AI · hace 2 h

UltraQuant: Caché KV de 4 bits para agentes con alta carga de contexto

UltraQuant permite el caché KV de 4 bits para agentes con alta carga de contexto, reduciendo el tiempo P50 hasta el primer token en 3.47x en rondas tardías y aumentando el rendimiento de salida en 1.63x sobre la línea base FP8 KV. Logra esto mediante consultas FP8, tensores KV FP4, escalas de grupo UE8M0 y MFMA escalado nativo en GPUs AMD CDNA4, con optimizaciones para kernels de decode-attention y elecciones de diseño robustas como el tratamiento asimétrico K/V y la rotación de Walsh-Hadamard.

arxiv arXiv cs.AI · hace 2 h

Propagación del sesgo del evaluador en sistemas de LLM multi-agente

Contagion Networks introduce un marco para medir cómo se propagan los sesgos del evaluador entre agentes de LLM. En un experimento con 3 agentes, los sesgos se propagaron consistentemente con coeficientes de contagio entre 0.157 y 0.352, y los agentes de modelo homogéneo mostraron un contagio significativamente más débil que las configuraciones cruzadas entre modelos. Aumentar el tamaño del comité de evaluadores de k=1 a k=3 redujo el contagio efectivo en un 72.4%.

arxiv arXiv cs.AI · hace 2 h

Modelo de IA Explicable para la Depresión Relacionada con la Carrera en Estudiantes Universitarios

Un nuevo marco de IA Explicable utiliza datos conductuales estructurados y características de emociones faciales para detectar signos tempranos de depresión y ansiedad relacionadas con la carrera en estudiantes universitarios. El modelo, evaluado en datos de estudiantes pakistaníes, alcanza una puntuación F1 del 89.12% e identifica marcadores clave como la evitación de la mirada directa y el aislamiento social, alineándose con la teoría psicológica.

arxiv arXiv cs.AI · hace 2 h

Gradientes de Política Analíticos para Control Eficiente en Muestra y Aprendizaje

Los Gradientes de Política Analíticos (APG) permiten el cálculo exacto de gradientes mediante retropropagación a través de la simulación cuando las dinámicas del entorno son diferenciables. APG supera a Proximal Policy Optimization (PPO) en cuatro tareas de control continuo, mostrando una eficiencia superior en muestra y aprendizaje con un esquema de retropropagación segmentada que reduce la degradación del gradiente en tareas de horizonte largo.

arxiv arXiv cs.AI · hace 2 h

Filtrado de grafos eficiente en memoria para filtrado colaborativo escalable

Mem-GF introduce un método de filtrado de grafos eficiente en memoria que aproxima los filtros de grafos polinómicos utilizando subespacios de Krylov, evitando el almacenamiento del grafo completo de similitud entre elementos. Logra hasta un 5.74× menos de uso de memoria y un tiempo de ejecución 4.38× más rápido, superando a los métodos de última generación en precisión y escalando a conjuntos de datos con decenas de millones de interacciones.

arxiv arXiv cs.AI · hace 2 h

FAST: Un marco para muestreo alineado y entrenamiento en aprendizaje por refuerzo paralelo

FAST aborda la ineficiencia del muestreo en el aprendizaje por refuerzo para conducción autónoma introduciendo Alineamiento de Muestreo Paralelo Dinámico para desacoplar los bucles de muestreo de las terminaciones individuales de episodios. Logra una aceleración de hasta 1.78 veces en tiempo real frente a líneas base de un solo clip, manteniendo la ausencia de sesgo estadístico mediante Optimización de Relleno de Máscara Escalada.

media Latent Space · hace 2 h

Explicación de los riesgos de Red Teaming de IA e Inyección de Prompts

Zico Kolter y Matt Fredrikson, coautores del artículo definitivo sobre inyecciones indirectas de prompts y autoridades en el modelo Mythos, discuten los crecientes riesgos de seguridad de la IA. Destacan que los sistemas de IA requieren una mentalidad de seguridad distinta, con agentes que introducen nuevas vulnerabilidades, y que el red-teaming especializado en IA puede superar a los humanos al romper modelos, haciendo que las brechas por inyección de prompts en la IA sean cada vez más probables.