Todos los artículos
arxiv arXiv cs.CL · hace 20 h

PARSE: Defensa de documentos reales para agentes LLM

PARSE reduce el éxito de los ataques de inyección de instrucciones del 25,4 % al 15,6 % en documentos empresariales reales en cinco dominios profesionales, con una mejora estadísticamente significativa (p=0.014) y un 86,9 % de utilidad. Supera a la paráfrasis y utiliza una sanitización consciente del origen para preservar el contenido factual mientras enruta la mayoría de los documentos a través de una ruta ligera.

arxiv arXiv cs.CL · hace 20 h

AIPatient Arena: Evaluación de LLMs en flujos de trabajo clínicos con fundamentación en EHR

AIPatient Arena evalúa modelos de lenguaje grandes en consultas clínicas de extremo a extremo utilizando grafos de conocimiento específicos del paciente con fundamentación en EHR. Evalúa los LLMs en ocho dimensiones de competencia clínica, revelando un fuerte desempeño en habilidades de entrevista, ética y claridad de explicación, pero debilidades persistentes en el manejo de la ambigüedad, cobertura de información y razonamiento diagnóstico, con fallos en el proceso como preguntas repetitivas e historia omitida.

arxiv arXiv cs.CL · hace 20 h

STATEWITNESS: Explicador de activaciones para auditoría de engaño en LLMs

STATEWITNESS introduce un explicador de activaciones que audita el engaño en LLMs de razonamiento leyendo estados ocultos y generando respuestas en lenguaje natural o informes estructurados. Logra una AUROC media de 0.916, superando a los monitores de caja negra y sondas de activación existentes en un 11.6% y 25.0% respectivamente, y proporciona trazas a nivel de consulta, esquema y evidencia para inspección humana.

arxiv arXiv cs.CL · hace 20 h

Sesgo de segundo orden en LLMs: Evaluación del sesgo basado en juicios

Un nuevo estudio identifica un sesgo de segundo orden en los modelos de lenguaje grandes (LLMs): un sesgo social en sus juicios sobre contenido sesgado. Utilizando la epistemología del derecho, la investigación desarrolla una tarea de razonamiento para evaluar si los LLMs aceptan o rechazan textos sesgados basándose en la demografía, revelando sesgos implícitos que varían según el grupo objetivo y evaden las barreras de seguridad. El trabajo introduce dos métricas para cuantificar estos sesgos y aboga por métodos de evaluación más fundamentados teóricamente en PLN.

arxiv arXiv cs.CL · hace 20 h

Degradación y recuperación de la precisión del enrutamiento en sistemas de agentes empresariales

A medida que los catálogos de herramientas de agentes empresariales escalan de 10 a 110 agentes, la precisión del enrutamiento disminuye entre 16 y 23 puntos porcentuales en solicitudes mal especificadas. Un análisis de oráculo identifica brechas de recuperación y confusión, con una preselección basada en embeddings que recupera un F1 de +10--11pp. Un estudio anotado por humanos de 1.435 enunciados confirma la recuperación en el mundo real de +10--17pp a pesar del menor rendimiento absoluto.

arxiv arXiv cs.CL · hace 20 h

Análisis de expresividad del modelado jerárquico en Transformers profundos

Este artículo analiza la expresividad de los transformers profundos utilizando gramáticas de profundidad acotada. Construye transformers con atención posicional donde la profundidad del modelo escala linealmente con la profundidad de la gramática, y el número de neuronas crece cuadráticamente con las reglas de producción. Los resultados respaldan la hipótesis de representación lineal al mostrar que estos modelos pueden codificar estados gramaticales abstractos en subespacios de baja dimensión y separables linealmente.

arxiv arXiv cs.CL · hace 20 h

Los LLM superan a los humanos en la predicción del próximo hablante

Los modelos de lenguaje grandes superaron a los humanos y a los modelos supervisados en la predicción del próximo hablante utilizando el corpus AMI, a pesar de carecer de datos audiovisuales y entrenamiento por dominio. Los LLM multimodales superaron a los LLM basados en texto en la detección de destinatarios y cambios de turno, pero aún quedaron por debajo del rendimiento humano, lo que destaca los desafíos al utilizar señales audiovisuales crudas. Los estudios de ablation muestran que el contexto conversacional es crucial, especialmente para la predicción del próximo hablante, con humanos y LLM luchando durante cambios frecuentes de turno.

arxiv arXiv cs.CL · hace 20 h

Las características de LLM pueden perjudicar a los GNNs mediante interferencia por concatenación

Concatenar características generadas por LLM a redes neuronales gráficas reduce sistemáticamente la precisión en benchmarks homofílicos, con una caída de la precisión en PubMed de -17.0 ± 0.3 pp. Esta degradación está vinculada a la discriminabilidad del LLM por sí solo (Delta_sig), que se correlaciona fuertemente con el costo de concatenación (r² = 0.38) y muestra una relación de ley de potencia con la dimensión de las características y el número de nodos (r² = 0.97), particularmente en escenarios de bajo Delta_sig y bajo número de nodos.

arxiv arXiv cs.CL · hace 20 h

Los LLMs podados fallan en la generación abierta a pesar de superar las preguntas de opción múltiple

Los modelos de lenguaje grandes podados suelen aprobar pruebas de opción múltiple pero fallan al generar respuestas correctas en respuestas abiertas. Esta 'ilusión del benchmark' muestra que las respuestas no se eliminan, sino que se degradan, reapareciendo solo con técnicas avanzadas de generación como beam search o muestreo. Los benchmarks estándar sobreestiman la usabilidad práctica de los modelos comprimidos, destacando un punto ciego crítico en la evaluación.

arxiv arXiv cs.CL · hace 20 h

SkillMigrator permite la transferencia de habilidades web entre sitios mediante coincidencia de diseño

SkillMigrator aprende habilidades web reutilizables al coincidir con estructuras de diseño en lugar de referencias específicas a elementos. Almacena cada habilidad como un patrón de interacción transferible (TIP) con un boceto estructural, lo que permite una reutilización eficiente de habilidades entre sitios. En comparación con los métodos más avanzados, reduce el conteo promedio de acciones del LLM en un 8-10% en WebArena y Mind2Web a tasas de éxito equivalentes.

arxiv arXiv cs.CL · hace 20 h

EnvRL: Aprovechando la dinámica del entorno en RL agéntico

EnvRL introduce un marco que mejora el aprendizaje por refuerzo agéntico incorporando la dinámica del entorno a través de objetivos de predicción de estado y dinámicas inversas. Logra ganancias significativas en las tasas de éxito en benchmarks de largo horizonte, mejorando el rendimiento de Qwen-2.5-1.5B-Instruct de 72.8% a 77.4% en ALFWorld y de 56.8% a 67.0% en WebShop cuando se entrena con GRPO.

arxiv arXiv cs.CL · hace 20 h

Entorno de entrenamiento diseñado por LLM para RL con razonamiento multiagente

El marco LLM-as-Environment-Engineer utiliza LLMs para rediseñar automáticamente entornos de entrenamiento en aprendizaje por refuerzo analizando trayectorias de fallo y datos contextuales. En el banco de pruebas MAPF-FrozenLake, supera a LLMs propietarios más grandes y a las líneas base de entornos fijos, con Qwen3-4B logrando el mejor rendimiento agregado. El análisis muestra que la evidencia de fallo y las configuraciones de trabajo preservadas son clave, y la checkpoint actual de RL funciona mejor que el modelo base como ingeniero de entornos.

arxiv arXiv cs.CL · hace 20 h

SwiftTrans mejora la eficiencia de traducción de código en LLM

SwiftTrans aborda las brechas de eficiencia en tiempo de ejecución en la traducción de código basada en LLM mediante la introducción de Exploración Multi-Perspectiva y Selección Consciente de Diferencias. El marco extiende CodeNet, F2SBench e introduce SwiftBench para evaluar el rendimiento en tiempo de ejecución, mostrando mejoras consistentes tanto en corrección como en eficiencia a través de las pruebas.

arxiv arXiv cs.CL · hace 20 h

EComAgentBench: Evaluación de Agentes de Compra con Intención Oculta

EComAgentBench introduce un benchmark de 662 tareas reales de Amazon que dispersan los requisitos del comprador entre la consulta, el perfil y la aclaración. Los agentes deben descubrir la intención oculta, verificar candidatos con evidencia y comprometerse a un producto dentro de 100 llamadas a herramientas, con rúbricas tipadas que atribuyen fallos a fuentes específicas de requisitos. La evaluación muestra que incluso los mejores modelos logran solo 57.1% de precisión, y la satisfacción de las rúbricas disminuye cuando la intención está oculta.

arxiv arXiv cs.CL · hace 20 h

Los modelos de visión y lenguaje no siempre necesitan imágenes para la precisión en radiografías de tórax

Una auditoría causal muestra que los modelos solo de texto igualan a los modelos multimodales en precisión de radiografía torácica. En nueve sistemas, un modelo solo de texto se mantiene dentro de 5.7 puntos del mejor modelo multimodal, y un modelo de 119 mil millones de parámetros es indistinguible de una línea base solo de texto de 7 mil millones de parámetros. Las auditorías de fundamentación, no la precisión, deben determinar el despliegue clínico.