Todos los artículos
arxiv arXiv cs.CL · hace 2 h

Factores conductuales de la incongruencia entre calificación y sentimiento en reseñas turísticas de Sri Lanka

Este estudio investiga la incongruencia entre las calificaciones por estrellas y los sentimientos expresados en las reseñas escritas dentro de las reseñas de atracciones turísticas de Sri Lanka. Analizando un conjunto de datos de 16,156 reseñas desde 2010 hasta 2023, los investigadores emplearon una pipeline basada en transformers para derivar el sentimiento textual independientemente de las calificaciones asignadas. El análisis revela que el 18.6% de las reseñas presentan incongruencia, impulsada principalmente por comportamientos de Calificador Conservador y de 5 Estrellas Obligatorio. Estas discrepancias varían según el tipo de recinto, con los museos mostrando las tasas más altas de divergencia. Las pruebas estadísticas, la regresión logística, Random Forest y el análisis SHAP identifican el tipo de recinto, la experiencia del revisor, la longitud de la reseña y los factores temporales como contribuyentes clave a este fenómeno. Los hallazgos demuestran que las calificaciones por estrellas no son intercambiables con el sentimiento textual y requieren validación antes de ser utilizadas como etiquetas ground-truth en tareas de NLP.

arxiv arXiv cs.CL · hace 2 h

Cliff Tokens: Identificando gatillos de fallo de un solo token en el razonamiento matemático de LLM

Los investigadores introducen el concepto de cliff tokens para identificar gatillos de fallo específicos de un solo token en modelos de lenguaje grandes durante tareas de razonamiento matemático. A diferencia del trabajo previo que analiza fallos a nivel de paso o oración, este método señala el token exacto donde las caídas potenciales disminuyen significativamente utilizando un umbral adaptativo basado en una prueba z. El estudio evalúa siete modelos en tres conjuntos de datos: GSM1K, MATH500 y AIME 2025. Eliminar el primer cliff token y realizar muestreo permite recuperar pass@64 hasta 1.0, mientras que mantenerlo limita la recuperación entre 0.71 y 1.00. Los autores proponen una taxonomía que clasifica los cliffs como deterministas, inciertos o muestreados fuera (sampled-off) basándose en la elección greedy y la entropía del token. Esta clasificación se generaliza a través de diferentes escalas de modelos y exhibe características probabilísticas distintas para cada tipo. Además, el equipo valida esta taxonomía mediante optimización de preferencia de un solo token conocida como Cliff-DPO. Entrenado en GSM8K, Cliff-DPO mejora la precisión hasta +6.6 en los benchmarks. La optimización resulta efectiva para cliffs inciertos y muestreados fuera, pero no produce mejoras para los deterministas.

arxiv arXiv cs.CL · hace 2 h

El Benchmark SWE-Pro Revela una Brecha Significativa Entre los LLM y la Optimización de Software Experta

El benchmark SWE-Pro aborda la falta de marcos de evaluación realistas para la optimización del rendimiento del software mediante la introducción de un conjunto de datos a nivel de repositorio derivado de 102 optimizaciones escritas por expertos. A diferencia de los benchmarks anteriores que simplifican en exceso las tareas, SWE-Pro empareja cada tarea con pruebas parametrizadas para evaluar el tiempo de ejecución, la memoria pico y el Uso de Memoria Ponderado por Tiempo bajo condiciones conscientes del ruido. El estudio revela que los Modelos de Lenguaje Actuales actuales luchan significativamente con estos requisitos complejos, mostrando ganancias de tiempo de ejecución insignificantes y optimizaciones de memoria casi inexistentes. En marcado contraste, las implementaciones expertas lograron una aceleración agregada de 15.5x y una reducción de memoria pico de 171.3x a través de las tareas del benchmark. Se observaron mejoras escritas por expertos en el 91.2% de las tareas para el tiempo de ejecución y en el 65.7% para la memoria pico. Estos hallazgos exponen una brecha sustancial entre las capacidades actuales de los LLM y las demandas de la ingeniería a nivel experto.

arxiv arXiv cs.CL · hace 2 h

Seguridad y privacidad en la generación aumentada por recuperación: arquitecturas, amenazas, defensas y direcciones futuras

Esta revisión examina los desafíos de seguridad y privacidad inherentes a los sistemas de Generación Aumentada por Recuperación (RAG) en paradigmas centralizados, en el dispositivo, federados e híbridos. Presenta una taxonomía unificada de superficies de amenaza que abarcan las etapas de recuperación, construcción del contexto y generación. El análisis cubre clases específicas de ataques, incluyendo inferencia de membresía, inferencia de índices, envenenamiento, filtrado de gradientes y colusión. Se identifican riesgos de información sensible dentro de los índices de recuperación, registros de consultas, construcción del contexto y actualizaciones federadas. La manipulación adversaria de las bases de conocimiento se destaca como un factor clave que socava la confianza en las salidas generadas. El artículo revisa defensas arquitectónicas, algorítmicas y criptográficas mientras aborda los compromisos entre privacidad y utilidad. Finalmente, delimita los desafíos de investigación abiertos para construir sistemas RAG confiables y resilientes.

arxiv arXiv cs.CL · hace 2 h

BiPACE: Optimización de políticas guiada por bisimulación con estimación de contrafactuales de acción para agentes LLM

Los autores identifican una discrepancia fundamental en el crédito de estado-acción en el RL basado en grupos paso a paso para agentes LLM de largo horizonte. Los estimadores actuales sufren de una partición de estados demasiado fina y un promedio de acciones demasiado grueso, lo que viola los supuestos de equivalencia para la asignación de crédito. Se introduce BiPACE como un estimador de ventaja plug-in que corrige estos problemas sin añadir críticos ni rollouts adicionales. Agrupa pasos por distancia coseno en la geometría del estado oculto del actor para reducir grupos singleton y recentra las recompensas utilizando líneas base de pares condicionadas a la acción. En ALFWorld con Qwen2.5-7B, BiPACE_Q eleva el éxito de validación de 90.8 a 97.1±0.9, cruzando el umbral del 95% en cada semilla. También mejora el rendimiento en Qwen2.5-1.5B y logra ganancias en WebShop y TextCraft sobre GRPO y GiGPO. El método incurre solo en un exceso del 11.3% del tiempo de pared de un paso de entrenamiento mientras cambia la unidad de comparación a una equivalencia conductual aproximada.

arxiv arXiv cs.CL · hace 2 h

Riazi-8B: Un modelo de lenguaje grande en urdu para razonamiento matemático

Los modelos de lenguaje grandes recientes demuestran un fuerte razonamiento matemático, pero estas mejoras dependen en gran medida de recursos centrados en el inglés, dejando a idiomas con pocos recursos como el urdu con capacidades limitadas. Para abordar esta brecha, los investigadores desarrollaron Riazi-8B, un modelo en urdu diseñado específicamente para la resolución de problemas matemáticos en múltiples pasos. El modelo se creó mediante un proceso de adaptación en dos etapas que involucró preentrenamiento continuo en Wikipedia en urdu y ajuste fino supervisado en datos de Cadena de Pensamiento (Chain-of-Thought) en urdu derivados de GSM8K. La evaluación de Riazi-8B se realizó en el benchmark MGSM-Urdu frente a modelos existentes ajustados con instrucciones en urdu. Los resultados mostraron mejoras consistentes en la corrección de las respuestas, la calidad del razonamiento, la completitud de la respuesta y la generación en urdu en comparación con las líneas base. Estos hallazgos demuestran que combinar la adaptación al idioma urdu con el ajuste fino centrado en el razonamiento extiende efectivamente las capacidades de razonamiento matemático a idiomas con pocos recursos.

arxiv arXiv cs.CL · hace 2 h

Impuesto de restricción en LLM de peso abierto: supresión de llamada a herramientas bajo restricciones de salida estructurada

Este estudio identifica un fenómeno llamado Supresión de Herramientas, donde los modelos de lenguaje de peso abierto dejan de invocar herramientas cuando se habilitan simultáneamente las restricciones de JSON Schema. Los autores observaron este comportamiento en un sistema de Agente en producción y lo reprodujeron mediante experimentos controlados a través de múltiples familias de modelos. Aunque la ejecución de herramientas y el cumplimiento del esquema funcionan correctamente cuando se evalúan independientemente, fallan bajo condiciones de implementación conjunta. El análisis revela que las restricciones de JSON Schema se compilan en máscaras de tokens basadas en gramática, haciendo que los tokens de llamada a herramientas sean inalcanzables durante la decodificación. Para interpretar estos hallazgos, el artículo propone la hipótesis de Inversión de Prioridad de Restricción, sugiriendo que la satisfacción del esquema domina la selección de acciones bajo restricciones simultáneas. Los autores mitigan este problema introduciendo Ejecución Transparente en Dos Pasos, una estrategia en tiempo de inferencia que desacopla la ejecución de herramientas de la generación de respuestas. Este enfoque restaura la invocación de herramientas mientras preserva las garantías de salida estructurada sin requerir el reentrenamiento del modelo. La investigación destaca que evaluar las capacidades por separado puede pasar por alto problemas críticos de confiabilidad en sistemas de producción.

arxiv arXiv cs.CL · hace 2 h

REVERIEMEM: Memoria acotada por perspectiva para agentes de rol basados en libros

Los recientes sistemas de role-playing con modelos de lenguaje grandes a menudo fallan en contextos de narrativas largas debido a la sobreextensión factual y la monotonía estilística. La sobreextensión factual ocurre cuando los personajes acceden a información fuera de su perspectiva narrativa, mientras que la monotonía estilística aplana las voces de los personajes mediante descripciones de perfil estáticas. Para abordar estos problemas, los autores proponen REVERIEMEM, una arquitectura de memoria de tres capas diseñada para agentes de personajes basados en libros. Este sistema utiliza una capa episódica para memorias de escenas en primera persona, una capa semántica para hechos con etiquetas de visibilidad y una capa de personalidad para patrones conductuales dependientes de la situación. Los investigadores también presentan KBF-QA, un conjunto de pruebas que consta de 4,386 preguntas en ocho novelas para probar los límites del conocimiento. Los resultados experimentales muestran que REVERIEMEM mejora la Fidelidad del Límite de Conocimiento en 34.6 puntos porcentuales en comparación con métodos anteriores. Además, el modelo logra aproximadamente una tasa de victoria del 79% en el protocolo narrativo por pares de cinco dimensiones de BOOKWORLD. Estos hallazgos sugieren que la memoria acotada por perspectiva mejora efectivamente tanto la precisión factual como la generación narrativa basada en personajes.

arxiv arXiv cs.CL · hace 2 h

MedGuards: Sistema Multiagente para la Detección y Corrección Confiable de Errores Médicos

Los autores proponen MedGuards, un marco de guardrails de seguridad médica diseñado para detectar y corregir errores en el texto generado por Modelos de Lenguaje Grandes. Este sistema aborda el manejo de errores como una tarea de aprendizaje in-contexto multiagente donde agentes especializados realizan por separado la detección, localización y corrección. Un mecanismo de arbitraje guiado por confianza resuelve desacuerdos entre los agentes utilizando trazas de razonamiento y puntuaciones de confianza sin requerir entrenamiento adicional del modelo. El estudio introduce la Puntuación de Corrección Priorizada por Palabras Clave (KPCS), una nueva métrica que evalúa la precisión de las palabras clave críticas dentro del texto de referencia. Los experimentos realizados en cuatro conjuntos de datos médicos multilingües de notas clínicas demuestran mejoras significativas en las métricas de rendimiento. Estos resultados destacan una mayor interpretabilidad, robustez y adaptabilidad para un despliegue más seguro de LLMs en el sector salud. El código del benchmark MedErrBench está disponible públicamente en GitHub.

arxiv arXiv cs.CL · hace 2 h

Framework Evalúa Cuándo se Necesitan GraphRAG y Agentic RAG

Los autores presentan un framework para evaluar y comparar la generación aumentada por recuperación (RAG) regular, GraphRAG, Modular y Agentic en bases de conocimiento semi-estructuradas. Implementan nueve escenarios estandarizados que abarcan desde la recuperación simple de documentos hasta la integración híbrida compleja de texto-grafo y la planificación multi-paso agéntica. Se presenta un método novedoso de ingeniería de contexto para abordar problemas de desbordamiento de memoria en variantes avanzadas de RAG mediante nuevas representaciones y diseño de bucle agéntico. Esta optimización logra una reducción del 19% al 53% en el uso de tokens mientras gestiona eficientemente las recuperaciones. Un análisis adicional revela una brecha entre recuperación y generación donde la expansión de la recuperación no mejora proporcionalmente la calidad de la generación. El estudio sugiere que las métricas actuales orientadas a la recuperación pueden exagerar los beneficios de las técnicas avanzadas de recuperación. Estas perspectivas basadas en datos tienen como objetivo guiar el desarrollo de sistemas RAG inteligentes listos para producción.

arxiv arXiv cs.CL · hace 2 h

BITEMBED: Marco de trabajo de bits extremadamente bajos para incrustaciones de texto basadas en LLM

El artículo presenta BITEMBED, un marco de trabajo de bits extremadamente bajos diseñado para abordar los altos costos de implementación de incrustadores de texto basados en LLM, enfocándose tanto en la eficiencia de codificación como en el almacenamiento de vectores. El método convierte las arquitecturas base de LLM preentrenadas en codificadores al estilo BitNet que cuentan con pesos ternarios, activaciones cuantizadas y refinamiento ligero de normalización. Para adaptar estos modelos al aprendizaje de representaciones, BITEMBED emplea un preentrenamiento contrastivo continuo seguido de un ajuste fino supervisado contrastivo. Este proceso de ajuste fino utiliza la destilación de distribución de similitud y la destilación de relación de atención desde un modelo maestro de precisión completa. Más allá de la cuantización de la arquitectura base, el marco de trabajo entrena las incrustaciones de salida para admitir múltiples precisiones de almacenamiento, permitiendo compensaciones flexibles entre rendimiento y costos de almacenamiento. Los experimentos en la benchmark MMTEB utilizando Qwen3-0.6B y Gemma3-270M demuestran que BITEMBED tiene un rendimiento mayormente comparable al de los incrustadores maestros de precisión completa.

arxiv arXiv cs.CL · hace 2 h

TRACE: Detección ligera de envenenamiento de corpus en RAG mediante atribución de influencia de tokens

Los sistemas de Generación Aumentada por Recuperación enfrentan riesgos significativos debido a ataques de envenenamiento del corpus que manipulan las salidas a través de documentos maliciosos. Los métodos de detección existentes a menudo requieren clasificadores auxiliares o verificación adicional de LLM, lo que introduce una sobrecarga computacional sustancial. Para abordar esto, los investigadores introdujeron TRACE, un marco ligero que identifica el envenenamiento rastreando tokens relacionados con la respuesta mediante atribución de influencia. El sistema primero descubre palabras clave recurrentes de alta influencia a través de los documentos recuperados para señalar amenazas potenciales. Luego realiza una verificación secundaria para confirmar la influencia específica de estos tokens en las predicciones del modelo. Los experimentos realizados en tres benchmarks de QA y seis LLM demuestran un fuerte rendimiento de detección del marco. Además, TRACE descubre con éxito las respuestas objetivo especificadas por el atacante durante el proceso de verificación.

media r/LocalLLaMA · hace 2 h

¿Alguien más ha encontrado que las salidas de vLLM son peores que las de llama.cpp?

Un usuario informa haber notado salidas menos confiables de vLLM en comparación con llama.cpp, incluyendo errores de formato, olvido del contexto y menor calidad del código. Preguntan si tales diferencias provienen de la cuantización, plantillas de chat, problemas del analizador o errores de configuración, y buscan confirmación sobre si otros han observado discrepancias similares en la calidad entre los backends de inferencia.

arxiv arXiv cs.CL · hace 2 h

RAS: Midiendo la seguridad de los LLM mediante alineación del rechazo

Los autores proponen SafeVec, un procedimiento de evaluación de caja blanca que mide la seguridad de los LLM utilizando representaciones internas en lugar de las salidas generadas. Este método extrae direcciones de rechazo capa por capa de un modelo de referencia alineado para la seguridad, con el fin de identificar capas estables donde los comportamientos seguros e inseguros son separables. Luego puntúa a los modelos objetivo verificando si sus estados ocultos se alinean con estas direcciones de rechazo durante las indicaciones inseguras. La métrica resultante, RAS (Puntuación de Alineación del Rechazo), mapea esta alineación a una puntuación de seguridad calibrada de 0-100. Los experimentos en las familias Llama, Gemma y Qwen muestran que RAS separa eficazmente los modelos alineados de sus variantes sin censura. Además, la métrica rastrea las tasas de éxito de ataques a nivel de salida mientras es sustancialmente más rápida que las evaluaciones basadas en jueces. Estos hallazgos sugieren que la alineación del rechazo ofrece una señal compacta y eficiente para la evaluación de seguridad de caja blanca.

arxiv arXiv cs.CL · hace 2 h

OPERA: Alinear el razonamiento de propósito abierto mediante aprendizaje por refuerzo basado en perplejidad objetiva

El marco OPERA aborda la inestabilidad de aplicar aprendizaje por refuerzo a tareas de propósito abierto, reemplazando modelos de juicio externos con recompensas intrínsecas derivadas de la dinámica de la perplejidad. Este enfoque cuantifica la reducción de la incertidumbre en estados reflexivos críticos, eliminando sesgos estilísticos e inconsistencias posicionales comunes en los sistemas LLM-as-a-judge. Durante la fase de arranque en frío, el método utiliza palabras guía para sintetizar trazas de razonamiento diversas y emplea rollouts priorizados por perplejidad para identificar ramas lógicamente consistentes. Esta tubería genera un conjunto de datos a gran escala de 20,000 trayectorias de razonamiento de alta calidad para el entrenamiento. Implementar OPERA en el modelo Qwen3-8B establece un nuevo estado del arte entre los modelos de código abierto. El sistema alcanza la paridad con o supera a modelos propietarios como Gemini2.5 y MiniMax-M2.5 en tareas específicas de propósito abierto. Las evaluaciones empíricas confirman la escalabilidad y eficacia de esta estrategia de alineación basada en perplejidad objetiva.

arxiv arXiv cs.CL · hace 2 h

El Benchmark Argus evalúa la estabilidad de la cuantificación de incertidumbre en modelos de visión-lenguaje y conjuntos de datos de fundamentación de GUI

Los autores presentan Argus, un benchmark diseñado para evaluar la cuantificación de incertidumbre post-hoc para agentes de uso informático que traducen las predicciones de modelos de visión-lenguaje en acciones ejecutables de GUI. El estudio evalúa 28 métodos de peso abierto en cuatro agentes VLM y cuatro conjuntos de datos, junto con ocho métodos propietarios de tres proveedores donde los estados internos del modelo son inaccesibles. Los hallazgos clave revelan una estabilidad de transferencia selectiva, donde las clasificaciones de incertidumbre permanecen consistentes entre diferentes conjuntos de datos para un modelo fijo, pero se degradan significativamente al pasar entre diferentes clases de modelos o interfaces observables. Entre las opciones de peso abierto, las técnicas de estimación de densidad y los estados ocultos demostraron la mayor estabilidad, mientras que regímenes específicos favorecieron puntuaciones basadas en muestreo o autoevaluación verbalizada. La transferencia de ranking dentro del modelo resultó ser fuerte con valores de rho de Spearman hasta 0.969, mientras que la transferencia entre niveles a proveedores propietarios promedió solo +0.08. La investigación también indica que las regiones de clic conformes reducen los radios en un 40-60 por ciento tras la calibración, pero sufren degradación de cobertura bajo desajuste de interfaz. Para apoyar la selección consciente del régimen, los autores publican registros por elemento, divisiones de calibración, puntuaciones UQ y scripts de análisis.

arxiv arXiv cs.CL · hace 2 h

Generación de lenguaje eficiente en espacio en el límite

Este estudio inicia una teoría consciente de los recursos de la generación de lenguaje en el límite bajo restricciones de eficiencia espacial. Un aprendiz observa un flujo adversario positivo de un lenguaje objetivo K y debe producir una hipótesis libre de alucinaciones L mientras omite como máximo Δ cadenas. La investigación se centra en DFAs con s estados sobre un alfabeto de tamaño k como la clase de hipótesis para aprendices con memoria limitada. En el régimen de espacio exponencial, los autores demuestran que un aprendiz puede identificar exactamente el lenguaje objetivo K. Bajo presupuestos de memoria más estrictos, presentan un algoritmo en streaming que usa espacio poly(s,k) y converge a una hipótesis con una brecha de generación de Δ= O(k^{2s-2}). Esta hipótesis aprendida captura cada cadena en K de longitud al menos 2s-1. Los resultados se complementan con un límite inferior casi coincidente derivado de la complejidad de comunicación, mostrando que lograr Δ≤ k^{(1-ε)s} requiere memoria k^{Ω(εs)}. Estos hallazgos revelan una transición aguda entre la generación en espacio polinomial y la identificación exacta en espacio exponencial.

arxiv arXiv cs.CL · hace 2 h

¿Bastan los codificadores? Una comparación sistemática de jueces evaluadores de seguridad basados en codificadores y decodificadores para la evaluación adversarial de LLM

Este estudio evalúa si los clasificadores de codificador ModernBERT ajustados pueden servir como alternativas rentables a los jueces basados en LLM para la evaluación de seguridad. Los investigadores compararon ModernBERT y Ettin frente a la coincidencia de prefijos basada en reglas, clasificadores de LLM ajustados y varias metodologías de jueces LLM. Estos jueces LLM incluyeron estrategias de StrongReject, ShieldGemma, JailbreakBench, AILuminate, SorryBench, Claude-as-a-judge y modelos como LlamaGuard 3 y 4. Los clasificadores de codificador se entrenaron con datos etiquetados por jueces utilizando una estrategia de etiqueta de votación mayoritaria y se probaron en un conjunto de prueba estándar de oro. El rendimiento se midió utilizando la puntuación F1, la tasa de falsos negativos y las métricas de precisión-recuperación en conjuntos de datos adversariales de código abierto. Los resultados se analizaron adicionalmente por técnica de ataque, incluyendo prompting de turno único, descomposición, escalada y manipulación del contexto. Los hallazgos proporcionan orientación sobre cuándo los clasificadores de codificador pueden reemplazar de manera confiable a los jueces basados en LLM sin una pérdida sustancial de rendimiento.

arxiv arXiv cs.CL · hace 2 h

Cómo los modelos de lenguaje grandes obtienen la reputación de marca a través de idiomas y mercados

Este estudio analiza las fuentes de citación utilizadas por los modelos de lenguaje grandes al responder preguntas sobre marcas, centrándose en las referencias web subyacentes en lugar de solo el texto generado. Los investigadores fusionaron tres conjuntos de datos de Rankfor.AI para examinar 167,551 citas basadas en URLs a lo largo de 128 marcas en 12 mercados locales y 13 idiomas. El análisis revela que la IA fundamenta las respuestas sobre marcas abrumadoramente en fuentes de terceros, con el 85.7% de las citas apuntando a sitios que la marca no posee en comparación con solo el 14.3% para dominios propios. La base de fuentes está altamente concentrada y sigue una ley de Zipf, donde el 80% de las citas provienen de aproximadamente el 18% de los dominios. Wikipedia emerge como el sitio de referencia dominante, siendo el dominio más citado en 11 de los 13 idiomas estudiados. La única excepción es el lituano, donde el diario económico vz.lt supera ligeramente a Wikipedia con una cuota del 4.38%. Además, la mezcla de fuentes muestra variaciones específicas del mercado, como YouTube siendo el dominio más citado para las marcas nacionales polacas y los portales de recursos humanos que proporcionan más citas que Wikipedia en polaco.

arxiv arXiv cs.CL · hace 2 h

ToolBench-X: Evaluación de agentes que usan herramientas en entornos no confiables

Los autores presentan ToolBench-X, un nuevo benchmark diseñado para evaluar agentes de modelos de lenguaje grandes bajo irrecoverabilidad recuperable del entorno de herramientas. A diferencia de los benchmarks existentes que asumen entornos limpios y estables, este framework inyecta cinco tipos estructurados de peligros: Deriva de Especificación, Error de Invocación, Fallo de Ejecución, Deriva de Salida y Conflicto entre fuentes. El conjunto de datos contiene tareas ejecutables multi-paso en diversos dominios con herramientas deterministas y respuestas finales canónicas para evaluación automática. Crucialmente, cada instancia inyectada permanece resoluble a través de rutas de recuperación válidas como reintento, fallback o verificación. Los experimentos revelan una brecha sustancial de fiabilidad donde los agentes que funcionan bien con herramientas confiables a menudo fallan bajo estos peligros. El análisis adicional indica que los fallos provienen de un diagnóstico limitado de peligros y recuperación ineficaz en lugar del volumen de uso de herramientas o el presupuesto de inferencia. Las pistas de recuperación dirigidas recuperan exitosamente muchas tareas fallidas, mientras que la escalación en tiempo de prueba ofrece ganancias más limitadas. Estos hallazgos sugieren que la evaluación debe cambiar el enfoque desde la precisión de llamadas a funciones hacia la finalización de tareas en entornos no confiables.