RECOM evalúa 15,000 preguntas de r/AskReddit con respuestas auténticas de la comunidad publicadas después del entrenamiento del modelo. Muestra que ningún métrica automática logra simultáneamente una fuerte validez y poder discriminatorio, con BERTScore clasificando débilmente a los modelos incluso cuando se controla la longitud. El compromiso surge del diseño de representación, no de diferencias entre modelos, y requiere informar tanto la validez como la discriminación con umbrales mínimos basados en aleatoriedad.
RECOM: Compromiso entre validez y discriminación en métricas de QA de Reddit
Traducido del English → Español