Evaluación de sistemas de revisión agénticos para investigación asistida por IA

Un estudio evalúa cuatro sistemas de revisión de IA en seis modelos de lenguaje, encontrando que OpenAIReview con GPT-5.5 alcanza una precisión del 83.0% al igualar la calidad del artículo con señales externas y detecta el 71.6% de los errores inyectados. La retroalimentación de usuarios reales muestra un sentimiento positivo, con una proporción de votos de 1.44 a 1, aunque los falsos positivos y las pequeñas observaciones siguen siendo comunes.