Los autores introducen medidas sin referencia para evaluar la consistencia física de los videos generados combinando evaluaciones de fidelidad relativa y absoluta. Este enfoque aborda la brecha en la fidelidad física que a menudo impide que herramientas de generación de video como WorldGym o WorldEval reproduzcan con precisión las tasas de éxito de tareas del mundo real para modelos VLA. A diferencia de los métodos existentes que requieren votación humana costosa o referencias ground-truth no disponibles, el nuevo marco utiliza DROID-SLAM y SEA-RAFT para cuantificar inconsistencias. Motivado por WorldScore, la evaluación de consistencia relativa filtra videos para mejorar las tasas de éxito de tareas en más del 8%. Además, la evaluación absoluta permite la localización espaciotemporal para visualizar cuándo y dónde ocurren los artefactos físicos en el contenido generado.