ForecastBench-Sim es un benchmark de pronóstico en mundo simulado que utiliza ejecuciones del juego Freeciv. Permite pronósticos continuos o binarios en horizontes arbitrarios, con mundos de intervención para preguntas causales y resultados raros, y proporciona retroalimentación inmediata y resoluble para evaluar el razonamiento probabilístico en entornos dinámicos.