Multi-LCB extiende LiveCodeBench a doce lenguajes de programación, preservando sus controles de contaminación y protocolo de evaluación. Revela sobreajuste en Python, sesgos específicos del lenguaje y brechas significativas de rendimiento entre LLMs a través de los lenguajes, estableciendo un riguroso benchmark para la generación de código multilingüe.