Сравнение локальных моделей текст-к-изображению: окончательное испытание

Испытание оценивало 192 запроса на локальных моделях текст-к-изображению на GX10 Spark, оценивая такие способности, как понимание текста, генерация лиц и пространственное составление. Результаты доступны на ImageBench, с сравнениями с передовыми API, использующими визуальные языковые модели, и все запросы и изображения доступны в открытом доступе.