Игра Metanym представляет бенчмарк для языковых моделей, устойчивый к загрязнению, который оценивает структурный интеллект через динамическое создание аналогий в реальном времени. Сингулярное разложение оценок оценщиков раскрывает как способность к генерации, так и к оценке, при этом точность фактов коррелирует с GPQA Diamond с r = 0,92. Оценка — редкое навык: лучшие генераторы являются средними оценщиками, в то время как лучшие оценщики создают средние результаты, и самые сильные модели занимают места в совете, который сам оценивает и управляет бенчмарком.
Игра Metanym: автономный бенчмарк для структурного интеллекта
Переведено с English → Русский