Языковые модели размера GPT-2 не могут независимо обнаружить ноль в процессе тестирования, независимо от предобучения. Однако производительность значительно улучшается при обучении на десятках до сотен примеров нуля, а предобучение на языке снижает количество необходимых примеров примерно на 50%.
Могут ли языковые модели обнаружить ноль?
Переведено с English → Русский