Челлендж NVIDIA Nemotron: Строковое сопоставление и возврат с откатом для головоломок манипуляции битами
В данной статье подробно описываются алгоритмические инновации, разработанные для Челленджа рассуждений модели NVIDIA Nemotron, направленные на решение головоломок манипуляции битами, в которых модели необходимо выявлять скрытые логические правила. Чтобы справиться с комбинаторным взрывом побитовых операций и галлюцинациями больших языковых моделей (LLM), авторы отказываются от арифметической логики в пользу строкового сходства и структурированного поиска. Основная вклад заключается в переосмыслении вывода логических вентилей как задачи выбора базиса с использованием минимального числа переворотов битов для изоляции примитивных преобразований. Процесс обратного поиска с откатом (backtracking) по методу глубинного первого поиска формализован для проверки кандидатов, обнаружения логических коллизий и выполнения надежного восстановления ошибок. Кроме того, метод использует побитовую токенизацию и интерактивное рассуждение, дообученное с учителем (SFT), с динамическим маскированием для симуляции обратной связи от оракула. При оценке на этих головоломках подход достиг точности валидации более 96%. Это достижение обеспечило лучший результат в категории и седьмое место в общем зачете конкурса.