Обзор рецептур после тренировки в Frontier с Finbarr Timbers
Аудио-программа рассматривает эволюцию рецептур после тренировки в больших языковых моделях, от InstructGPT до моделей передовой эпохи 2026 года. В ней подчеркивается Multi-Teacher On-Policy Distillation (MOPD) как доминирующий паттерн, при котором специализированные модели для определённых областей тренируются, а затем дистиллируются в общую модель-ученика с помощью дистилляции на основе политики, масштабируясь до более чем 10 учителей в моделях, таких как DeepSeek V4 и Nemotron 3 Ultra.