Авторы представляют DistilledGemma — эффективную систему для извлечения отношений «персона-место» из многоязычных исторических газетных статей на английском, немецком и французском языках. Подход использует трехэтапный конвейер дистилляции знаний для балансировки точности классификации с вычислительной эффективностью.

  • На первом этапе исследовался промпт-инжиниринг на восьми больших языковых моделях для выявления наиболее эффективной архитектуры рассуждений.
  • На втором этапе применялось супервизорное тонкое дообучение через QLoRA к учителю Gemma 4 26B для генерации цепочек рассуждений серебристого стандарта (silver-standard chain-of-thought traces).
  • На финальном этапе выполнялась дистилляция на уровне ответов для переноса паттернов рассуждений в компактную модель-студента Gemma 4 E2B с примерно 2,3 млрд эффективных параметров.
  • Команда заняла 3-е место на стандартном тестовом наборе (среднее значение профиля точности 0,688) и 2-е место на бинарном тестовом наборе (средний балл 0,8156).
  • Конфигурация заняла 2-е место в профиле сбалансированной эффективности и точности по обоим тестовым наборам за счет объединения адаптеров LoRA для вывода.

Эти результаты демонстрируют, что дистилляция знаний обеспечивает практичное и масштабируемое решение для обработки исторических документов, достигая конкурентоспособных показателей без чрезмерных вычислительных затрат.