TUDUM 프로젝트는 프롬프트나 답변을 단순히 번역하는 것이 아니라 터키어로 명시적 추론을 수행하도록 Qwen3.5-27B 모델을 적응시키는 파이프라인을 제시합니다.

  • 이 파이프라인은 LoRA 어댑터를 사용하여 15,991개의 터키어 추론 예시에 대해 지도 미세 조정을 적용합니다.
  • 그런 다음 프록시 필터링된 터키어 수학 환경에서 GRPO 계열 강화 학습을 사용합니다.
  • SFT는 평균 응답 길이와 사고 고갈을 줄였지만 벤치마크 정확도를 낮췄습니다.
  • RL은 일부 수학 성능을 회복시켰으며, 특히 AIME24에서 두드러졌지만 기본 모델의 Macro-6 평균을 초과하지는 않았습니다.

공개된 step-50 모델은 터키어 사고 추론에 대한 기술적으로 정직한 평가로서 공개적으로 이용 가능합니다.