arxiv arXiv cs.CL · 2시간 전 · 출처: 2일 전 · research

TUDUM, SFT 및 RL을 통해 Qwen3.5-27B를 터키어 추론에 적응시킴

번역 English → 한국어

TUDUM 프로젝트는 프롬프트나 답변을 단순히 번역하는 것이 아니라 터키어로 명시적 추론을 수행하도록 Qwen3.5-27B 모델을 적응시키는 파이프라인을 제시합니다.

이 파이프라인은 LoRA 어댑터를 사용하여 15,991개의 터키어 추론 예시에 대해 지도 미세 조정을 적용합니다.
그런 다음 프록시 필터링된 터키어 수학 환경에서 GRPO 계열 강화 학습을 사용합니다.
SFT는 평균 응답 길이와 사고 고갈을 줄였지만 벤치마크 정확도를 낮췄습니다.
RL은 일부 수학 성능을 회복시켰으며, 특히 AIME24에서 두드러졌지만 기본 모델의 Macro-6 평균을 초과하지는 않았습니다.

공개된 step-50 모델은 터키어 사고 추론에 대한 기술적으로 정직한 평가로서 공개적으로 이용 가능합니다.

중요도 1/3 arXiv cs.CL Alibaba (Qwen) Research paper Training methods