llama.cpp의 풀 리퀘스트는 입력 트리밍이 잘못 구현되어 이전에 Step 3.7 Flash의 성능을 저해했던 문제를 해결합니다.
- 이 수정은 느린 추론 능력을 유발한 입력 처리의 특정 버그를 대상으로 합니다.
- 이 변경은 긴 형식의 추론이 필요한 작업에서 모델을 사용할 수 있도록 하는 것을 목표로 합니다.
이 업데이트는 Step 3.5 Flash와 같은 이전 버전과 비교하여 성능이 좋지 않아 Step 3.7 Flash를 피해왔던 사용자에게 중요합니다.