저자는 토크나이저나 학습된 입력 임베딩 없이 0-파라미터 HSL 바이트 기판을 사용하여 음성-텍스트(STT) 및 텍스트-음성(TTS) 모델을 구축하는 연구 프로젝트인 HoLo-ToLk를 소개합니다. 이 작업은 특정 아키텍처 수정과 결합할 때 원시 HSL 바이트가 오디오 처리에 실행 가능한 신호로 사용될 수 있음을 보여줍니다.
- STT 성능은 동결된 기판 위에 학습 가능한 게이트드 퓨전을 추가하여 문자 오류율(CER) 0.194를 달성하며, 통제된 비교에서 0.213의 멜-스펙트로그램 베이스라인을 능가합니다.
- TTS 구현은 UTF-8 텍스트 바이트를 가이드드 어텐션과 HiFi-GAN이 있는 자기회귀 트랜스포머에 직접 피딩하여 교사 강제 mel-L1 0.296을 달성합니다.
- STT 결과는 네 개의 시드(seed)에 걸쳐 견고한 것으로 간주되지만, 임의 문장에 대한 TTS 프리런 합성은 여전히 거칠고 불안정하며, 이는 프로덕션 준비 시스템보다는 타당성 데모로 규정됩니다.
이 프로젝트는 토크나이저 없는 오디오 처리를 위한 개념 증명(Proof-of-Concept) 역할을 하며, 장기적인 목표는 별도의 STT 및 TTS 모델을 단일 아키텍처로 통합하는 것입니다.