이전 글에서는 Text-to-Speech(TTS)의 연구 동향에 대해 알아보았다. 이번 글에서는 TTS에서 Vocoder 부분에 대해 좀 더 자세히 알아보고자 한다. (HiFi-GAN [1] 논문의 introduction 내용을 주로 참고하였음) Vocoder의 역할 Neural Speech Synthesis는 크게 2-stage pipeline으로 이루어져 있다. Text로부터 Mel-spectrogram이나 linguistic feature와 같은 low resolution intermediate representation을 예측 Low resolution representation으로부터 raw waveform audio를 예측 여기서 Vocoder의 역할은 2번째 stage를 수행하는 것이다. 위..