TTS 3

[정리] Neural Vocoder에 대해 알아보자

이전 글에서는 Text-to-Speech(TTS)의 연구 동향에 대해 알아보았다. 이번 글에서는 TTS에서 Vocoder 부분에 대해 좀 더 자세히 알아보고자 한다. (HiFi-GAN [1] 논문의 introduction 내용을 주로 참고하였음) Vocoder의 역할 Neural Speech Synthesis는 크게 2-stage pipeline으로 이루어져 있다. Text로부터 Mel-spectrogram이나 linguistic feature와 같은 low resolution intermediate representation을 예측 Low resolution representation으로부터 raw waveform audio를 예측 여기서 Vocoder의 역할은 2번째 stage를 수행하는 것이다. 위..

대표적인 TTS Datasets (LJ, KSS, VCTK)

음성 합성 분야에서 주로 사용하는 데이터셋이 있어서 이를 간략하게 정리해 보았다. LJ speech dataset (English) https://keithito.com/LJ-Speech-Dataset/ The LJ Speech Dataset The LJ Speech Dataset This is a public domain speech dataset consisting of 13,100 short audio clips of a single speaker reading passages from 7 non-fiction books. A transcription is provided for each clip. Clips vary in length from 1 to 10 seconds and have keith..

[Intro] Speech Synthesis | Text to Speech (TTS)

Speech Synthesis 혹은 Text to Speech(TTS)로 부르는 음성 합성 연구 분야는 입력 문자에 대응하는 가상의 자연스러운 음성을 생성해내는 것을 목표로 한다. 음성 합성에 대한 연구가 어떻게 진행되어 왔는지 또 딥러닝 기술이 어떻게 접목이 되었는지에 대해 살펴보도록 하자 음성 합성 기술 연결 방식 (Concatenative Synthesis) 초창기 연구 방식인 것 같은 연결 방식은 Unit Selection Synthesis라고도 불린다. 말 그대로 입력에 대응하는 값을 선택(selection)하여 음성을 합성화는 연구 방식이다. 이를 위해 소리를 음편(Speech unit)이라는 가장 작은 단위로 분해해서 데이터베이스에 저장한다. 연결 방식의 음성 합성은 가장 간단하지만 모든 입..