음성 합성 분야에서 주로 사용하는 데이터셋이 있어서 이를 간략하게 정리해 보았다.
LJ speech dataset (English)
https://keithito.com/LJ-Speech-Dataset/
- 한 명의 사람이 7 권의 책을 읽은 24시간 분량의 데이터셋
- 13,100개의 audio clips
- 오디오 클립 당 1~10초 정도로 녹음되어있음
- 22,050Hz sampling rate
KSS dataset (Korean)
www.kaggle.com/bryanpark/korean-single-speaker-speech-dataset
- 전문 여성 성우 한 분이 Korean, Korean-English 사전 책 4권의 예문을 읽은 약 12시간 분량의 데이터셋
- 12,853개의 audio clips
- 44,100Hz sampling rate
VCTK dataset (English)
datashare.ed.ac.uk/handle/10283/3443
- 110명의 사람이 각 400개의 문장을 신문으로부터 발췌하여 읽은 44시간 분량의 데이터셋
- 44,200개의 audio clips
- 48,000Hz sampling rate
'Deep Learning > Speech Synthesis' 카테고리의 다른 글
[개념 정리] 음성 신호 처리 개념들 키워드 정리 (3) | 2021.03.16 |
---|---|
[정리] Neural Vocoder에 대해 알아보자 (3) | 2021.03.03 |
[Intro] Speech Synthesis | Text to Speech (TTS) (2) | 2021.03.02 |