대표적인 TTS Datasets (LJ, KSS, VCTK)

Deep Learning/Speech Synthesis

대표적인 TTS Datasets (LJ, KSS, VCTK)

족제비다아 2021. 3. 3. 12:25

음성 합성 분야에서 주로 사용하는 데이터셋이 있어서 이를 간략하게 정리해 보았다.

LJ speech dataset (English)

The LJ Speech Dataset

The LJ Speech Dataset This is a public domain speech dataset consisting of 13,100 short audio clips of a single speaker reading passages from 7 non-fiction books. A transcription is provided for each clip. Clips vary in length from 1 to 10 seconds and have

keithito.com

한 명의 사람이 7 권의 책을 읽은 24시간 분량의 데이터셋
13,100개의 audio clips
오디오 클립 당 1~10초 정도로 녹음되어있음
22,050Hz sampling rate

KSS dataset (Korean)

www.kaggle.com/bryanpark/korean-single-speaker-speech-dataset

Korean Single Speaker Speech Dataset

KSS Dataset: Korean Single Speaker Speech Dataset

www.kaggle.com

전문 여성 성우 한 분이 Korean, Korean-English 사전 책 4권의 예문을 읽은 약 12시간 분량의 데이터셋
12,853개의 audio clips
44,100Hz sampling rate

VCTK dataset (English)

datashare.ed.ac.uk/handle/10283/3443

CSTR VCTK Corpus: English Multi-speaker Corpus for CSTR Voice Cloning Toolkit (version 0.92)

Citation Yamagishi, Junichi; Veaux, Christophe; MacDonald, Kirsten. (2019). CSTR VCTK Corpus: English Multi-speaker Corpus for CSTR Voice Cloning Toolkit (version 0.92), [sound]. University of Edinburgh. The Centre for Speech Technology Research (CSTR). ht

datashare.ed.ac.uk

110명의 사람이 각 400개의 문장을 신문으로부터 발췌하여 읽은 44시간 분량의 데이터셋
44,200개의 audio clips
48,000Hz sampling rate

'Deep Learning > Speech Synthesis' 카테고리의 다른 글

[개념 정리] 음성 신호 처리 개념들 키워드 정리 (3)	2021.03.16
[정리] Neural Vocoder에 대해 알아보자 (3)	2021.03.03
[Intro] Speech Synthesis \| Text to Speech (TTS) (2)	2021.03.02

현재글대표적인 TTS Datasets (LJ, KSS, VCTK)

Computer Vision :)