Deep Learning/Speech Synthesis

대표적인 TTS Datasets (LJ, KSS, VCTK)

족제비다아 2021. 3. 3. 12:25

음성 합성 분야에서 주로 사용하는 데이터셋이 있어서 이를 간략하게 정리해 보았다.

 

LJ speech dataset (English)

https://keithito.com/LJ-Speech-Dataset/

 

The LJ Speech Dataset

The LJ Speech Dataset This is a public domain speech dataset consisting of 13,100 short audio clips of a single speaker reading passages from 7 non-fiction books. A transcription is provided for each clip. Clips vary in length from 1 to 10 seconds and have

keithito.com

  • 한 명의 사람이 7 권의 책을 읽은 24시간 분량의 데이터셋
  • 13,100개의 audio clips
  • 오디오 클립 당 1~10초 정도로 녹음되어있음
  • 22,050Hz sampling rate

KSS dataset (Korean)

www.kaggle.com/bryanpark/korean-single-speaker-speech-dataset

 

Korean Single Speaker Speech Dataset

KSS Dataset: Korean Single Speaker Speech Dataset

www.kaggle.com

  • 전문 여성 성우 한 분이 Korean, Korean-English 사전 책 4권의 예문을 읽은 약 12시간 분량의 데이터셋
  • 12,853개의 audio clips
  • 44,100Hz sampling rate

VCTK dataset (English)

datashare.ed.ac.uk/handle/10283/3443

 

CSTR VCTK Corpus: English Multi-speaker Corpus for CSTR Voice Cloning Toolkit (version 0.92)

Citation Yamagishi, Junichi; Veaux, Christophe; MacDonald, Kirsten. (2019). CSTR VCTK Corpus: English Multi-speaker Corpus for CSTR Voice Cloning Toolkit (version 0.92), [sound]. University of Edinburgh. The Centre for Speech Technology Research (CSTR). ht

datashare.ed.ac.uk

  • 110명의 사람이 각 400개의 문장을 신문으로부터 발췌하여 읽은 44시간 분량의 데이터셋
  • 44,200개의 audio clips
  • 48,000Hz sampling rate