본문 바로가기

TTS

Blizzard challenge 2020

1. Dataset

1) Mandarin TTS

- 9.5H training data, text transcription only

2) Shanghai dialect TTS

 - Low resource-> 3시간의 데이터 사용

- Text * phonetic transcriptions

 

2. 참가자들

- 첫번째 태스크 16팀, 두번째 태스크 8팀.

- Blizzard challenge 역사상 처음으로 HMM이나 unit selection 없이 전부 DNN 기반 모델.

- 모두 Neural vocoder 사용 (WaveRNN, WaveNet, LPCNet이 인기)

-A: 자연음

-L: Tencent

-D: Sogou

-E: NUS-HLT

-N: Royal flush

-C: NLPR

-O: OPPO

-G: HITSZ

-P: Ajmide

-K: NTU-AISG

-M: Ximalaya

-I:  SHNU (SHNU-Unisound Joint Laboratory of Natural Human-Computer Interaction, Shanghai Normal University, Shanghai, China Unisound AI Technology Co.,Ltd, Beijing, China)

-H: Duke

 

 

3. Listening test 설계

1) Mandarin: 17 문장 * 6 항목 (전체 700개의 테스트 문장 중에서 랜덤하게 선택)

- 370명, 사투리 무관 피실험자

2) Shanghai: 9 문장 * 7 항목 (391개 테스트 문장 중 랜덤하게 선택)

- 87명, Shanghai 사투리 쓰는 피실험자

* Intelliginility section이 있어서 피실험자에게는 한문장을 한번만 들려줬다.

 

4. 결과

- Mandarine과 Shanghai dialect 모두 Naturalness에서도 speaker similarity 측면에서도 자연음에 비견될만한 팀은 없었다.

- 'I' 시스템이 Mandarine에서 naturalness, target similarity에서 다른 팀보다 두곽을 나타냈고 Sanghai dialect naturlaness에서도 두곽을 나타냈다.

- 'E','L'이 Shanghai target speaker similarity에서 두곽을 나타냈다.

- 'Intelligibility' 측면에서는 'I'와 'E'가 비슷했다.

- 모든 시스템들에서 naturalness와 intelligibility(dictation score) 사이에 correlation이 있는 것으로 관찰됐다.

- 반면, intelligibility MOS는 naturalness와 correlation이 약했다. => dictation 점수로 intelligibility를 평가하는 것이 더 좋다는 근거.