1. Dataset
1) Mandarin TTS
- 9.5H training data, text transcription only
2) Shanghai dialect TTS
- Low resource-> 3시간의 데이터 사용
- Text * phonetic transcriptions
2. 참가자들
- 첫번째 태스크 16팀, 두번째 태스크 8팀.
- Blizzard challenge 역사상 처음으로 HMM이나 unit selection 없이 전부 DNN 기반 모델.
- 모두 Neural vocoder 사용 (WaveRNN, WaveNet, LPCNet이 인기)
-A: 자연음
-L: Tencent
-D: Sogou
-E: NUS-HLT
-N: Royal flush
-C: NLPR
-O: OPPO
-G: HITSZ
-P: Ajmide
-K: NTU-AISG
-M: Ximalaya
-I: SHNU (SHNU-Unisound Joint Laboratory of Natural Human-Computer Interaction, Shanghai Normal University, Shanghai, China Unisound AI Technology Co.,Ltd, Beijing, China)
-H: Duke
3. Listening test 설계
1) Mandarin: 17 문장 * 6 항목 (전체 700개의 테스트 문장 중에서 랜덤하게 선택)
- 370명, 사투리 무관 피실험자
2) Shanghai: 9 문장 * 7 항목 (391개 테스트 문장 중 랜덤하게 선택)
- 87명, Shanghai 사투리 쓰는 피실험자
* Intelliginility section이 있어서 피실험자에게는 한문장을 한번만 들려줬다.
4. 결과
- Mandarine과 Shanghai dialect 모두 Naturalness에서도 speaker similarity 측면에서도 자연음에 비견될만한 팀은 없었다.
- 'I' 시스템이 Mandarine에서 naturalness, target similarity에서 다른 팀보다 두곽을 나타냈고 Sanghai dialect naturlaness에서도 두곽을 나타냈다.
- 'E','L'이 Shanghai target speaker similarity에서 두곽을 나타냈다.
- 'Intelligibility' 측면에서는 'I'와 'E'가 비슷했다.
- 모든 시스템들에서 naturalness와 intelligibility(dictation score) 사이에 correlation이 있는 것으로 관찰됐다.
- 반면, intelligibility MOS는 naturalness와 correlation이 약했다. => dictation 점수로 intelligibility를 평가하는 것이 더 좋다는 근거.