처음에 Tacotron에서는 griffin-Lim vocoder를 사용했으니, postnet을 써서 mel spectrogram을 linear spectrogram으로 바꿨지만, 그 이후에 Grifiin-Lim vocoder를 안쓰는 시스템에서도 대부분 postnet을 쓴다.
그 이유는! decoder가 프레임 예측을 causal하게 했기 때문에! non-causal하게 convnet을 사용해 backward context까지 반영하려고 postnet이 필요한 것이다.
'TTS' 카테고리의 다른 글
Pitchtron: Towards audiobook generation from ordinary people’s voices (0) | 2020.04.30 |
---|---|
Expressive TTS and prosody transfer (0) | 2020.04.20 |
Japanese/Korean/Vietnamese Corpus (0) | 2020.02.08 |
Bytes are all you need (0) | 2020.01.21 |
Global style token (1) | 2020.01.17 |