본문 바로가기

TTS

E2E TTS에서 postnet이 필요한 이유

처음에 Tacotron에서는 griffin-Lim vocoder를 사용했으니, postnet을 써서 mel spectrogram을 linear spectrogram으로 바꿨지만, 그 이후에 Grifiin-Lim vocoder를 안쓰는 시스템에서도 대부분 postnet을 쓴다.

 

그 이유는! decoder가 프레임 예측을 causal하게 했기 때문에! non-causal하게 convnet을 사용해 backward context까지 반영하려고 postnet이 필요한 것이다.

'TTS' 카테고리의 다른 글

Pitchtron: Towards audiobook generation from ordinary people’s voices  (0) 2020.04.30
Expressive TTS and prosody transfer  (0) 2020.04.20
Japanese/Korean/Vietnamese Corpus  (0) 2020.02.08
Bytes are all you need  (0) 2020.01.21
Global style token  (1) 2020.01.17