본문 바로가기

TTS

(19)
CHiVE: Varying prosody in speech synthesis with a linguistically driven dynamic hierarchical conditional variational network
Pitchtron: Towards audiobook generation from ordinary people’s voices Source code: https://github.com/hash2430/pitchtron/ Audio samples Prosody Reference GST Soft pitchtron Hard pitchtron Standard Korean neutral dialogue Standard Korean neutral dialogue Standard Korean emotive dialogue Standard Korean emotive dialogue Kyoungsang dialect Kyoungsang dialect Cheolla dialect Cheolla dialect Prosody transferability and vocal range scalability Scale Reference GST Soft p..
Expressive TTS and prosody transfer 중립적 발화(감정 표현이나 개성 표현이 없는 발화)에 대한 합성기의 자연성이 확보된 이후, 감정, 억양 등의 요소를 컨트롤해 좀더 몰입도 있는 합성음을 만들어 오디오북이나 모바일 어플리케이션, 유튜브 컨텐츠 제작 등에 활용하고자 하는 수요가 발생하였다. 본 보고서에서는 이 중 5가지 접근에 대해 비교 분석을 하고자 한다. 이 보고서와 여타 논문에서는 개성표현을 위한 특성으로 프로소디(prosody)와 스타일( style)이라는 단어를 혼용해서 사용한다. 연구에서 사용하는 프로소디 또는 스타일이라는 표현은 주관적 판단의 영역이니만큼 연구자마다 조금씩 편차가 있으므로 논의를 시작하기에 앞서, 프로소디 또는 스타일의 의미를 표명하겠다. 앞으로 이 보고서에서 사용될 프로소디 또는 스타일이라는 용어는 첫번째 소개..
E2E TTS에서 postnet이 필요한 이유 처음에 Tacotron에서는 griffin-Lim vocoder를 사용했으니, postnet을 써서 mel spectrogram을 linear spectrogram으로 바꿨지만, 그 이후에 Grifiin-Lim vocoder를 안쓰는 시스템에서도 대부분 postnet을 쓴다. 그 이유는! decoder가 프레임 예측을 causal하게 했기 때문에! non-causal하게 convnet을 사용해 backward context까지 반영하려고 postnet이 필요한 것이다.
Japanese/Korean/Vietnamese Corpus http://www.hieuthi.com/blog/2018/04/22/speech-japanese-korean-vietnamese.html 불러오는 중입니다...
Bytes are all you need #1. 일단,, Grapheme과 byte representation으로 합성기의 text 단위를 어느것을 쓰는게 나은지 비교 실험한 것이 나오는데, phoneme까지 비교를 했어야 유의미하고 흥미로운 비교라고 생각한다. phoneme을 고려하면 음질 측면에서는 byte이 phoneme보다 이득이라고 할 수 없겠지만, byte representation만이 갖는 절대적인 이득은 기존 TTS에 언어 추가가 용이하다는 점이다. => 왜냐면 byte representation을 예측하는 문제는 사전에 정의된 음소 집합에서 예측하는 문제와 달리 확장성이 무한하기 때문이다. 이 세상 어떤 언어도 256가지의 byte의 조합으로 표현 가능하니까. (이 점은 IPA도 해당되지만 IPA는 비싸다) => 그런데 lang..
Global style token [1] Reference embedding: Skerry-Ryan, RJ, Battenberg, Eric, Xiao, Ying, Wang, Yux- uan, Stanton, Daisy, Shor, Joel, Weiss, Ron J., Clark, Rob, and Saurous, Rif A. Towards end-to-end prosody transfer for expressive speech synthesis with Tacotron. arXiv preprint, 2018. [2] Global style token: Y. Wang et al., “Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synt..
Deep Voice 3 https://github.com/hash2430/dv3_world hash2430/dv3_world Deep voice 3 implementation of r9y9 is modified to support WORLD vocoder. - hash2430/dv3_world github.com https://github.com/hash2430/Neural-voice-cloning hash2430/Neural-voice-cloning This repo is started from my dv3_world to implement 'speaker-encoder' approach of 'Neural voice cloning using a few samples' - hash2430/Neural-voice-cloning..