본문 바로가기

전체 글

(31)
Bytes are all you need #1. 일단,, Grapheme과 byte representation으로 합성기의 text 단위를 어느것을 쓰는게 나은지 비교 실험한 것이 나오는데, phoneme까지 비교를 했어야 유의미하고 흥미로운 비교라고 생각한다. phoneme을 고려하면 음질 측면에서는 byte이 phoneme보다 이득이라고 할 수 없겠지만, byte representation만이 갖는 절대적인 이득은 기존 TTS에 언어 추가가 용이하다는 점이다. => 왜냐면 byte representation을 예측하는 문제는 사전에 정의된 음소 집합에서 예측하는 문제와 달리 확장성이 무한하기 때문이다. 이 세상 어떤 언어도 256가지의 byte의 조합으로 표현 가능하니까. (이 점은 IPA도 해당되지만 IPA는 비싸다) => 그런데 lang..
Global style token [1] Reference embedding: Skerry-Ryan, RJ, Battenberg, Eric, Xiao, Ying, Wang, Yux- uan, Stanton, Daisy, Shor, Joel, Weiss, Ron J., Clark, Rob, and Saurous, Rif A. Towards end-to-end prosody transfer for expressive speech synthesis with Tacotron. arXiv preprint, 2018. [2] Global style token: Y. Wang et al., “Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synt..
Deep Voice 3 https://github.com/hash2430/dv3_world hash2430/dv3_world Deep voice 3 implementation of r9y9 is modified to support WORLD vocoder. - hash2430/dv3_world github.com https://github.com/hash2430/Neural-voice-cloning hash2430/Neural-voice-cloning This repo is started from my dv3_world to implement 'speaker-encoder' approach of 'Neural voice cloning using a few samples' - hash2430/Neural-voice-cloning..
Transformer TTS TransformerTTS Transformer는 natural langauge processing 분야에서 recurrent neural entwork를 없애고 훈련을 병렬로 가속화 진행해 가속화 하기 위한 목적으로 고안된 self-attention 기반의 모델이다. 이 모델이 Tacotron, Tacotron2 등에서 공통적으로 보이는 TTS 구조와 결합된 것이 Transformer TTS이다. Tacotron2와의 차이점 네트워크 구조: RNN을 대체하는 self-head attention과 이를 ensembling한 multi-headattention Self attention: 일반적인 attention에서는 key 신호와 query 신호, value 신호가 각각 따로 정의 되어 key 신호와 ..
TTS 연구 동향 및 기술 수준 Tacotron2과 WaveNet 이후로는 음질 향상보다는 훈련 속도 향상과 추론(=합성) 속도 향상 및 개성 표현 관련 연구가 다수 진행되고 있음. Tacotron2와 WaveNet의 경우 함께 썼을 때의 자연성 MOS가 4.5이며 이는 자연음과 동일한 수준임. 훈련 속도 향상을 위한 연구: Transformer, Deep Voice 3 등 추론 속도 향상을 위한 연구: WaveGlow, FastSpeech, MelGAN 등 개성 표현을 위한 연구: Deep Voice 2, Deep Voice 3, global style token 등 End-to-end 합성기라 함은 mel-spectrogram을 합성한 후, neural vocoder를 사용해 mel-spectrogram으로부터 waveform을 생..
Tacotron2 Tacotron과 동일한 점: encoder prenet, encoder, attention, decoder prenet, decoder 모듈로 이루어져, 큰 틀에서는 동일하다.이 '큰 틀'은아래와 같다. Decoder prenet: 2-layer linear projection으로써, Attention 과정에서 encoder의 출력인 text space와 decoder 출력인 acoustic space를 비교 가능하게 동일 space로 매핑하는 역할 Encoder prenet: 3-layer convolution network로 이루어져, character 입력을 받아, convolution kernel의 크기에 따라 이웃 character를 반영해 요약함으로써, 전통적인 TTS나 ASR에서의 n-gr..
CondConv: Conditionally Parameterized Convolutions for Efficient Inference 보호되어 있는 글입니다.