TTS (19) 썸네일형 리스트형 Transformer TTS TransformerTTS Transformer는 natural langauge processing 분야에서 recurrent neural entwork를 없애고 훈련을 병렬로 가속화 진행해 가속화 하기 위한 목적으로 고안된 self-attention 기반의 모델이다. 이 모델이 Tacotron, Tacotron2 등에서 공통적으로 보이는 TTS 구조와 결합된 것이 Transformer TTS이다. Tacotron2와의 차이점 네트워크 구조: RNN을 대체하는 self-head attention과 이를 ensembling한 multi-headattention Self attention: 일반적인 attention에서는 key 신호와 query 신호, value 신호가 각각 따로 정의 되어 key 신호와 .. Tacotron2 Tacotron과 동일한 점: encoder prenet, encoder, attention, decoder prenet, decoder 모듈로 이루어져, 큰 틀에서는 동일하다.이 '큰 틀'은아래와 같다. Decoder prenet: 2-layer linear projection으로써, Attention 과정에서 encoder의 출력인 text space와 decoder 출력인 acoustic space를 비교 가능하게 동일 space로 매핑하는 역할 Encoder prenet: 3-layer convolution network로 이루어져, character 입력을 받아, convolution kernel의 크기에 따라 이웃 character를 반영해 요약함으로써, 전통적인 TTS나 ASR에서의 n-gr.. CondConv: Conditionally Parameterized Convolutions for Efficient Inference 보호되어 있는 글입니다. 이전 1 2 3 다음