본문 바로가기

전체 글

(31)
icassp2024 Submitted to ICASSP 2024 INTELLI-Z: TOWARDS INTELLIGIBLE ZERO-SHOT TTS Sunghee Jung, Won Jang, Jaesam Yoon, Bongwan Kim Kakao Brain, Seongnam, Republic of Korea Although numerous recent studies have suggested new frameworks for zero-shot TTS using large-scale, real-world data, studies that focus on the intelligibility of zero-shot TTS are relatively scarce. Zero-shot TTS demands additional effor..
Samples_230515 Unseen speakers - Out-of-distribution (professional voice actors) Gender Reference Synthesized sample 1 Synthesized sample 2 Male Male Male Male Male Female Female Unseen speakers - In-distribution (ordinary people) Gender Reference Synthesized sample 1 Synthesized sample 2 Male Male Male Male Male Female Female Female Female Female
samples2023 submitted to ICASSP 2023 "Meta-learning for zero-shot voice cloning" Sunghee Jung, Won Jang Kakao Enterprise Corpration, Seongnam, Republic of Korea Unseen speakers Reference w/o $L_{eps}, L_{cyc}, L_{adv}$ Meta-StyleSpeech Proposed Seen speakers Reference Multi-speaker TTS w/o $L_{eps}, L_{cyc}, L_{adv}$ Meta-StyleSpeech Proposed
AdaSpeech: Adaptive text to speech for custom voice 보호되어 있는 글입니다.
Naver Deview2020 "누구나 만드는 내 목소리 합성기2 (커스텀 보이스 파이프 라인)" 보호되어 있는 글입니다.
JDI-T: Jointly trained Duration Informed Transformer for Text-To-Speech without Explicit Alignment 저자: Dan Lim, Won Jang, Gyeonghwan O, Heayoung Park, Bongwan Kim, Jaesam Yoon TTS inference를 parallel하게 돌리기 위해서는 Transformer, GAN, Flow 같은 non-sequential한 모델이 필요할 뿐만 아니라, duration predictor가 필요하다. inference할 때 duration predictor가 없으면 autoregressive하게 한땀 한땀 입력 텍스트와 이전 프레임을 보고 이에 걸맞는 새 프레임을 생성해야 한다. 하지만 duration predictor가 있다면 parallel하게, 이전 프레임에 대한 디펜던시 없이 inference를 할 수 있다. GlowTTS는 고전적인 DP로 해결하되..
Glow-TTS: A Generative Flow for Text-to-Speech via Monotonic Alignment Search 저자: Jaehyeon Kim, Sungwon Kim, Jungil Kong and Sungroh Yoon 소속: 카카오 엔터프라이즈, 서울대 Data science & AI Lab 1) Vocoder에 사용된 바 있는 Glow를 TTS에 적용 Inference speed Tacotron2 대비 15.7배 개선. 의심의 여지 없고 토론의 여지도 없지. 누군가 언젠가는 했어야 하는 일. Prosody control 여지 $\mu_i$, $\sigma_i$ Sampling from prior $\mu_i$, $\sigma_i$ -> $z_j$ $f_{dec}$ $z_j$ + speaker id -> $x_j$ 수식적으로 더한다는게 아니라, decoder의 모든 block에 speaker embedding 정..
Blizzard challenge 2020 1. Dataset 1) Mandarin TTS - 9.5H training data, text transcription only 2) Shanghai dialect TTS - Low resource-> 3시간의 데이터 사용 - Text * phonetic transcriptions 2. 참가자들 - 첫번째 태스크 16팀, 두번째 태스크 8팀. - Blizzard challenge 역사상 처음으로 HMM이나 unit selection 없이 전부 DNN 기반 모델. - 모두 Neural vocoder 사용 (WaveRNN, WaveNet, LPCNet이 인기) -A: 자연음 -L: Tencent -D: Sogou -E: NUS-HLT -N: Royal flush -C: NLPR -O: OPPO -G: HI..