본문 바로가기

전체 글

(31)
Predicting emotion from text for TTS Emotion label specified during synthesis No. Neutral Happy Sad Angry 1 2 3 4 Emotion is predicted from language model (no emotion supervision from human during synthesis stage) No. Neutral Happy Sad Angry 1 2 3 4 5
Utilizing BERT for aspect-based sentiment analysis via constructing auxiliary sentence Authors) Chi Sun, Luyao Huang, Xipeng Qiu Publication) NAACL HLT 2019 - 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies - Proceedings of the Conference 1. Task 정의 Aspect-based sentioment analysis (ABSA): "그 식당은 분위기는 좋았지만 맛이 별로였다" 라는 댓글이 있으면 분위기 aspect에 대해서는 positive sentiment, 맛 aspect에 대해서는 negative sentiment로 분류하는 태스크이..
How multilingual is Multilingual BERT? Title: How multilingual is Multilingual BERT? Published: 4. Jun. 2019. Authors: Telmo Pires, Eva Schlinger, Dan Garrette @ Google Research 1. M-BERT 104개 언어의 wikipedia로 1개의 BERT 모델을 훈련했다. language label이나 translation을 장려하는 개입은 하지 않았다. 2. 두개의 down-stream task (Named entity recognition, Part of speech tagging)을 Language X로 학습시킨 후 Language Y에 대해 inference한 결과(zero-shot experiment)를 알아보았다. 여기서 언어들은 ..
Pytorch GPU device 쓸 때 디버깅 오류 https://stackoverflow.com/questions/51009687/pytorch-unable-to-get-repr-for-class-torch-tensor Pytorch, Unable to get repr for I'm implementing some RL in PyTorch and had to write my own mse_loss function (which I found on Stackoverflow ;) ). The loss function is: def mse_loss(input_, target_): return torch.sum( ... stackoverflow.com ㅋㅋㅋ 무슨 일이 있었냐면, BERT pretrain 코드를 짜는데 line 195에 오류가 있는데 그냥 에러 ..
ELMo, GPT1, GPT2, BERT, RoBERTa, ALBERT의 발전 흐름과 비교 처음에 피치못할 사정으로 영어로 써버려서 영어로 일단 올립니다. 저도 한국어가 더 좋은데 말이죠ㅜ 시간이 나면 한국어로도 올릴게요.이번에 GPT3도 나왔는데 제가 본문에 지적한대로 zero-shot은 overreaching이라는걸 그들도 깨달았는지 Few-shot으로 컨셉을 바꿨더라고요? 그거 리뷰할 땐 한글로 하게 될 거 같아요. 출처는 저에요. 주관이 난무하는 글입니다. 저는 카이스트 박사과정 정성희입니다. 바쁘면 맨끝에 Discussion만 보는 것도 좋겠네요. Byte pair encoding, BERT, Word2Vec을 제 깃에 스크래치부터 구현해뒀으니 논문보다 더 자세한 이해가 필요하시면 한번 들러보셔도 좋을거에요. https://github.com/hash2430 hash2430 - Ove..
FastSpeech: Fast, Robust and Controllable Text to Speech Transfer learning 관점에서 볼 때 이 논문에서의 source task는 합성기이며, target task는 alignment가 정확하고 합성시간이 빠른 합성기이다. 이 논문에서는 두가지 목적을 위해 transfer learning을 한다. 첫째는 추론 시간 단축이고, 둘째는 alignment 개선이다. 1) 먼저 추론 시간 단축 측면에서 설명하겠다. 이 합성기 이전의 합성기들은 비록 CNN이나 Transformer 구조를 사용하여 훈련 시간을 단축할 수 있다고 해도 추론 시간은 단축하지 못했다. 왜냐하면 합성기의 입력 텍스트와 출력 프레임의 alignment를 추론 시간에 프레임 바이 프레임으로 auto-regressive하게 예측해야 했기 때문이다. 하지만 이 논문에서는 ‘Feed-for..
CHiVE: Varying prosody in speech synthesis with a linguistically driven dynamic hierarchical conditional variational network
Pitchtron: Towards audiobook generation from ordinary people’s voices Source code: https://github.com/hash2430/pitchtron/ Audio samples Prosody Reference GST Soft pitchtron Hard pitchtron Standard Korean neutral dialogue Standard Korean neutral dialogue Standard Korean emotive dialogue Standard Korean emotive dialogue Kyoungsang dialect Kyoungsang dialect Cheolla dialect Cheolla dialect Prosody transferability and vocal range scalability Scale Reference GST Soft p..