본문 바로가기

논문 리뷰7

(2/2) AudioGen: Textually Guided Audio Generation 리뷰 앞선 내용은 AudioGen: Textually Guided Audio Generator 1부에서 읽어주세요 (1/2) AudioGen: Textually Guided Audio Generation 리뷰 안녕하세요, 오늘은 AudioGen: Textually Guided Audio Generation 논문을 살펴보도록 하겠습니다. 논문 제목은 AudioGen인데 코드나 블로그에서는 AudioCraft라고 소개하고 있습니다. 프로젝트 이름이 AudioCraft, thecho7.tistory.com Audio Representation 먼저 좋은 Audio representation을 얻기 위해 Auto-encoder를 제대로 학습해야 합니다. 아래는 그 과정에서 가장 중요한 Training objectiv.. 2023. 8. 6.
(1/2) AudioGen: Textually Guided Audio Generation 리뷰 안녕하세요, 오늘은 AudioGen: Textually Guided Audio Generation 논문을 살펴보도록 하겠습니다. 논문 제목은 AudioGen인데 코드나 블로그에서는 AudioCraft라고 소개하고 있습니다. 프로젝트 이름이 AudioCraft, 모델 이름이 AudioGen입니다. 이번 논문은 제목처럼 텍스트를 입력으로 받아 그에 맞는 소리를 생성하는 생성 AI입니다. 일전에 소개드렸던 ImageBind 리뷰처럼 비슷한 연구가 있어 아주 참신하지는 않지만 어떤 특징을 갖고 어떤 장점이 있는지 설명하겠습니다. 참고로 이 글은 블로그와 논문을 함께 참고하며 작성했습니다. 블로그: AudioCraft 코드: AudioCraft Github 논문: 논문 링크 Introduction 소리를 생성하는.. 2023. 8. 3.
[논문 리뷰] DINOv2: Learning Robust Visual Features without Supervision 설명 안녕하세요, 오늘은 몇일 전 Meta에서 발표한 DINOv2 논문을 소개하려고 합니다. Computer Vision 분야에서 이미 유명한 DINO를 업그레이드 해서 발표했는데요, 이 Self-supervised Learning 방식은 어떻게 탄생했는지, 어떤 구조와 장점을 갖는지, 그리고 그 결과는 어떤지 리뷰하도록 하겠습니다. 논문: https://arxiv.org/pdf/2304.07193.pdf 코드: https://github.com/facebookresearch/dinov2 Introduction Meta, Google, OpenAI와 같은 거대한 기업에서는 요즘 Foundation models 연구에 한창인 것 같습니다. NLP에서는 GPT가 득세하고 많은 대중들의 사랑을 받았는데요, Comp.. 2023. 4. 21.
[논문 리뷰] VideoMAE - Masked Autoencoders are Date-Efficient Learners for Self-supervised Video Pre-Training 안녕하세요, 오늘은 비디오 계의 훌륭한 pre-trained 모델을 만든 VideoMAE: Masked Autoencoders are Date-Efficient Learners for Self-supervised Video Pre-Training 논문을 설명하도록 하겠습니다. 참고로 이번 리뷰는 MAE(Masked Autoencoder)를 이해하고 있어야 이해가 빠릅니다. 그럼 시작하겠습니다. 논문: https://arxiv.org/pdf/2203.12602.pdf 코드: https://github.com/MCG-NJU/VideoMAE Introduction 최근에는 자연어뿐만 아니라 이미지, 음성 등 많은 분야에서 Transformer를 채택해서 많은 성장이 있었죠? 연속적인 이미지의 집합인 비디오도 .. 2023. 4. 18.
[논문 리뷰] Segment Anything 설명 (코드 살짝 포함) 안녕하세요, 오늘은 따끈따끈한 Meta의 논문 - Segment Anything에 대해서 소개하고자 합니다! 데모만 하고도 너무 두근거렸는데 그 이유는 제가 회사에서 하는 일과 관련이 매우 높기 때문입니다. 제가 직접 개발했다면 얼마나 좋았을까 하는 마음도 들지만 이렇게 리뷰라도 할 수 있어 참 행복합니다 논문 링크: Segment Anything 깃허브 링크: Segment Anything Github 그럼 리뷰 시작하겠습니다 Introduction 다들 "Foundation models"이라고 들어보셨나요? 분야를 막론하고 거대한 데이터셋으로 Pre-training 시킨 거대한 모델을 foundation model이라고 부릅니다. 이 모델들은 해당 task에 대해 엄청난 generalizability.. 2023. 4. 9.
[논문 리뷰] Mixed Precision Training (MP, AMP) 오늘은 모델의 파라미터를 32-bit가 아닌 16-bit로 표현하여 배치 사이즈를 늘리고, 그에 따라 학습 속도를 빠르게 할 수 있는 Mixed Precision Training이라는 기술에 대해 설명하도록 하겠습니다. 더불어, 이 과정에서 발생할 수 있는 문제를 Adaptive 방식으로 해결하는 과정과 나아가 Automatic Mixed Precision(AMP)이 뭔지 다루도록 하겠습니다. 혹시 논문부터 읽고 싶으신 분은 Mixed Precision Training을 참고하세요 Mixed Precision의 배경 Single Precision(Floating Point 32, FP32)는 과연 딥러닝 학습에서 양보할 수 없는 선일까? 만약 Half Precision(Floating Point 16, .. 2023. 3. 29.