본문 바로가기

multimodal3

(2/2) AudioGen: Textually Guided Audio Generation 리뷰 앞선 내용은 AudioGen: Textually Guided Audio Generator 1부에서 읽어주세요 (1/2) AudioGen: Textually Guided Audio Generation 리뷰 안녕하세요, 오늘은 AudioGen: Textually Guided Audio Generation 논문을 살펴보도록 하겠습니다. 논문 제목은 AudioGen인데 코드나 블로그에서는 AudioCraft라고 소개하고 있습니다. 프로젝트 이름이 AudioCraft, thecho7.tistory.com Audio Representation 먼저 좋은 Audio representation을 얻기 위해 Auto-encoder를 제대로 학습해야 합니다. 아래는 그 과정에서 가장 중요한 Training objectiv.. 2023. 8. 6.
(1/2) AudioGen: Textually Guided Audio Generation 리뷰 안녕하세요, 오늘은 AudioGen: Textually Guided Audio Generation 논문을 살펴보도록 하겠습니다. 논문 제목은 AudioGen인데 코드나 블로그에서는 AudioCraft라고 소개하고 있습니다. 프로젝트 이름이 AudioCraft, 모델 이름이 AudioGen입니다. 이번 논문은 제목처럼 텍스트를 입력으로 받아 그에 맞는 소리를 생성하는 생성 AI입니다. 일전에 소개드렸던 ImageBind 리뷰처럼 비슷한 연구가 있어 아주 참신하지는 않지만 어떤 특징을 갖고 어떤 장점이 있는지 설명하겠습니다. 참고로 이 글은 블로그와 논문을 함께 참고하며 작성했습니다. 블로그: AudioCraft 코드: AudioCraft Github 논문: 논문 링크 Introduction 소리를 생성하는.. 2023. 8. 3.
[논문 리뷰] IMAGEBIND: One Embedding Space To Bind Them All 안녕하세요, 오늘은 Meta의 새로운 논문 IMAGEBIND: One Embedding Space To Bind Them All를 읽고 설명해볼까 합니다. 이 논문은 무려 6가지의 Modalities - Image, Text, Audio, Depth, Thermal, and IMU를 한데 엮어 이해한 모델을 소개하고 있기 때문에 결과물의 수준이 많이 궁금해서 리뷰하도록 하겠습니다. 잡설이지만 요즘 구글, OpenAI, Meta 등의 글로벌 기업들은 하루가 멀다하고 새로운 연구들을 발표하기 때문에 대체 어떤 논문을 읽고 따라가야할까 고민이 많은 요즘입니다. 소개에 앞서 프로젝트 페이지를 공유드립니다. Project: https://imagebind.metademolab.com/ Github: https:/.. 2023. 5. 11.