본문 바로가기

meta4

Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture (I-JEPA) 논문 리뷰 안녕하세요, 오늘은 I-JEPA라는 Self-Supervised Learning 기법을 소개합니다. 이 방법은 휘황찬란한 Augmentation 기법에 구애받지 않으면서 이미지의 픽셀을 들여다보는 것이 아닌 기존 보다 의미론적 관점에서 조금 더 직관적인 이미지 이해를 위한 설계를 통해 훌륭한 결과를 달성했다고 합니다. 이번 설명은 결론부터 먼저 말씀드리는 방법으로 진행해보겠습니다. 논문: https://arxiv.org/pdf/2301.08243.pdf Github: https://github.com/facebookresearch/ijepa/tree/main I-JEPA 정리 이 논문은 기존 Self-supervised Learning 방법들이 픽셀 수준에서 학습했던 것과는 달리, 모델이 좀 더 고차원적.. 2023. 6. 19.
[논문 리뷰] Scaling Speech Technology to 1,000+ Languages 안녕하세요, 오늘은 따끈하게 나온 Meta의 논문 - Scaling Speech Technology to 1,000+ Languages를 리뷰해볼까 합니다. 프로젝트 이름은 Massively Multilingual Speech (MMS)라고 합니다. 이걸 모델 이름으로 불러도 될지... 아무튼 1,100개 이상의 언어에 대해 음성 전사(Speech-to-text (STT), Transcription)와 음성 생성(Text-to-speech), 그리고 언어 파파악(Identification)을 수행할 수 있는 엄청난 모델을 개발했다고 합니다. (참고로 제가 이 분야에 대해 자세하게는 몰라 블로그의 내용을 위주로 다뤘습니다) 참고 자료: Paper, Blog, Github Introduction 이 세상에는.. 2023. 5. 24.
[논문 리뷰] IMAGEBIND: One Embedding Space To Bind Them All 안녕하세요, 오늘은 Meta의 새로운 논문 IMAGEBIND: One Embedding Space To Bind Them All를 읽고 설명해볼까 합니다. 이 논문은 무려 6가지의 Modalities - Image, Text, Audio, Depth, Thermal, and IMU를 한데 엮어 이해한 모델을 소개하고 있기 때문에 결과물의 수준이 많이 궁금해서 리뷰하도록 하겠습니다. 잡설이지만 요즘 구글, OpenAI, Meta 등의 글로벌 기업들은 하루가 멀다하고 새로운 연구들을 발표하기 때문에 대체 어떤 논문을 읽고 따라가야할까 고민이 많은 요즘입니다. 소개에 앞서 프로젝트 페이지를 공유드립니다. Project: https://imagebind.metademolab.com/ Github: https:/.. 2023. 5. 11.
[논문 리뷰] DINOv2: Learning Robust Visual Features without Supervision 설명 안녕하세요, 오늘은 몇일 전 Meta에서 발표한 DINOv2 논문을 소개하려고 합니다. Computer Vision 분야에서 이미 유명한 DINO를 업그레이드 해서 발표했는데요, 이 Self-supervised Learning 방식은 어떻게 탄생했는지, 어떤 구조와 장점을 갖는지, 그리고 그 결과는 어떤지 리뷰하도록 하겠습니다. 논문: https://arxiv.org/pdf/2304.07193.pdf 코드: https://github.com/facebookresearch/dinov2 Introduction Meta, Google, OpenAI와 같은 거대한 기업에서는 요즘 Foundation models 연구에 한창인 것 같습니다. NLP에서는 GPT가 득세하고 많은 대중들의 사랑을 받았는데요, Comp.. 2023. 4. 21.