'Paper Review' 카테고리의 글 목록

ToEdit : How to synthesize text to avoid Model Collapse?(ICML 2025)Xuekai Zhu, Daixuan Cheng, Hengli Li 외 7인https://arxiv.org/abs/2412.14689오늘은 언어 모델을 활용해 텍스트 합성 데이터를 생성할 때 발생할 수 있는 문제인 모델 붕괴 현상에 대해 실증적으로 탐구하고, 그에 대한 해결책을 제시한 ToEdit이라는 논문을 리뷰해보도록 하겠습니다! 📌 Introduction현재 텍스트 합성 데이터 생성 도메인을 바라보는 두 가지 관점이 존재합니다. 1. 실용적 관점 : 텍스트 합성 데이터는 많은 도메인에서 정렬 능력과 기본적인 언어 모델의 능력을 향상시킨다.2. 이론적 관점 : 모델이 합성 출력을 반..

Training language models to follow instructions with human feedback(2022)Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin 외 14인(OpenAI)https://arxiv.org/abs/2203.02155오늘은 지난번 OpenAI에서 제안한 RLHF 논문 그 이후로, 그 후속 논문으로서 GPT를 RLHF 기반으로 Insturction 튜닝하고 성능을 평가하는 대표 논문인 InstructGPT를 리뷰해보도록 하겠습니다! 📌 Introduction바로 직전 MoE 논문에서 모델 용량에 대해 직접적으로 언급해왔어서 괜히 익숙하긴 한데, 다른 의미로 언..

Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer(ICLR 2017)Noam Shazeer, Azalia Mirhoseini, Krzysztof Maziarz, Andy Davis, Quoc Le, Geoffrey Hinton, Jeff Deanhttps://arxiv.org/abs/1701.06538최근 1~2년간 LLM 파운데이션 모델들이 개발되는 양상을 보면, 다수의 모델에서 MoE 아키텍쳐를 사용해 효율적인 추론을 할 수 있도록 하는 것 같은데, 저는 아직 이 컨셉에 대한 인지가 미비한 것 같아 오늘은 트랜스포머 이전에 처음으로 언어모델에 MoE 아키텍쳐가 적용되었던 위의 논문을 리뷰해보고자 합니다. 📌..

Synthetic Data Generation Using Large Language Models : Advances in Text and Code(IEEE Access)Mihai Nadas, Laura Diosan, Andreea Tomescuhttps://arxiv.org/abs/2503.14023오늘은 최근 제가 관심있게 보고 있는 합성 데이터 생성 기술의 동향을 한번 살펴보고자 위의 서베이 논문을 가져오게 되었습니다. 저는 주로 텍스트 생성에 관심이 있는데, 어떤 영역에 기술이 어떻게 활용되고, 어떠한 한계점이 있는지 살펴보며 그 안에서 개인적인 인사이트와 앞으로의 연구 방향성 등에 대해 고민해보고자 합니다. 📌 Introduction다양한 언어 생성 작업에서 LLM이 발전을 거듭해온 것은 ..

Fine-Tuning Language Models from Human PreferencesDaniel M. Ziegler, Nisan Stiennon, Jeffrey Wu, Tom B. Brown, Alec Radford, Dario Amodei, Paul Christiano Geoffrey Irving(OpenAI)https://arxiv.org/abs/1909.08593오늘은 강화학습 기반의 파인튜닝 방법론을 통해 인간의 선호를 언어 모델에 통합하는 방법인 RLHF를 제안한 시초격의 논문, OpenAI의 "Fine-Tuning Language Models from Human Preferences"를 리뷰해보며, 앞으로 진행해나갈 LLM Alignment 공부의 시작을 열도록 하겠습니다! 📌 Intr..

RA-TTA : Retrieval-Augmented Test-Time Adaptation For Vision-Language Models (ICLR 2025)Youngjun Lee, Doyoung Kim, Junhyeok Kang, Jihwan Bang, Hwanjun Song, Jaegil Leehttps://openreview.net/forum?id=V3zobHnS61 본 논문은 대규모 웹 이미지 데이터베이스로부터 얻은 외부 지식을 활용하여 테스트 분포에 VLM을 적응시키는 Retrieval Augmented-TTA(RA-TTA)를 제안한 논문입니다. TTA라는 개념을 처음 접해보는데, 공부하면서 잘 리뷰해보도록 하겠습니다. 논문 리뷰 시작하겠습니다! 😊 📌 Abstract & Introducti..

LLaVA : Visual Instruction Tuning (Neurips 2023)Haotian Liu, Chunyuan Li2, Qingyang Wu, Yong Jae Leehttps://arxiv.org/abs/2304.08485 오늘은 LLM과 고성능 이미지 인코더를 Visual Instruction Tuning 방식을 통해 효율적으로 연결해 멀티모달 챗 능력을 가능하게 만든 논문인 LLaVA: Large Language and Vision Assistant를 리뷰해보도록 하겠습니다! 😄 📌 Abstract & Introduction 본 연구는 Visual Instruction Tuning을 통해 범용적인 작업들을 수행할 수 있는 Vision Languge 어시스턴트를 구축하는 작업을 처음으..

BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models (ICML 2023)Junnan Li, Dongxu Li, Silvio Savarese, Steven Hoihttps://arxiv.org/abs/2301.12597 오늘은 LLM과 고성능 이미지 인코더를 효율적으로 연결해 멀티모달 작업을 가능하게 만든 논문인 BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models 를 리뷰해보도록 하겠습니다! 😄 📌 Abstract & Introduction ..

Flamingo: a Visual Language Model for Few-Shot Learning(2022 NeurIPS)Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc, Antoine Miech 외 23명https://arxiv.org/abs/2201.12086 오늘은 대규모 거대 언어 모델과 비전 인코더를 결합해 이미지와 텍스트를 동시에 처리하며, 적은 수의 예시만으로도 새로운 태스크에 빠르게 적응하는 Few-Shot Learning 특화 멀티모달 모델인 Flamingo를 다룬 논문인 Flamingo : a Visual Language Model for Few-Shot Learning 을 리뷰해보도록 하겠습니다! 📌 Abstract & Introduction..

BLIP : Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation(2022 ICML)Junnan Li, Dongxu Li, Caiming Xiong, Steven Hoihttps://arxiv.org/abs/2201.12086 오늘은 멀티모달 비전-언어 통합 학습을 위해 제안된 BLIP 모델을 다룬 논문인 Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation 을 리뷰해보도록 하겠습니다! 📌 AbstractVision Language 도메인에서 사전학습은 다양한..

Robust Speech Recognition via Large-ScaleWeak Supervision(2023 ICML)Alec Radford, JongWook Kim, Tao Xu, Greg Brockman, Christine McLeavey, Ilya Sutskeverhttps://arxiv.org/abs/2107.07651 오늘은 Large-Scale Weak Supervision 학습을 통해 강건한 음성 인식 및 번역 성능을 달성한 Whisper 모델을 다룬 논문인 Robust Speech Recognition via Large-Scale Weak Supervision을 리뷰해보도록 하겠습니다! 📌 Abstract본 논문의 연구자들은 인터넷에 있는 방대한 양의 음성 전사 데이터를 활용해 단순히..

Align before Fuse: Vision and Language Representation Learning with Momentum Distillation(2021 NeurIPS)Junnan Li, Ramprasaath R. Selvaraju, Akhilesh D. Gotmare Shafiq Joty, Caiming Xiong, Steven C.H. Hoihttps://arxiv.org/abs/2107.07651 오늘은 이미지와 텍스트 표현을 융합하기 전에 모달리티 간 정렬을 먼저 진행함으로써 성능을 획기적으로 향상시킨 ALBEF 논문Align before Fuse: Vision and Language Representation Learning with Momentum Distillation을 리뷰..

CLIP : Learning Transferable Visual Models From Natural Language Supervision (2021 ICML)Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal 외 6명https://arxiv.org/abs/2103.00020 오늘은 이미지와 텍스트를 결합하여 제로샷 성능을 획기적으로 향상시킨 CLIP(Contrastive Language–Image Pretraining)을 소개한 논문 Learning Transferable Visual Models From Natural Language Supervision을 리뷰해보도록 하겠습니다! 😁 📌 Ab..

ViT : An Image Is Worth 16X16 Words : Transformers For Image Recognition At Scale (2022.12.V11)Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn 외 8명https://arxiv.org/abs/2010.11929 오늘은 이미지 분류와 다양한 시각 인식 작업에서 뛰어난 성능을 보인 비전 트랜스포머(Vision Transformer, ViT)를 소개한 논문 An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale를 리뷰해보도록 하겠습니다! 😁 📌 Abstract & Introdu..

VAE : Auto-Encoding Variational Bayes (2022.12.V11)Diederik P. Kingma, Max Welling(Universiteit van Amsterdam)https://arxiv.org/abs/1312.6114 오늘은 확률적 생성 모델인 변분 오토인코더를 이용해 데이터의 잠재 공간을 학습하고, 이를 통해 생성 품질을 향상시키는 방법론을 제시한 논문 VAE : Auto-Encoding Variational Bayes를 리뷰해보도록 하겠습니다! 😁 📌 Abstract본 논문에서는 연속적인 latent variable이 있는 확률 모델에서 효율적으로 추론 및 학습을 진행하는 방법에 대해 소개합니다. 특히 사후 분포가 다루기 어렵다거나, 데이터가 매우 큰 경우에도 ..

RAFT : Adapting Large Language Model to Domain Specific RAG (2024.05.)Tianjun Zhang, Shishir G. Patil, Naman Jain, Sheng Shen 외 3인 (UC Berkeley)https://arxiv.org/abs/2403.10131 오늘은 LLM을 특수 도메인에 적용하기 위해 주로 활용되어지는 RAG, 파인튜닝 방법론의 각 단점을 보완하고 두 방식을 결합함으로써 효율적인 도메인 최적화 방식을 제안한 RAFT : Adapting Large Language Model to Domain Specific RAG 논문을 리뷰하도록 하겠습니다! 😁 📌 Abstract & Introduction 일반 지식 추론 작업에서 LLM은 ..

Knowledge Card (ICLR 2024)Shangbin Feng, Weijia Shi, Yulia Tsvetkov, Tianxing He, Yuyang Bai, Vidhisha Balachandranhttps://arxiv.org/abs/2305.09955 오늘은 기존 정적 LLM들의 한계를 극복하기 위해 외부에 Knowledge Card라는 Specialized LLM을 별개로 두어 BASE LLM의 지식을 효과적으로 보강하는 방법론을 제시한 ICLR 2024에 발표되었던 Knowledge Card : Filling LLMs' Knowledge gaps with Plug-in Specialized Language Models 논문에 대해 리뷰해보는 시간을 가지겠습니다! 📌 Abstract 기존..

Mask R-CNN (2018.01.V3)Kaiming He, Georgia Gkioxari, Piotr Dollar, Ross Girshick(Facebook AI Research)https://arxiv.org/abs/1703.06870 오늘은 기존 객체 탐지 방법론인 Faster R-CNN에 Segmentation Task를 추가함으로써, 모델의 성능과 범용성에 대해 추가적 개선 여지를 보여준 Mask R-CNN 모델에 대해 알아보도록 하겠습니다. 바로 논문 리뷰 시작하겠습니다! 😁 📌 Abstract & Introduction당시 객체 탐지와 Sematic Segmentation 분야는 성능 개선을 비교적 빠른 시간에 이루었고, 이는 기존의 Fast, Faster R-CNN 모델과, FCN의 ..

EfficientNet : Rethinking Model Scaling for Convolutional Neural Networks (2020.09.V5)Mingxing Tan, Quoc V.Lehttps://arxiv.org/abs/1905.11946 오늘 리뷰할 논문은 CNN 신경망의 크기를 밸런스있게 조정함으로서 높은 성능과 연산 효율성 두마리 토끼를 모두 잡은 EfficientNet : Rethinking Model Scaling for Convolutional Neural Networks 입니다. 그럼 논문 리뷰 시작해보도록 하겠습니다! 😁 📌 Abstract현실적으로 CNN의 개발 과정에서는 사용할 수 있는 자원이 한정되어 있고, 더 나은 모델 정확도를 얻고자 할 때는 추가 자원을 투입하여..

RetinaNet : Focal Loss for Dense Object Detection (2018.02.V2)Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, Piotr Doll´ar (Facebook) 오늘 리뷰할 논문은 2018년 페이스북에서 발표한 논문으로, Focal Loss의 도입을 통해 One-stage Detector의 한계점을 효과적으로 극복한 Object Detection 관련 논문입니다. 그럼 논문리뷰 시작하겠습니다! 📌 Abstract & Introduction 기존의 Object Detection 모델들을 크게 두 갈래로 나누자면 대표적으로 위에 보이시는 것과 같이 1-Stage Detector와 2-Stage Detector로 나..

RoBERTa : A Robustly Optimized BERT Pretraining Approach (2019.07.V1)Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi 외 5인https://arxiv.org/abs/1907.11692 오늘 리뷰할 논문은 2019년도에 워싱턴 대학과 페이스북 연구진들이 발표한 논문으로, 이전에 나왔던 논문들과는 약간 다르게 특별한 아키텍쳐의 변형없이 기존에 발표되었던 BERT의 학습 과정 내 파라미터 조정과 약간의 방법론 수정을 통해 추가적인 성능 향상을 도모한 연구 결과를 다룬 논문입니다. 그럼 논문 리뷰 시작하겠습니다! 😁 📌 Abstract기존 연구들에서 언어 모델의 사전학습 방식 자체가 좋다는 것은..

BERT : Pre-training of Deep Bidirectional Transformers for Language Understanding (2019.05.V5)Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova (Google)오늘 리뷰할 논문은 2019년 구글에서 발표한 논문으로, 이전에 나왔던 OpenAI의 GPT와는 다르게 트랜스포머 인코더 구조의 사전학습을 통해 NLP Task 성능을 향상시킨 획기적인 연구로 종종 평가받는 BERT : Pre-training of Deep Bidirectional Transformers for Language Understanding 입니다. 논문 리뷰 시작하겠습니다! 😁 📌 AbstractBE..

YOLO : Unified, Real-Time Object Detection (2016.05)Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadihttps://arxiv.org/abs/1506.02640 오늘 리뷰할 논문은 작년에 v11까지 확장되어 나왔을 정도로 현재까지도 실시간 객체 탐지의 대표 모델로 유명한 YOLO의 가장 초기 버전에 해당하는 YOLO : Unified, Real-Time Object Detection 논문입니다. 논문 리뷰 시작하겠습니다! 😁 📌 Abstract You Only Look Once의 약자인 일명 YOLO 모델은 논문의 이름과 같이 통합된 단일 신경망으로써, 기존 R-CNN 계열의 2-Stage Detector..

GPT-1 : Improving Language Understanding by Generative Pre-Training (2018)Alec Radford, Karthic Narasimhan, Tim Salimans, Ilya Sutskever(OpenAI) 오늘 리뷰할 논문은 2018년 OpenAI에서 GPT라는 이름으로 처음 발표한 논문이자, 트랜스포머의 디코더 구조를 활용하여 획기적인 비지도 사전학습 방법론을 제시한 GPT-1 : Improving Language Understanding by Generative Pre-Training 입니다! 논문 리뷰 시작하겠습니다! 😁 📌 Abstract & Introduction본 논문에서는 기계번역, 텍스트 요약 등에 해당하는 NLP Task들이 아닌,..

Transformer : Attention Is All You Need (2017.06.)Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit 외 4인https://arxiv.org/abs/1706.03762 오늘 리뷰할 논문은 현재까지도 분야에 관계없이 무수히 많은 딥러닝 아키텍쳐의 베이스 모델로 활용되고 있으며, 현대 딥러닝 발전 과정에 있어 결코 빼놓을 수 없는 Transformer 아키텍쳐를 처음으로 소개한 Attention Is All You Need입니다. 논문 리뷰 시작해보도록 하겠습니다! 😁 📌 Abstract & Introduction당시 순차적 특징을 지닌 시퀀스 데이터를 모델링하거나 변환(기계 번역)할 때에는 LSTM, GRU 등..

U-Net : Convolutional Networks for Biomedical Image Segmentation (2015.05.)Olaf Ronneberger, Philipp Fischer, Thomas Broxhttps://arxiv.org/abs/1505.04597 오늘 리뷰할 논문은 의료 이미지 Segmentation에 초점을 맞춰 작성되었지만, 방법론상 많은 강점을 가지고 있어일반적으로 Segmentation 전 분야에서 현재까지도 널리 활용되는 Architecture인 U-Net : Convolutional Networks for Biomedical Image Segmentation입니다. 논문 리뷰 시작하겠습니다! 😁 📌 Abstract & Introduction 위의 그림은 기존..

Attention : Neural Machine Translation By Jointly Learning To Align and Translate (2015 ICLR)Dzmitry Bahdanau, Kyunghyun Cho, Yoshua Bengiohttps://arxiv.org/abs/1409.0473 오늘 리뷰할 논문은 Transformer를 읽기 전에 반드시 이해하고 넘어가야할, 소위 Attention 개념이 처음으로 등장한 Neural Machine Translation By Jointly Learning To Align and Translate입니다. 논문 리뷰 시작하겠습니다! 📌 Abstract & Introduction기계 번역 Task는 과거 SMT(Statistical Machine T..

MobileNets : Efficient Convolutional Neural Networks for Mobile Vision Applications (2017.04.)Andrew G. Howard, Menglong Zhu, Bo Chen, Dmitry Kalenichenko 외 4인 (Google)https://arxiv.org/abs/1704.04861 이번에 리뷰할 논문은 2017년도에 발표되었던 CNN 모델 경량화를 주제로 한 MobileNets : Efficient Convolutional Neural Networks for Mobile Vision Applications입니다. 바로 논문 리뷰 시작하겠습니다! 😁 📌 Abstract & IntroductionCNN 초기 발전 과정에 있어서 ..

Seq2Seq : Seqeunce to Sequence with Neural Networks(2014.12.)Ilya Sutskever, Oriol Vinyals, Quoc V.Le(Google)https://arxiv.org/abs/1409.3215 이번에 리뷰할 논문은 2014년에 발표되었던, 여러 NLP 논문들의 시초라고도 볼 수 있는 Seq2Seq : Sequence to Sequence with Neural Networks 논문입니다! 논문 리뷰 시작하겠습니다!😁 📌 AbstractSeq2Seq 논문을 본격적으로 이해하려면 시퀀스가 무엇인지부터 이해할 필요성이 있을 것 같습니다. 일반적인 의미의 시퀀스는 순서가 있는 순차 데이터를 의미하는데요, 이를 언어 모델로 확장하면 텍스트를 모델이 처리..

SPPNet : Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition(2014.06.)Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sunhttps://arxiv.org/abs/1406.4729오늘 리뷰할 논문은 2014년도에 발표되었던 논문으로, 고정 크기가 아닌 가변 크기의 입력 이미지 처리를 지원하는 모델 아키텍쳐인 SPPNet를 다룹니다. 그럼 바로 논문리뷰 시작하겠습니다!😁 📌 Abstract논문 발표 당시 CNN 분류 네트워크들의 입력 이미지 크기는 대부분 224*224로 고정되어 있었습니다. 이전에 리뷰했던 VGG의 경우도 마찬가지였습니다. 하지만, 현실 세계의..

티스토리툴바