[Paper Review] CLIP : Learning Transferable Visual Models From Natural Language Supervision

CLIP : Learning Transferable Visual Models From Natural Language Supervision (2021 ICML)
Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal 외 6명
https://arxiv.org/abs/2103.00020

오늘은 이미지와 텍스트를 결합하여 제로샷 성능을 획기적으로 향상시킨 CLIP(Contrastive Language–Image Pretraining)을 소개한 논문 Learning Transferable Visual Models From Natural Language Supervision을 리뷰해보도록 하겠습니다! 😁

📌 Abstract

최첨단 컴퓨터 비전 시스템은 고정된, 사전 정의된 객체 범주를 예측하도록 학습되기 때문에, 새로운 시각적 개념을 다루려면 항상 추가적인 레이블링이 필요하다는 한계를 지니고 있습니다. 이 때, 이미지에 대한 원시 텍스트를 활용한 학습은 훨씬 더 방대한 감독 신호를 제공할 수 있는 유망한 대안이었습니다.

본 연구에서는 인터넷에서 수집한 4억 쌍의 이미지, 텍스트 데이터 쌍을 활용해 어떤 캡션이 어떤 이미지에 대응하는가를 맞추는 간단한 사전 학습 과제만으로, 처음부터 SOTA 수준의 이미지 표현을 효율적으로 학습할 수 있음을 보여줍니다.

사전 학습된 모델은 자연어 프롬프트만으로 학습된 시각 개념을 호출하거나 새로운 개념을 설명할 수 있어, 30여 개의 다양한 컴퓨터 비전 과제에서 추가 파인튜닝 없이도 제로샷 전이를 통해, 종종 완전 지도 학습 기반 모델과 동등한 성능을 달성하였습니다.

📌 Introduction and Motivating Work

NLP에서는 당시 대규모 비지도 사전학습(AR,AE)과 Text-to-Text 인터페이스가 도입되면서 GPT-3 같은 범용 언어 모델이 제로샷으로 다양한 과제에 경쟁력 있는 성능을 보였지만, 컴퓨터 비전 분야는 여전히 ImageNet 등 소수의 고품질 레이블 데이터에 의존해 야 했습니다.

과거 연구들에서 이미지 캡션의 단어 예측이나 해시태그 분류 등의 약한 형태의 text supervision을 시도했으나, 성능이 낮거나 클래스 수가 제한적이어서 제로샷 적용에는 한계가 있었습니다.

본 연구에서는 웹에서 수집한 4억 쌍의 이미지, 텍스트 Pair 데이터로부터 대규모 대조학습 기반 언어-이미지 사전학습을 수행하여, 학습 도중 OCR, 동작 인식 등 다양한 과제를 자연스럽게 학습함을 확인했습니다.

또한 8가지 규모의 모델을 통해 계산량이 커질수록 전이 성능이 예측 가능하게 증가함을 보였으며, 30여 개 벤치마크에서 제로샷 전이가 기존 지도학습 모델과 비등하거나 우수한 결과를 얻고, 또한 동일 정확도의 지도 학습 모델보다 더 높은 견고성을 보여, 웹 텍스트 기반 대규모 사전학습이 기존 NLP 분야 뿐만 아니라 비전 분야에도 혁신을 가져올 수 있음을 입증하였습니다.

📌 Apporach

Natural Language Supervision

본 논문 연구 접근법의 핵심은 이미지–텍스트 쌍에서 자연어에 담긴 감독 신호를 직접 활용하여 지각 표현을 학습하는 데 있었습니다. 이전 연구들은 토픽 모델, n-그램, 캡션 단어 예측 등 서로 다른 용어와 관점으로 unsupervised, weak-supervised, self-supervised 등을 내세우며 시각 표현을 학습했지만, 이들 모두 자연어를 학습 신호로 삼았다는 공통점을 강조했습니다.

자연어 활용 방식은 별도 라벨링 작업 없이도 웹에 대규모로 존재하는 텍스트를 학습 데이터로 활용할 수 있어 확장성이 뛰어났으며, 언어와 시각 표현을 결합함으로써 제로샷 전이 능력을 가능하게 했습니다.

Creating a Sufficiently Large Dataset

기존 연구들은 MS-COCO와 Visual Genom 같은 고품질 레이블링 데이터셋과, 메타데이터가 다소 부실한 YFCC100M등을 주로 사용했으나, 이들 모두 데이터 규모가 부족하거나 품질이 일정치 못했습니다.

MS-COCO와 Visual Genome은 사진 수가 작아 한계가 뚜렷했고, YFCC100M은 영어 자연어 제목, 설명이 있는 이미지로 필터링한 결과 단 1500만 장으로 줄어들어 ImageNet과 유사한 규모에 그쳤습니다.

이러한 문제를 극복하기 위해 본 논문에서는 웹에서 공개된 다양한 출처를 활용해 50만 개의 쿼리별로 최대 2만 개씩 이미지–텍스트 쌍을 균형 있게 수집함으로써 총 4억 쌍의 대규모 Web Image-Text 데이터셋을 구축했습니다. 이 데이터셋은 GPT-2 학습에 사용된 WebText와 유사한 총 단어 수를 가지며, 자연어 Supervision을 대규모로 실험할 수 있는 기반을 마련했습니다.

Selecting an Efficient Pre-Training Method

본 논문의 연구자들은 자연어 감독을 대규모로 확장하기 위해 훈련 효율성을 최우선 기준으로 삼았음을 설명합니다.

이미지 캡션의 정확한 단어 예측 과제는 다양한 표현을 처리하느라 학습 속도가 매우 느렸는데, 본 연구는 어떤 텍스트 전체가 어떤 이미지와 짝을 이루는가를 맞추는 대조학습 Objective로 전환하여, 동일한 BoW 인코딩 기반 예측 대비 제로샷 전이 속도를 4배 가량 향상시켰습니다.

CLIP은 배치 내 N개의 이미지–텍스트 쌍 중 실제 짝인 N개를 다른 N^2-N개의 잘못된 짝과 구별하도록, 이미지 및 텍스트 인코더를 공동 학습합니다. 코사인 유사도를 이용한 대조 손실을 대칭적 크로스엔트로피로 최적화하며, 이미지와 언어 임베딩을 동일한 멀티 모달 공간으로 매핑합니다.

과적합 우려가 적은 4억 쌍의 대규모 데이터 덕분에, 이미지 인코더와 텍스트 인코더 모두 ImageNet 사전 학습 가중치 없이 스크래치로 학습하며, Linear projection만을 사용해 구현을 단순화했습니다. 또한, 텍스트 샘플링과 이미지 증강을 각각 최소화하고, 소프트맥스 온도 파라미터 τ를 학습 가능한 로그 스케일 변수로 처리하여 하이퍼파라미터 튜닝 부담을 줄였습니다.

Choosing and Scaling a Model

본 논문에서는 이미지 인코더로 두 가지 아키텍처를 실험하였습니다.

첫째는 ResNet-50을 기반으로, ResNet-D 개선안과 안티앨리어싱 rect-2 블러 풀링을 도입하고, GAP 대신 Attention 풀링을 적용한 변형입니다. 둘째로는 최근 제안된 ViT를 거의 그대로 따르되 패치,포지션 임베딩을 결합한 후 추가 레이어 정규화를 삽입하고 초기화 방식을 일부 조정한 버전을 사용하였습니다.

안티앨리어싱 rect-2 블러 풀링?
-> CNN에서 다운샘플링을 할 때 생기는 앨리어싱을 줄이기 위해, 다운샘플링 직전에 2×2 크기의 모두 값이 1이고 정규화된 사각 필터를 컨벌루션처럼 적용하는 기법
-> 고주파 성분이 미리 걸러져 작은 입력 변동에도 출력이 덜 흔들리고, 일반화 성능 개선

텍스트 인코더는 12층, 512차원, 8헤드 트랜스포머로, 소문자 BPE 입력을 최대 길이 76 토큰으로 처리합니다. [SOS], [EOS] 토큰 사이의 출력을 최종 특징으로 취해 레이어 정규화 후 linear projection을 통해 멀티모달 임베딩 공간에 매핑하며, Masked Self Attention을 유지해 사전학습 모델 초기화나 언어모델링 보조 과제 추가의 가능성을 열어두었습니다.

모델 규모를 확장할 때는, ResNet 계열에 대해 폭, 깊이, 해상도에 균등하게 계산 자원을 배분했고, 텍스트 인코더는 ResNet의 폭 확장 비율에 맞춰 폭만 키우고 깊이는 그대로 유지하여, CLIP 성능이 텍스트 인코더 용량에 크게 의존하지 않음을 반영했습니다.

Training

본 논문에서는 총 8가지 모델 구성을 실험했습니다. ResNet 계열로는 기본 ResNet-50과 ResNet-10, EfficientNet 계열로는 연산량을 각각 4배, 16배, 64배로 확장한 RN50x4, RN50x16, RN50x64를 훈련했습니다. Vision Transformer 계열로는 ViT-B/32, ViT-B/16, ViT-L/14 세 가지 모델을 사용했습니다.

모든 모델은 32 에포크 동안 학습되었으며, Adam 옵티마이저에 decoupled weight decay를 적용하고 cosine lr scheduler를 사용했습니다. 배치 크기는 32,768로 매우 크게 설정했고, mixed-precision 학습, gradient checkpointing, half-precision Adam 통계, stochastic rounding 텍스트 인코더 가중치 등 다양한 메모리, 연산 최적화 기법을 도입했습니다.

추가로, 배치 내 임베딩 간 유사도 계산을 GPU별로 분산 처리했습니다.

📌 Experiments

Zero-shot Transfer

- Motivation

본 논문에서는 제로샷 학습을 학습에 전혀 사용되지 않은 새로운 데이터셋에 대한 일반화 가능성을 평가하는 평가 지표로 재정의합니다. 다양한 분포와 도메인에 걸친 태스크 학습 능력을 측정하고자 한 것입니다.

NLP 분야에서는 GPT-1,2가 사전학습 중 제로샷 전이 성능이 지속 개선됨을 분석해 모델의 태스크 학습 능력 연구로 방향을 전환한 케이스가 있는데, 이처럼 본 논문은 CV에도 유사한 제로샷 평가 프레임워크를 도입하여, CLIP의 도메인 일반화 능력을 포괄적으로 검증합니다.

- Using Clip for Zero-shot Transfer

CLIP은 사전학습 단계에서 이미지와 텍스트 스니펫이 실제로 짝을 이루는지 예측하도록 학습되는데, 제로샷 분류에서는 이 능력을 그대로 활용합니다.

구체적으로, 평가하려는 데이터셋의 모든 클래스명을 텍스트 후보군으로 삼고, 각 이미지에 대해 이미지 인코더와 텍스트 인코더가 생성한 임베딩 간의 코사인 유사도를 계산합니다. 이 유사도는 학습 가능한 온도 파라미터 τ로 스케일링된 뒤 소프트맥스를 거쳐 확률 분포로 변환됩니다.

이미지 인코더는 입력 이미지를 처리하는 비전 백본이고, 텍스트 인코더는 클래스명을 바탕으로 선형 분류기의 가중치를 생성하는 하이퍼네트워크의 역할을 수행한다고 볼 수 있습니다.제로샷 평가 시에는 텍스트 인코더로 생성된 분류기 매개변수를 한 번만 계산해 캐시해 두고, 이후 모든 예측에 재사용함으로써 효율성을 높입니다.

- Initial Comparison to Visual N-Grams

CLIP의 최고 모델은 ImageNet 제로샷 정확도를 11.5%에서 76.2%로 대폭 끌어올려 ResNet-50과 동급의 성능을 달성했으며, Yahoo와 SUN 등 다른 벤치마크에서도 기존 Visual N-Grams 대비 압도적 우위를 보였습니다. 더 나아가 30여 개 이상의 다양한 데이터셋에서 일관된 전이 성능 향상을 확인했습니다.

- Prompt Engineering and Ensembling

많은 데이터셋이 숫자 ID만 레이블로 제공하거나 아예 클래스명 매핑을 빠뜨려 제로샷이 불가능하고, 단일 단어를 클래스로 활용하게 되면 문맥이 없는 다의어 문제를 일으켰습니다. 또한 사전학습 텍스트가 보통 단일 단어가 아니고 자연어 형식의 문장이기 때문에, A photo of a {label} 같은 기본 프롬프트를 쓰면 ImageNet에서 1.3% 정도 성능이 오르는 모습을 관찰할 수 있었습니다.

세부 과제별 맞춤 프롬프트로 성능을 더 개선할 수 있고, 서로 다른 프롬프트로 만든 여러 제로샷 분류기를 임베딩 단계에서 앙상블하면 추가로 약 3.5% 정도 더 올라, 프롬프트 엔지니어링 + 앙상블로 총 5% 가까운 성능 향상을 얻는 것을 보였습니다.

- Analysis of Zero-shot CLIP Performance

ResNet-50 특징에 학습된 로지스틱 회귀 분류기 대비 27개 데이터셋 중 16곳에서 우위를 점했으며, 일반 객체 인식과 동작 인식에서는 최대 20% 이상 성능 격차를 보였으나, 위성 영상, 교통 표지판 같은 복잡하고 추상적인 과제에는 약점을 보였습니다.

제로샷 CLIP은 같은 특징 공간에서 학습한 4-shot 로지스틱 회귀와 동등한 성능을 내며, ImageNet에서는 16-shot 분류기와도 큰 성능 차이가 나지 않았습니다.

제로샷 매치를 위해 데이터셋별로 클래스당 필요 라벨 수가 1장 미만에서 184장까지 다양했으나, 중앙값은 약 5.4장으로 매우 효율적인 모델인 것을 볼 수 있습니다.

지도학습 분류기에 비해 여전히 10~25% 정도 성능 차이가 있지만, CLIP의 태스크 학습 및 제로샷 전이 성능을 더욱 향상시킬 여지가 많다는 점을 보여주었습니다. 두 성능 간 상관계수는 0.82로 높아, 전반적으로 일관된 성능 경향을 나타내고 일부 표현 품질이 뛰어난 과제에서는 성능이 거의 동등해진 것을 관찰할 수 있었습니다.

모델 연산량을 44배 늘릴 때 제로샷 평균 오차율이 로그-로그 선형으로 꾸준히 감소하는 등, GPT 계열과 유사한 규모 확장 추세를 보였습니다.

Representation Learning

작은 규모의 CLIP-ResNet은 ImageNet-1K로만 학습된 ResNet들보다는 우수하지만, ImageNet-21K로 학습된 BiT-M 계열과, 비슷한 계산량의 EfficientNet에는 뒤처지는 모습을 보였습니다. 반면, 연산량을 대폭 늘린 RN50x64는 당시 최고 성능 모델인 Noisy Student EfficientNet-L2를 근소하게 앞서며, ViT 계열은 동일 예산에서 ResNet 대비 약 3배 높은 연산 효율을 보여주었습니다.

최종적으로, 336px 해상도로 한 에포크 추가 파인튜닝한 ViT-L/14@336이 12개 데이터셋 평가에서 평균 2.6%, 27개 평가에서는 평균 5.0%의 성능 향상을 달성하며, 대규모 End-to-end 학습 단일 모델로서는 전례 없는 범용성 및 효율성을 입증했습니다. 특히 OCR, 자동차,교통 표지판 세분화 과제에서 큰 폭의 개선을 보였습니다.

이 결과는 CLIP이 기존의 ImageNet 기반의 표현 학습 한계를 넘어, 자연어 문장 Supervision을 통해 훨씬 다양한 시각 Task를 포괄하는 범용적인 표현을 학습했음을 시사합니다.

Robustness to Natural Distribution Shift

연구자들은 사전학습 단계에서 대규모 자연어–이미지 쌍을 활용해 학습된 CLIP 모델의 제로샷 분류기가, 전통적인 ImageNet 지도학습 모델들이 겪는 distribution shift에 얼마나 robust한지 탐구하였습니다.

먼저, ImageNet 검증 세트에서 높은 정확도를 보이는 ResNet-101 등이 자연스럽게 수집된 7가지 distribution shift 데이터셋에서 성능이 5배 이상 급락하는 반면, 제로샷 CLIP은 같은 조건에서 그 격차를 최대 75%까지 줄이며 뛰어난 effective robustness를 보여주었습니다.

반면, CLIP 특징에 대한 L2-정규화 로지스틱 회귀를 통해 ImageNet 학습 데이터를 추가로 활용하여 제로샷 대비 9.2% 정확도를 올렸지만, distribution shift 데이터셋에서는 오히려 1~5% 성능이 하락하는 것으로 나타났습니다. 이는 지도학습으로 특정 분포에 과도하게 적응할수록 범용성은 저해된다는 점을 시사합니다.

또한 제로샷에서 few-shot으로, 그리고 fully supervised으로 넘어갈수록 distribution shift 에 대해 robust한 이점이 점진적으로 감소해, 완전 지도학습 단계에서는 거의 사라졌습니다. 이 연구는 대규모 자연어 Supervision과 제로샷 전이 접근이 분포 이동에 더욱 견고한 모델을 제공할 수 있음을 보여주며, 향후 NLP 영역의 GPT 계열 모델에서도 유사한 효과를 검증할 필요가 있음을 강조합니다.

📌 Comparision to Human Performance

인간 평가는 CLIP과 동일한 Oxford‐IIT Pets 과제를 대상으로 이루어졌으며, 5명의 평가자는 예시 없이 제로샷에서 평균 54%의 정확도를 기록했습니다. 그러나 이후 원샷만 제공되었을 뿐인데도 정확도는 76%로 크게 상승했고, 두 장의 예시를 더 제공한 투샷에서는 거의 변화가 없었습니다. 이는 인간이 자신이 모르는 사례를 스스로 파악한 뒤, 최소한의 예시로도 불확실한 부분을 효과적으로 보완한다는 것을 보여 주었습니다.

반면, 본 논문의 few-shot 기법은 이러한 인간의 few-shot 학습 효율을 따라잡지 못했어서, 이후 앞서 체험한 지식을 효율적으로 통합하는 알고리즘적 개선이 필요함을 시사하였습니다.

📌 Limitations

CLIP은 광범위한 제로샷 전이를 가능케 했지만 당시 여러 한계를 지녔습니다.

첫째, 당시 하드웨어로는 SOTA급 성능 달성을 위해 1000배 규모의 컴퓨팅이 필요해 확장성이 제한적이었습니다.

둘째, 추상적이고 어려운 과제에서는 무작위 수준의 성능을 보여, 많은 과제에서 기저 표현 학습과 태스크 학습 능력 개선이 필요했습니다.

셋째, MNIST 같은 완전 이탈 분포에는 전혀 대응하지 못해 폭넓은 데이터라도 훈련 시 포함되지 않으면 취약함을 드러냈습니다.

넷째, 텍스트 기반 제로샷 분류기는 주어진 클래스 집합에서만 선택할 수 있어, 캡션 생성처럼 완전히 새로운 개념을 표현하지 못했습니다.

다섯째, 수억 장의 대규모 데이터로 한 훈련 주기를 돌리는 데만 수백 년이 걸려, 본질적으로 데이터 효율성이 매우 낮았습니다.

여섯째, 모델 개발 과정에서 수천 장의 검증 세트를 반복 조회해 제로샷 상황과 동떨어진 최적화가 이뤄졌고, 평가용 데이터셋도 CLIP 성능에 맞춰 선정되어 벤치마크 설계 시의 편향이 존재했습니다.

마지막으로, 웹에서 수집한 비검증 이미지–텍스트 쌍으로 학습되면서 사회적 편향을 내재화했고, 복잡한 시각 개념을 텍스트만으로 상세하게 표현하기 어려워 few-shot 성능이 오히려 떨어지는 현상이 있었습니다.

📌 Broader Impacts

Bias

CLIP과 같은 제로샷 분류기는 어떤 클래스를 어떻게 정의하느냐에 따라 결과가 크게 달라질 수 있습니다. 개발자가 텍스트로 제시하는 클래스 목록 자체가 편향을 유발할 수 있고, 그 분류 임계치 설정에 따라 특정 그룹에 부정적 레이블이 부착되는 경향이 강화됩니다.

또한, 학습 데이터의 구성과 평가용 데이터셋 선택이 모델의 편향 특성을 가늠하는 잣대가 되며, 단순 정확도 지표만으로는 공정성과 사회적 영향을 충분히 판단할 수 없습니다. 따라서 CLIP을 실제 환경에 적용할 때는 클래스 설계, 임계치, 레이블 표현 방식 등을 포함한 전체 파이프라인 차원의 구체적 맥락 반영 편향 분석과 대응 전략이 필수적입니다.

Surveillance

CLIP은 이미지 내용을 설명하는 거시적 분류에는 제로샷으로 높은 성능을 보였으나, 세부 객체 유무 판단과 같은 미시적 과제에서는 부진했습니다. 셀럽 얼굴 인식 태스크에서도 추가 학습 없이 100명 분류에서 약 60% 정확도를 기록했지만, 1000명 이상에서는 경쟁력이 떨어졌습니다. 이는 CLIP이 학습 데이터가 부족한 신규 과제에 유용한 반면, 방대한 데이터와 최적화된 전통적 객체 검출 Segmentation 모델들을 대체하기에는 한계가 있음을 시사합니다.

📌 Conclusion

본 연구에서는 NLP 분야에서 웹 규모 사전학습이 가져온 성공을 컴퓨터 비전 분야로 확장할 수 있는지에 대해 살펴보았습니다.

CLIP 모델은 사전학습 단계에서 다양한 과제를 자연스럽게 학습하며, 학습된 능력은 자연어 프롬프트를 통해 즉시 호출되어 제로샷 전이를 가능하게 했습니다. 충분한 규모로 학습된 모델은 특정 과제에 최적화된 지도 학습 모델과 비교해서도 경쟁력 있는 성능을 보였지만, 여전히 개선의 여지가 충분히 남아 있다고 연구자들은 결론지었습니다.

📌 느낀점(논문을 읽으면서..)

생각한 것 보다 실험 파트가 길어서 깜짝 놀랐지만, 메소드는 비교적 간결하고 핵심이 명확해서 읽는데 크게 어려움을 느끼지는 않았던 것 같습니다. 여전히 CLIP의 변형 모델들이 여타 멀티모달 Task들에서 꽤 많이 쓰여지고 있는 것 같은데, 그만큼 베이스가 되는 논문인 것 같고, 굵직한 컨트리뷰션을 담고 있는 연구였던 것 같습니다.

📌References

https://medium.com/bright-ai/nlp-deep-learning-models-difference-between-bert-gpt-3-f273e67597d7 https://www.researchgate.net/figure/Left-Illustration-of-the-embedding-space-of-pre-trained-CLIP-CLIP-is-trained-with-a_fig1_359106738

'Paper Review > Multimodal' 카테고리의 다른 글

[Paper Review] BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models (0)	2025.08.06
[Paper Review] Flamingo: a Visual Language Model for Few-Shot Learning (0)	2025.07.29
[Paper Review] BLIP : Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation (0)	2025.07.28
[Paper Review] Whisper : Robust Speech Recognition via Large-Scale Weak Supervision (0)	2025.07.21
[Paper Review] Align before Fuse: Vision and Language Representation Learning with Momentum Distillation (0)	2025.07.14

📌 Abstract

📌 Introduction and Motivating Work

📌 Apporach

Natural Language Supervision

Creating a Sufficiently Large Dataset

Selecting an Efficient Pre-Training Method

Choosing and Scaling a Model

Training

📌 Experiments

Zero-shot Transfer

Representation Learning

Robustness to Natural Distribution Shift

📌 Comparision to Human Performance

📌 Limitations

📌 Broader Impacts

Bias

Surveillance

📌 Conclusion

📌 느낀점(논문을 읽으면서..)

📌References

'Paper Review > Multimodal' 카테고리의 다른 글

티스토리툴바