'Paper Review/CV' 카테고리의 글 목록

ViT : An Image Is Worth 16X16 Words : Transformers For Image Recognition At Scale (2022.12.V11)Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn 외 8명https://arxiv.org/abs/2010.11929 오늘은 이미지 분류와 다양한 시각 인식 작업에서 뛰어난 성능을 보인 비전 트랜스포머(Vision Transformer, ViT)를 소개한 논문 An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale를 리뷰해보도록 하겠습니다! 😁 📌 Abstract & Introdu..

VAE : Auto-Encoding Variational Bayes (2022.12.V11)Diederik P. Kingma, Max Welling(Universiteit van Amsterdam)https://arxiv.org/abs/1312.6114 오늘은 확률적 생성 모델인 변분 오토인코더를 이용해 데이터의 잠재 공간을 학습하고, 이를 통해 생성 품질을 향상시키는 방법론을 제시한 논문 VAE : Auto-Encoding Variational Bayes를 리뷰해보도록 하겠습니다! 😁 📌 Abstract본 논문에서는 연속적인 latent variable이 있는 확률 모델에서 효율적으로 추론 및 학습을 진행하는 방법에 대해 소개합니다. 특히 사후 분포가 다루기 어렵다거나, 데이터가 매우 큰 경우에도 ..

Mask R-CNN (2018.01.V3)Kaiming He, Georgia Gkioxari, Piotr Dollar, Ross Girshick(Facebook AI Research)https://arxiv.org/abs/1703.06870 오늘은 기존 객체 탐지 방법론인 Faster R-CNN에 Segmentation Task를 추가함으로써, 모델의 성능과 범용성에 대해 추가적 개선 여지를 보여준 Mask R-CNN 모델에 대해 알아보도록 하겠습니다. 바로 논문 리뷰 시작하겠습니다! 😁 📌 Abstract & Introduction당시 객체 탐지와 Sematic Segmentation 분야는 성능 개선을 비교적 빠른 시간에 이루었고, 이는 기존의 Fast, Faster R-CNN 모델과, FCN의 ..

EfficientNet : Rethinking Model Scaling for Convolutional Neural Networks (2020.09.V5)Mingxing Tan, Quoc V.Lehttps://arxiv.org/abs/1905.11946 오늘 리뷰할 논문은 CNN 신경망의 크기를 밸런스있게 조정함으로서 높은 성능과 연산 효율성 두마리 토끼를 모두 잡은 EfficientNet : Rethinking Model Scaling for Convolutional Neural Networks 입니다. 그럼 논문 리뷰 시작해보도록 하겠습니다! 😁 📌 Abstract현실적으로 CNN의 개발 과정에서는 사용할 수 있는 자원이 한정되어 있고, 더 나은 모델 정확도를 얻고자 할 때는 추가 자원을 투입하여..

RetinaNet : Focal Loss for Dense Object Detection (2018.02.V2)Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, Piotr Doll´ar (Facebook) 오늘 리뷰할 논문은 2018년 페이스북에서 발표한 논문으로, Focal Loss의 도입을 통해 One-stage Detector의 한계점을 효과적으로 극복한 Object Detection 관련 논문입니다. 그럼 논문리뷰 시작하겠습니다! 📌 Abstract & Introduction 기존의 Object Detection 모델들을 크게 두 갈래로 나누자면 대표적으로 위에 보이시는 것과 같이 1-Stage Detector와 2-Stage Detector로 나..

YOLO : Unified, Real-Time Object Detection (2016.05)Joseph Redmon, Santosh Divvala, Ross Girshick, Ali Farhadihttps://arxiv.org/abs/1506.02640 오늘 리뷰할 논문은 작년에 v11까지 확장되어 나왔을 정도로 현재까지도 실시간 객체 탐지의 대표 모델로 유명한 YOLO의 가장 초기 버전에 해당하는 YOLO : Unified, Real-Time Object Detection 논문입니다. 논문 리뷰 시작하겠습니다! 😁 📌 Abstract You Only Look Once의 약자인 일명 YOLO 모델은 논문의 이름과 같이 통합된 단일 신경망으로써, 기존 R-CNN 계열의 2-Stage Detector..

U-Net : Convolutional Networks for Biomedical Image Segmentation (2015.05.)Olaf Ronneberger, Philipp Fischer, Thomas Broxhttps://arxiv.org/abs/1505.04597 오늘 리뷰할 논문은 의료 이미지 Segmentation에 초점을 맞춰 작성되었지만, 방법론상 많은 강점을 가지고 있어일반적으로 Segmentation 전 분야에서 현재까지도 널리 활용되는 Architecture인 U-Net : Convolutional Networks for Biomedical Image Segmentation입니다. 논문 리뷰 시작하겠습니다! 😁 📌 Abstract & Introduction 위의 그림은 기존..

MobileNets : Efficient Convolutional Neural Networks for Mobile Vision Applications (2017.04.)Andrew G. Howard, Menglong Zhu, Bo Chen, Dmitry Kalenichenko 외 4인 (Google)https://arxiv.org/abs/1704.04861 이번에 리뷰할 논문은 2017년도에 발표되었던 CNN 모델 경량화를 주제로 한 MobileNets : Efficient Convolutional Neural Networks for Mobile Vision Applications입니다. 바로 논문 리뷰 시작하겠습니다! 😁 📌 Abstract & IntroductionCNN 초기 발전 과정에 있어서 ..

SPPNet : Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition(2014.06.)Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sunhttps://arxiv.org/abs/1406.4729오늘 리뷰할 논문은 2014년도에 발표되었던 논문으로, 고정 크기가 아닌 가변 크기의 입력 이미지 처리를 지원하는 모델 아키텍쳐인 SPPNet를 다룹니다. 그럼 바로 논문리뷰 시작하겠습니다!😁 📌 Abstract논문 발표 당시 CNN 분류 네트워크들의 입력 이미지 크기는 대부분 224*224로 고정되어 있었습니다. 이전에 리뷰했던 VGG의 경우도 마찬가지였습니다. 하지만, 현실 세계의..

Inception V2/3 : Rethinking the Inception Architecture for Computer Vision (2015.12.)Christian Szegedy, Vincent Vanhoucke, Sergey Ioffe, Jonathon Shlens, Zbigniew Wojnahttps://arxiv.org/abs/1512.00567 오늘 리뷰할 논문은 Inception 모듈 버전 2,3에 대한 내용을 중점적으로 다루고 있는 2015년에 발표된 Rethinking the Inception Architecture for Computer Vision입니다. 논문 리뷰 시작하겠습니다 📌 AbstractConvolution Network의 layer를 깊게 쌓는 방법론을 적용함에 있어서..

티스토리툴바