[Paper Review] Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer(MoE)
·
Paper Review/Etc.
Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer(ICLR 2017)Noam Shazeer, Azalia Mirhoseini, Krzysztof Maziarz, Andy Davis, Quoc Le, Geoffrey Hinton, Jeff Deanhttps://arxiv.org/abs/1701.06538최근 1~2년간 LLM 파운데이션 모델들이 개발되는 양상을 보면, 다수의 모델에서 MoE 아키텍쳐를 사용해 효율적인 추론을 할 수 있도록 하는 것 같은데, 저는 아직 이 컨셉에 대한 인지가 미비한 것 같아 오늘은 트랜스포머 이전에 처음으로 언어모델에 MoE 아키텍쳐가 적용되었던 위의 논문을 리뷰해보고자 합니다. 📌..