[Paper Review] InstructGPT : Training language models to follow instructions with human feedback
·
Paper Review/LLM
Training language models to follow instructions with human feedback(2022)Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin 외 14인(OpenAI)https://arxiv.org/abs/2203.02155오늘은 지난번 OpenAI에서 제안한 RLHF 논문 그 이후로, 그 후속 논문으로서 GPT를 RLHF 기반으로 Insturction 튜닝하고 성능을 평가하는 대표 논문인 InstructGPT를 리뷰해보도록 하겠습니다! 📌 Introduction바로 직전 MoE 논문에서 모델 용량에 대해 직접적으로 언급해왔어서 괜히 익숙하긴 한데, 다른 의미로 언..