[Paper Review] InstructGPT : Training language models to follow instructions with human feedback
·
Paper Review/LLM
Training language models to follow instructions with human feedback(2022)Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin 외 14인(OpenAI)https://arxiv.org/abs/2203.02155오늘은 지난번 OpenAI에서 제안한 RLHF 논문 그 이후로, 그 후속 논문으로서 GPT를 RLHF 기반으로 Insturction 튜닝하고 성능을 평가하는 대표 논문인 InstructGPT를 리뷰해보도록 하겠습니다! 📌 Introduction바로 직전 MoE 논문에서 모델 용량에 대해 직접적으로 언급해왔어서 괜히 익숙하긴 한데, 다른 의미로 언..
[Paper Review] Fine-Tuning Language Models from Human Preferences
·
Paper Review/LLM
Fine-Tuning Language Models from Human PreferencesDaniel M. Ziegler, Nisan Stiennon, Jeffrey Wu, Tom B. Brown, Alec Radford, Dario Amodei, Paul Christiano Geoffrey Irving(OpenAI)https://arxiv.org/abs/1909.08593오늘은 강화학습 기반의 파인튜닝 방법론을 통해 인간의 선호를 언어 모델에 통합하는 방법인 RLHF를 제안한 시초격의 논문, OpenAI의 "Fine-Tuning Language Models from Human Preferences"를 리뷰해보며, 앞으로 진행해나갈 LLM Alignment 공부의 시작을 열도록 하겠습니다! 📌 Intr..
[Paper Review] RAFT : Adapting Large Language Model to Domain Specific RAG
·
Paper Review/LLM
RAFT : Adapting Large Language Model to Domain Specific RAG (2024.05.)Tianjun Zhang, Shishir G. Patil, Naman Jain, Sheng Shen 외 3인 (UC Berkeley)https://arxiv.org/abs/2403.10131 오늘은 LLM을 특수 도메인에 적용하기 위해 주로 활용되어지는 RAG, 파인튜닝 방법론의 각 단점을 보완하고 두 방식을 결합함으로써 효율적인 도메인 최적화 방식을 제안한 RAFT : Adapting Large Language Model to Domain Specific RAG 논문을 리뷰하도록 하겠습니다! 😁 📌 Abstract & Introduction 일반 지식 추론 작업에서 LLM은 ..
[Paper Review] Knowledge Card : Filling LLMs' Knowledge gaps with Plug-in Specialized Language Models
·
Paper Review/LLM
Knowledge Card (ICLR 2024)Shangbin Feng, Weijia Shi, Yulia Tsvetkov, Tianxing He, Yuyang Bai, Vidhisha Balachandranhttps://arxiv.org/abs/2305.09955 오늘은 기존 정적 LLM들의 한계를 극복하기 위해 외부에 Knowledge Card라는 Specialized LLM을 별개로 두어 BASE LLM의 지식을 효과적으로 보강하는 방법론을 제시한 ICLR 2024에 발표되었던 Knowledge Card : Filling LLMs' Knowledge gaps with Plug-in Specialized Language Models 논문에 대해 리뷰해보는 시간을 가지겠습니다! 📌 Abstract 기존..