[Paper Review] ToEdit : How to synthesize text to avoid model collapse?

·
Paper Review/Synthetic Data Generation
ToEdit : How to synthesize text to avoid Model Collapse?(ICML 2025)Xuekai Zhu, Daixuan Cheng, Hengli Li 외 7인https://arxiv.org/abs/2412.14689오늘은 언어 모델을 활용해 텍스트 합성 데이터를 생성할 때 발생할 수 있는 문제인 모델 붕괴 현상에 대해 실증적으로 탐구하고, 그에 대한 해결책을 제시한 ToEdit이라는 논문을 리뷰해보도록 하겠습니다! 📌 Introduction현재 텍스트 합성 데이터 생성 도메인을 바라보는 두 가지 관점이 존재합니다. 1. 실용적 관점 : 텍스트 합성 데이터는 많은 도메인에서 정렬 능력과 기본적인 언어 모델의 능력을 향상시킨다.2. 이론적 관점 : 모델이 합성 출력을 반..