사전학습(Pretraining)

한 줄 정의

사전학습(Pretraining)은 대규모 일반 데이터로 모델의 기본 언어 능력과 지식을 학습하는 단계다.

사전학습이 모델의 "기본기"를 결정한다. 같은 아키텍처라도 학습 데이터의 양·질·다양성에 따라 모델 성능이 크게 달라진다. 실무자가 사전학습을 직접 하는 경우는 드물지만, 모델을 선택할 때 "어떤 데이터로 학습되었는가"를 이해하는 것이 중요하다.

사전학습은 엄청난 양의 텍스트 패턴을 학습해, 문장 생성·요약·추론 같은 기본 능력을 만든다. 이 단계에서 모델은 특정 업무가 아니라 "언어 자체"를 이해하게 된다.

학습 데이터에 한국어가 적으면 한국어 성능이 낮고, 코드가 많으면 코딩 능력이 높아진다. 사전학습 데이터의 구성이 모델의 강점과 약점을 결정한다.

모델 카드(Model Card)나 기술 보고서에서 학습 데이터 구성을 확인하면, 우리 도메인에 적합한 모델을 고를 수 있다.

기업 환경에서는 이미 사전학습된 모델을 가져다 프롬프트 엔지니어링이나 미세조정으로 활용하는 것이 현실적이다.