사전학습(Pretraining)
한 줄 정의
사전학습(Pretraining)은 대규모 일반 데이터로 모델의 기본 언어 능력과 지식을 학습하는 단계다.
왜 중요한가(실무)
사전학습이 모델의 "기본기"를 결정한다. 같은 아키텍처라도 학습 데이터의 양·질·다양성에 따라 모델 성능이 크게 달라진다. 실무자가 사전학습을 직접 하는 경우는 드물지만, 모델을 선택할 때 "어떤 데이터로 학습되었는가"를 이해하는 것이 중요하다.
핵심 이론(직관)
1) "범용 능력"을 만드는 과정
사전학습은 엄청난 양의 텍스트 패턴을 학습해, 문장 생성·요약·추론 같은 기본 능력을 만든다. 이 단계에서 모델은 특정 업무가 아니라 "언어 자체"를 이해하게 된다.
2) 데이터가 곧 능력이다
학습 데이터에 한국어가 적으면 한국어 성능이 낮고, 코드가 많으면 코딩 능력이 높아진다. 사전학습 데이터의 구성이 모델의 강점과 약점을 결정한다.
실무 포인트
1) 모델 선택 시 사전학습 데이터를 확인하라
모델 카드(Model Card)나 기술 보고서에서 학습 데이터 구성을 확인하면, 우리 도메인에 적합한 모델을 고를 수 있다.
2) 사전학습 직접 수행은 대부분 불필요
기업 환경에서는 이미 사전학습된 모델을 가져다 프롬프트 엔지니어링이나 미세조정으로 활용하는 것이 현실적이다.
체크리스트
- 선택한 모델의 사전학습 데이터 구성(언어, 도메인)을 확인했는가
- 우리 도메인 용어/문체를 모델이 이해하는지 기본 테스트를 했는가
- 사전학습만으로 부족한 경우 미세조정/RAG 등 보완 방법을 검토했는가