23. Fine-tuning 개요
Fine-tuning (미세조정) 이란
- 사전 학습된 모델을 커스텀 데이터로 학습시키는 것
- 모델의 기존 가중치(파라미터)가 수정 됨
Fine-tuning 학습 종류
SFT
- 지도 미세조정 (SFT, Supervised Fine-tuning)
- 모범 답안을 제시하는 방식으로 학습
- SFT 학습 데이터 구조
- 입력값
- 출력값 (모범 답안)
- 지원되는 사전학습 모델: 비추론 계열 모델
- SFT 공식 문서
DPO
- 직접 선호 최적화 (DPO, Direct Preference Optimization)
- 모범 답안과 불량 답안을 제시하는 방식으로 학습
- DPO 학습 데이터 구조
- 입력값
- 출력값1 (모범 답안)
- 출력값2 (불량 답안)
- 지원되는 사전학습 모델: 비추론 계열 모델
- DPO 공식 문서
RTF
- 강화 미세조정 (RFT, Reinforcement Fine-tuning)
- 모델이 출력한 값을 채점 (점수, 보상)하는 방식으로 학습
- 학습 데이터 구조
- 입력값
- 출력값에 대한 채점자 (grader)
- 지원되는 사전학습 모델: 추론 계열 모델
- RFT 공식 문서
Note
본 강의에서는 SFT 모델 훈련 실습만 진행합니다. DPO, RFT에 대한 실습은 다루지 않습니다.
비용
파인튜닝 비용
-
훈련 비용: 토큰수 기반으로 비용이 발생 (SFT, DPO)
RFT의 경우 훈련 시간 기반으로 비용이 발생
-
추론 비용: 파인튜닝된 모델의 추론 비용은 원래 모델에 비해 약 1.5배 높음