콘텐츠로 이동

23. Fine-tuning 개요

Fine-tuning (미세조정) 이란

  • 사전 학습된 모델을 커스텀 데이터로 학습시키는 것
  • 모델의 기존 가중치(파라미터)가 수정 됨

Fine-tuning 학습 종류

SFT

  • 지도 미세조정 (SFT, Supervised Fine-tuning)
  • 모범 답안을 제시하는 방식으로 학습
  • SFT 학습 데이터 구조
    • 입력값
    • 출력값 (모범 답안)
  • 지원되는 사전학습 모델: 비추론 계열 모델
  • SFT 공식 문서

DPO

  • 직접 선호 최적화 (DPO, Direct Preference Optimization)
  • 모범 답안과 불량 답안을 제시하는 방식으로 학습
  • DPO 학습 데이터 구조
    • 입력값
    • 출력값1 (모범 답안)
    • 출력값2 (불량 답안)
  • 지원되는 사전학습 모델: 비추론 계열 모델
  • DPO 공식 문서

RTF

  • 강화 미세조정 (RFT, Reinforcement Fine-tuning)
  • 모델이 출력한 값을 채점 (점수, 보상)하는 방식으로 학습
  • 학습 데이터 구조
    • 입력값
    • 출력값에 대한 채점자 (grader)
  • 지원되는 사전학습 모델: 추론 계열 모델
  • RFT 공식 문서

Note

본 강의에서는 SFT 모델 훈련 실습만 진행합니다. DPO, RFT에 대한 실습은 다루지 않습니다.

비용

파인튜닝 비용

  • Pricing (Fine-tuning)

  • 훈련 비용: 토큰수 기반으로 비용이 발생 (SFT, DPO)

    RFT의 경우 훈련 시간 기반으로 비용이 발생

  • 추론 비용: 파인튜닝된 모델의 추론 비용은 원래 모델에 비해 약 1.5배 높음