GLM-4 명령어 미세 조정 실전 가이드: 데이터 전처리부터 학습까지
HuggingFace TRL을 활용한 GLM-4 명령어 미세 조정
본 가이드는 대규모 언어 모델(LLM)의 명령어 준수(Instruction Following) 미세 조정을 다룹니다. 구현의 편의성과 코드 간결성을 위해 HuggingFace의 TRL 프레임워크를 사용합니다. TRL은 SFT(Supervised Fine-Tuning) 외에도 DPO, PPO, GRPO 등 다양한 강화 학습 기반 미세 조정 알고리즘을 지원합니다.
기반 모델로는 ...
6월 24일 22:12에 게시됨