PyTorch-CUDA 환경에서 슬라이딩 윈도우 어텐션 고속화하기

분산 환경에서 Swin Transformer 계열 모델을 훈련할 때 GPU 활용률이 40%에 머무르고, NCCL 통신 오버헤드가 전방 계산 시간을 역전시키는 경험을 해본 적이 있는가? 동일 아키텍처를 사용하면서도 타 팀은 8개 GPU에서 95% 이상의 지속적인 활용률을 달성하며 두 배의 처리량을 내고 있다면, 문제는 모델 코드가 아닌 실행 환경의 차이에 있을 가능성이 높다. 이 글에서 ...

6월 30일 23:49에 게시됨