vLLM의 효율성 비결: PagedAttention과 동적 메모리 관리
vLLM은 어떻게 5~10배 더 높은 처리량을 달성할 수 있을까요? 그 핵심은 PagedAttention과 동적 메모리 관리에 있습니다. 이제 이 두 가지 기능이 어떻게 GPU 리소스를 최적화하는지 살펴보겠습니다.
KV 캐시를 가상 메모리처럼 사용? PagedAttention의 혁신적인 아이디어
자체 회귀 생성에서, 모델은 각 토큰을 생성할 때마다 해당 토큰의 Key와 Value를 캐시에 저장해야 ...
5월 21일 21:56에 게시됨