실행 환경 정보
| 항목 | 상세 정보 |
|---|---|
| 운영체제 | Windows 11 64비트 |
| GPU | NVIDIA GeForce RTX 5070 Ti 노트북 (12GB VRAM) |
| 드라이버 버전 | 591.44 (CUDA 13.1) |
| Ollama 버전 | 0.20.0 |
| 실제 사용 가능 VRAM | ~11.9 GB (시스템 예약 약 300MB) |
모델 관리 명령어
다운로드된 모델 확인
ollama list
실행 중인 모델 모니터링
ollama ps
출력 예시:
모델명 ID 크기 프로세서 컨텍스트
deepseek-coder:33b-instruct acec7c0b0fd9 24 GB 55%/45% CPU/GPU 16384
프로세서: GPU 비중이 높을수록 처리 속도 향상컨텍스트: 값이 클수록 VRAM 사용량 증가
모델 다운로드
ollama pull <모델명>:<태그>
예시:
ollama pull qwen2.5-coder:14b
ollama pull deepseek-coder:33b-instruct
모델 실행
ollama run <모델명>
모델 미설치 시 자동 다운로드 후 실행
모델 중지
ollama stop <모델명>
실행 종료 후 적용 (대화창에서 /bye 입력 필요)
대화 모드 명령어
| 명령어 | 기능 |
|---|---|
/bye | 대화 종료 |
Ctrl + D | 대화 종료 (Windows 제한사항 있음) |
/? | 명령어 도움말 |
주요 오류 및 해결방안
Error: 500 Internal Server Error
원인: VRAM/메모리 부족으로 프로세스 중단
해결책:
- 소형 모델 사용 (예: qwen2.5-coder:7b)
- CPU 전용 모드 활성화:
set OLLAMA_LOAD_IN_GPU=false ollama run <모델명> - 컨텍스트 길이 축소:
ollama run <모델명> --num-ctx 512
모델 실행 중 멈춤 현상
진단 단계:
nvidia-smi로 VRAM 사용량 확인- 다른 VRAM 사용 프로그램 종료
- Ollama 서비스 재시작
모델 중지 불가
해결책: 작업 관리자에서 ollama.exe 프로세스 강제 종료
모델 성능 비교
| 모델 | VRAM 사용량 | 전체 사용량 | 실행 가능성 |
|---|---|---|---|
| qwen2.5-coder:14b | ~9.5GB | ~10GB | 원활 |
| deepseek-coder:33b-instruct | ~10.8GB | 24GB | 지연 발생 |
| qwen2.5-coder:7b | ~5GB | ~5.5GB | 매우 빠름 |
12GB VRAM 노트북에는 Qwen2.5-Coder-14B 권장
고급 디버깅 기법
상세 로그 활성화
set OLLAMA_DEBUG=1
ollama run <모델명>
GPU 레이어 수동 지정
set OLLAMA_GPU_LAYERS=35
ollama run <모델명> --num-ctx 2048
값이 높을수록 VRAM 부족 발생 가능
시나리오별 실행 가이드
| 사용 사례 | 권장 명령어 |
|---|---|
| 일반 개발 | ollama run qwen2.5-coder:14b |
| VRAM 제약 시 | --num-ctx 축소 또는 7B 모델 사용 |
| 시스템 상태 확인 | ollama ps + nvidia-smi |