Ollama 로컬 대형 언어 모델 배포 실무: 핵심 명령어와 문제 해결

실행 환경 정보

항목	상세 정보
운영체제	Windows 11 64비트
GPU	NVIDIA GeForce RTX 5070 Ti 노트북 (12GB VRAM)
드라이버 버전	591.44 (CUDA 13.1)
Ollama 버전	0.20.0
실제 사용 가능 VRAM	~11.9 GB (시스템 예약 약 300MB)

모델 관리 명령어

다운로드된 모델 확인

ollama list

실행 중인 모델 모니터링

ollama ps

출력 예시:

모델명                        ID              크기      프로세서          컨텍스트    
deepseek-coder:33b-instruct    acec7c0b0fd9    24 GB    55%/45% CPU/GPU    16384

프로세서: GPU 비중이 높을수록 처리 속도 향상
컨텍스트: 값이 클수록 VRAM 사용량 증가

모델 다운로드

ollama pull <모델명>:<태그>

예시:

ollama pull qwen2.5-coder:14b
ollama pull deepseek-coder:33b-instruct

모델 실행

ollama run <모델명>

모델 미설치 시 자동 다운로드 후 실행

모델 중지

ollama stop <모델명>

실행 종료 후 적용 (대화창에서 /bye 입력 필요)

대화 모드 명령어

명령어	기능
`/bye`	대화 종료
`Ctrl + D`	대화 종료 (Windows 제한사항 있음)
`/?`	명령어 도움말

주요 오류 및 해결방안

Error: 500 Internal Server Error

원인: VRAM/메모리 부족으로 프로세스 중단

해결책:

소형 모델 사용 (예: qwen2.5-coder:7b)

CPU 전용 모드 활성화:

set OLLAMA_LOAD_IN_GPU=false
ollama run <모델명>

컨텍스트 길이 축소:
```
ollama run <모델명> --num-ctx 512
```

모델 실행 중 멈춤 현상

진단 단계:

nvidia-smi로 VRAM 사용량 확인
다른 VRAM 사용 프로그램 종료
Ollama 서비스 재시작

모델 중지 불가

해결책: 작업 관리자에서 ollama.exe 프로세스 강제 종료

모델 성능 비교

모델	VRAM 사용량	전체 사용량	실행 가능성
qwen2.5-coder:14b	~9.5GB	~10GB	원활
deepseek-coder:33b-instruct	~10.8GB	24GB	지연 발생
qwen2.5-coder:7b	~5GB	~5.5GB	매우 빠름

12GB VRAM 노트북에는 Qwen2.5-Coder-14B 권장

고급 디버깅 기법

상세 로그 활성화

set OLLAMA_DEBUG=1
ollama run <모델명>

GPU 레이어 수동 지정

set OLLAMA_GPU_LAYERS=35
ollama run <모델명> --num-ctx 2048

값이 높을수록 VRAM 부족 발생 가능

시나리오별 실행 가이드

사용 사례	권장 명령어
일반 개발	ollama run qwen2.5-coder:14b
VRAM 제약 시	--num-ctx 축소 또는 7B 모델 사용
시스템 상태 확인	ollama ps + nvidia-smi

태그: Ollama Qwen2.5-Coder DeepSeek-Coder CUDA LLM-deployment

6월 14일 17:22에 게시됨

괴물 클럽