Ollama 로컬 대형 언어 모델 배포 실무: 핵심 명령어와 문제 해결

실행 환경 정보

항목상세 정보
운영체제Windows 11 64비트
GPUNVIDIA GeForce RTX 5070 Ti 노트북 (12GB VRAM)
드라이버 버전591.44 (CUDA 13.1)
Ollama 버전0.20.0
실제 사용 가능 VRAM~11.9 GB (시스템 예약 약 300MB)

모델 관리 명령어

다운로드된 모델 확인

ollama list

실행 중인 모델 모니터링

ollama ps

출력 예시:

모델명                        ID              크기      프로세서          컨텍스트    
deepseek-coder:33b-instruct    acec7c0b0fd9    24 GB    55%/45% CPU/GPU    16384
  • 프로세서: GPU 비중이 높을수록 처리 속도 향상
  • 컨텍스트: 값이 클수록 VRAM 사용량 증가

모델 다운로드

ollama pull <모델명>:<태그>

예시:

ollama pull qwen2.5-coder:14b
ollama pull deepseek-coder:33b-instruct

모델 실행

ollama run <모델명>

모델 미설치 시 자동 다운로드 후 실행

모델 중지

ollama stop <모델명>

실행 종료 후 적용 (대화창에서 /bye 입력 필요)

대화 모드 명령어

명령어기능
/bye대화 종료
Ctrl + D대화 종료 (Windows 제한사항 있음)
/?명령어 도움말

주요 오류 및 해결방안

Error: 500 Internal Server Error

원인: VRAM/메모리 부족으로 프로세스 중단

해결책:

  1. 소형 모델 사용 (예: qwen2.5-coder:7b)
  2. CPU 전용 모드 활성화:
    set OLLAMA_LOAD_IN_GPU=false
    ollama run <모델명>
  3. 컨텍스트 길이 축소:
    ollama run <모델명> --num-ctx 512

모델 실행 중 멈춤 현상

진단 단계:

  1. nvidia-smi로 VRAM 사용량 확인
  2. 다른 VRAM 사용 프로그램 종료
  3. Ollama 서비스 재시작

모델 중지 불가

해결책: 작업 관리자에서 ollama.exe 프로세스 강제 종료

모델 성능 비교

모델VRAM 사용량전체 사용량실행 가능성
qwen2.5-coder:14b~9.5GB~10GB원활
deepseek-coder:33b-instruct~10.8GB24GB지연 발생
qwen2.5-coder:7b~5GB~5.5GB매우 빠름

12GB VRAM 노트북에는 Qwen2.5-Coder-14B 권장

고급 디버깅 기법

상세 로그 활성화

set OLLAMA_DEBUG=1
ollama run <모델명>

GPU 레이어 수동 지정

set OLLAMA_GPU_LAYERS=35
ollama run <모델명> --num-ctx 2048

값이 높을수록 VRAM 부족 발생 가능

시나리오별 실행 가이드

사용 사례권장 명령어
일반 개발ollama run qwen2.5-coder:14b
VRAM 제약 시--num-ctx 축소 또는 7B 모델 사용
시스템 상태 확인ollama ps + nvidia-smi

태그: Ollama Qwen2.5-Coder DeepSeek-Coder CUDA LLM-deployment

6월 14일 17:22에 게시됨