GPU·CPU·TPU 혼합 환경에서의 효율적 자원 스케줄링 기법

이종 하드웨어 환경의 자원 관리 전략 현대 클라우드 인프라는 다양한 아키텍처를 가진 처리 장치를 통합적으로 운영해야 하는 도전에 직면해 있다. 특히 CPU, GPU, TPU는 각각 다른 성능 특성을 지닌 계산 유형에 최적화되어 있으며, 이를 효과적으로 조합하기 위해서는 정교한 스케줄링 메커니즘이 필수적이다.

CPU: 제어 중심 작업 및 복잡한 분기 처리에 적합하며, 높은 예측 능력을 갖춤
GPU: 대규모 병렬 연산을 위한 고성능 플로팅 포인트 연산에 강점
TPU: 벡터 및 행렬 연산에 특화된 맞춤형 칩으로, 추론 시 지연 시간 최소화

장치 유형	최대 연산 성능 (TFLOPS)	전력 소비 (W)	주요 활용 영역
CPU (Xeon)	0.5	150	마이크로서비스, 로직 처리
GPU (A100)	312	400	모델 학습, 고성능 컴퓨팅
TPU v4	275	275	대규모 추론, Transformer 기반 처리

Kubernetes 기반 리소스 등록과 스케줄링 구현 Kubernetes의 확장 가능한 장치 플러그인(Plugin) 기능을 활용하면 GPU와 TPU를 표준 리소스로 인식시킬 수 있다. 다음은 NVIDIA GPU 플러그인 설치 예제이다.

apiVersion: apps/v1
kind: DaemonSet
metadata:
  name: nvidia-device-plugin
spec:
  selector:
    matchLabels:
      name: nvidia-device-plugin
  template:
    metadata:
      labels:
        name: nvidia-device-plugin
    spec:
      containers:
      - name: nvidia-device-plugin
        image: nvcr.io/nvidia/k8s-device-plugin:v0.14.1
        securityContext:
          allowPrivilegeEscalation: false
        volumeMounts:
        - name: device-plugin
          mountPath: /var/lib/kubelet/device-plugins
      volumes:
      - name: device-plugin
        hostPath:
          path: /var/lib/kubelet/device-plugins

이 설정은 각 노드가 GPU 리소스를 인식하고, 요청 시 자동으로 할당되도록 한다. 이를 바탕으로 다음과 같은 분류 기반 스케줄링 흐름이 가능하다.

사용자 작업 제출

작업 유형 분석

딥러닝 학습 → GPU

텐서 추론 → TPU

일반 서비스 → CPU

주요 스케줄링 알고리즘 원리와 적용 사례

2.1 부하 균형 스케줄링: 기본 개념과 실무 적용 부하 균형은 서버 집약형 시스템의 성능을 극대화하는 핵심 기술로, 요청을 후속 처리 장치에 효율적으로 분배한다. 주요 알고리즘은 다음과 같다.

라운드 로빈(Round Robin): 순차적으로 요청을 배분, 동일한 성능의 노드에 적합
최소 연결(Least Connections): 현재 연결 수가 가장 적은 노드에 새로운 요청 전달, 장시간 연결에 효과적
IP 해시(IP Hash): 클라이언트 IP 기반 해시를 통해 일관된 백엔드 연결 보장

upstream backend {
    least_conn;
    server 192.168.1.10:8080 weight=3;
    server 192.168.1.11:8080 weight=1;
}

여기서 weight=3는 해당 노드가 다른 노드보다 세 배 더 많은 트래픽을 처리할 수 있음을 의미하며, 스케줄링 확률에 영향을 미친다.

2.2 우선순위 기반 스케줄링: 작업 분류와 하드웨어 매칭 복잡한 시스템에서는 작업의 중요도와 실행 환경 간의 정확한 매칭이 성능 향상의 열쇠다. 작업을 실시간성, 계산 밀도, 입출력 의존성 기준으로 분류하면 더 효율적인 리소스 할당이 가능하다.

고우선순위: 센서 데이터 수집 등 실시간 처리 요구
중간우선순위: 주기적 제어 로직
저우선순위: 로깅, 백그라운드 동기화

func AssignCoreByTaskType(taskType string) int {
    switch taskType {
    case "realtime":
        return 0 // 고성능 코어에 할당
    case "batch":
        return 2 // 에너지 효율 코어 사용
    default:
        return -1
    }
}

이 함수는 태스크 유형에 따라 적절한 CPU 코어에 할당하여 고우선순위 작업의 응답 속도를 향상시킨다.

2.3 최단 작업 우선 스케줄링: 응답 시간 최적화 최단 작업 우선(SJF) 알고리즘은 실행 시간이 짧은 작업부터 처리함으로써 평균 대기 시간과 반응 시간을 최소화한다. 비선점 방식과 선점 방식 모두 존재하며, 일반적으로 비선점이 더 안정적이다.

struct Task {
    int id, arrival_time, execution_time, wait_time;
};

// 실행 시간 기준 오름차순 정렬
qsort(tasks, n, sizeof(Task), compare_execution_time);

C 언어 코드는 실행 시간이 짧은 작업을 먼저 처리하도록 정렬하는 핵심 로직을 구현한다.

알고리즘	평균 대기 시간 (ms)	평균 반응 시간 (ms)
FCFS	15.2	8.4
SJF	7.1	3.6

실제 측정 결과에 따르면, SJF는 기존 방식보다 약 50% 이상의 응답 시간 개선 효과를 보였다.

2.4 기회 기반 스케줄링: 동적 리소스 점유 및 다기기 협업 고밀도 엣지 환경에서는 고정 스케줄링만으로는 리소스 변동에 대응하기 어렵다. 기회 기반 스케줄링은 실시간 로드와 네트워크 상태를 감지해 동적으로 작업 배포 전략을 조정한다.

func ShouldPreempt(currentTask *Task, newTask *Task) bool {
    return newTask.Priority > currentTask.Priority &&
           currentTask.IsInterruptible()
}

이 함수는 우선순위 비교와 작업 취소 가능성 여부를 판단해, 중요한 작업이 즉시 실행될 수 있도록 허용한다.

다기기 협업 프로세스:

장치 A가 계산 부담 감지 → 이동 요청 발송
장치 B/C가 자원 제공 가능 여부 응답
스케줄러가 최적 대상 결정
데이터 동기화 및 작업 이관 수행

실시간으로 각 노드의 CPU, 메모리, 대역폭 사용률을 모니터링하며, 역사적 데이터 기반 예측을 통해 미래 가용 리소스를 추정한다. 또한 일관성 해시를 사용해 작업 분포를 균형 있게 유지한다.

2.5 혼합 히어리스틱 스케줄링: 딥러닝 워크로드 최적화 사례 딥러닝 학습 환경에서는 규칙 기반 엔진과 강화학습 기반 모델을 결합한 혼합 히어리스틱 접근이 뛰어난 성능을 발휘한다.

# DRL 모델의 행동 확률 출력
action_probs = dqn_model.predict(state)

# 불가능한 행동에 가중치 감소
if not is_resource_available(action):
    action_probs[action] *= 0.1  # 무효 선택 감소

이 코드는 리소스 제약을 위반하는 행동의 확률을 낮춰, 안전한 스케줄링을 보장한다.

스케줄링 방법	평균 대기 시간 (초)	GPU 활용도
순수 히어리스틱	142	68%
혼합 스케줄링	89	79%

실제 테스트에서 혼합 전략은 평균 대기 시간을 37% 단축시키며, 리소스 활용도도 향상되었다.

이종 자원의 특성 모델링 및 작업 분류

3.1 GPU, CPU, TPU의 계산 특성 분석 이종 환경에서의 성능 최적화는 각 장치의 특성 정량화로부터 시작된다. 병렬성, 메모리 접근 패턴, 전용 명령어 지원 등 차이를 정의하는 것이 중요하다.

처리 장치	병렬 단위	최대 연산 (TFLOPS)	주요 적용 분야
CPU	스레드 수준	0.5–1.5	제어 중심 작업
GPU	데이터 병렬	10–100	딥러닝 학습
TPU	행렬 병렬	90–250	텐서 연산 가속

def extract_computational_features(device):
    return np.array([
        device.get_peak_flops(),
        device.get_memory_bandwidth(),
        device.get_instruction_latency()
    ])

이 함수는 하드웨어의 핵심 성능 지표를 벡터 형태로 추출하여, 후속 스케줄링 또는 오퍼레이터 매핑 시스템에 활용할 수 있다.

3.2 딥러닝 작업 유형 식별 및 리소스 예측 모델 종류에 따라 계산, 메모리, 통신 요구가 크게 달라지므로, 정확한 작업 유형 인식과 자원 예측이 필수적이다.

이미지 분류: ResNet, EfficientNet 등, 고대역폭 GPU 필요
자연어 처리: BERT, T5 등, 긴 시퀀스 모델링에 높은 메모리 요구
객체 탐지: YOLO, Faster R-CNN 등, 계산과 메모리 접근 빈도 높음

def estimate_resources(task_type, input_size, batch_size):
    multipliers = {
        'classification': {'flops': 1.2, 'memory': 0.8},
        'nlp':            {'flops': 0.9, 'memory': 2.1},
        'detection':      {'flops': 1.8, 'memory': 1.5}
    }
    factors = multipliers[task_type]
    return {
        'gpu_flops': factors['flops'] * batch_size * input_size,
        'memory_gb': factors['memory'] * batch_size * (input_size ** 0.5)
    }

입력 크기와 배치 사이즈를 기반으로 연산량과 메모리 사용량을 예측하여 스케줄러의 의사결정을 지원한다.

3.3 실습: TensorFlow/PyTorch 기반 작업 프로파일링 작업 프로파일링은 작업의 행동 특성을 정량화하는 과정이다. 초기에는 실행 시간, 자원 사용량, 호출 빈도 등을 추출하고, 정규화 및 인코딩을 수행한다.

import torch.nn as nn

class TaskEmbedder(nn.Module):
    def __init__(self, input_dim, embed_dim=64):
        super().__init__()
        self.fc1 = nn.Linear(input_dim, 128)
        self.relu = nn.ReLU()
        self.fc2 = nn.Linear(128, embed_dim)

    def forward(self, x):
        return self.fc2(self.relu(self.fc1(x)))

이 신경망은 고차원 특징을 64차원 임베딩 벡터로 축소하여, 유사 작업 간의 거리 계산에 활용할 수 있다. 학습 시 컨트라스트 손실을 사용해 유사한 작업은 공간 내 가까이 위치하게 한다.

시각화 결과 예시:

작업 유형	t-SNE X	t-SNE Y
배치 처리	2.1	-0.8
실시간 계산	-1.3	1.5

혼합 클러스터 스케줄링 시스템 설계 및 구현

4.1 아키텍처 설계: 통합 스케줄러와 리소스 감지 계층 통합 스케줄러는 자원 감지 계층의 실시간 데이터를 바탕으로 결정을 내린다. 각 노드에는 경량 에이전트가 배포되어 주기적으로 상태를 보고한다.

type ResourceMetrics struct {
    NodeID     string  `json:"node_id"`
    CPUUsage   float64 `json:"cpu_usage"`
    MemoryFree int64   `json:"memory_free"`
    Timestamp  int64   `json:"timestamp"`
}

이 구조체는 3초마다 업데이트되는 헬스 체크 메시지를 포함하며, 스케줄러는 최신 클러스터 상태를 유지한다.

스케줄링 절차:

작업 요청 수신
리소스 감지 계층에서 최신 지표 조회
점수 기반 노드 선정
작업과 노드 연결 후 실행 지시

4.2 Kubernetes 통합: NVIDIA Device Plugin 및 TPU 연동 NVIDIA Device Plugin은 GPU 리소스를 kubelet에 등록하는 핵심 구성 요소다. DaemonSet를 통해 모든 노드에 배포한다.

apiVersion: apps/v1
kind: DaemonSet
metadata:
  name: nvidia-device-plugin
spec:
  selector:
    matchLabels:
      name: nvidia-device-plugin
  template:
    metadata:
      labels:
        name: nvidia-device-plugin
    spec:
      containers:
      - image: nvcr.io/nvidia/k8s-device-plugin:v0.14.1
        name: device-plugin
        securityContext:
          allowPrivilegeEscalation: false
        volumeMounts:
        - name: device-plugin
          mountPath: /var/lib/kubelet/device-plugins
      volumes:
      - name: device-plugin
        hostPath:
          path: /var/lib/kubelet/device-plugins

이 설정은 호스트의 장치 디렉터리를 컨테이너에 마운트하여, GPU 리소스 등록을 가능하게 한다. 비특권 모드로 실행되어 보안성을 높였다.

TPU는 구글 클라우드 기반으로 작동하며, 미리 API 활성화 및 네트워크 연결 설정이 필요하다.

4.3 스케줄링 엔진 개발: 전략에서 코드로 스케줄링 전략을 실제 코드로 구현하기 위해 명확한 규칙 모델을 설계한다.

type SchedulingPolicy struct {
    PriorityFactor float64
    ResourceScore  float64
    NodeCapacity   int
}

func (p *SchedulingPolicy) Score(task Task, node Node) float64 {
    priority := task.Weight * p.PriorityFactor
    resourceFit := float64(node.FreeCPU()) / float64(node.TotalCPU())
    return priority + p.ResourceScore*resourceFit
}

Score 메서드는 작업의 우선순위와 노드의 리소스 이용률을 종합적으로 평가하여 스케줄링 우선순위를 결정한다.

또한 구성 중앙에서 전략 파라미터를 동적으로 로드하여, 회색 배포 및 런타임 조정이 가능하다.

4.4 성능 검증: 처리량, 지연, 자원 활용도 분석 시스템 성능은 처리량(QPS), 지연(P99), 자원 활용도 등으로 평가된다.

동시 접속 수	평균 처리량 (QPS)	P99 지연 (ms)	CPU 사용률 (%)
100	8,500	45	68
500	12,200	120	89

// Prometheus 메트릭 노출 예시
requestDuration := prometheus.NewHistogramVec(
    prometheus.HistogramOpts{
        Name: "http_request_duration_ms",
        Help: "HTTP 요청 지연 분포",
        Buckets: []float64{10, 50, 100, 200, 500},
    },
    []string{"method", "endpoint"},
)
prometheus.MustRegister(requestDuration)

이 코드는 HTTP 요청 지연을 직방도 형식으로 기록하여 Grafana 등으로 시각화 가능하게 한다.

결론 및 미래 전망 클라우드 네이티브와 엣지 컴퓨팅의 확산은 Kubernetes 기반 인프라의 중심성과 함께, 스케줄링 기술의 진화를 가속화하고 있다. 예를 들어, 금융 기업은 다음과 같은 설정으로 트레이딩 서비스의 고가용성을 확보했다.

apiVersion: apps/v1
kind: Deployment
metadata:
  name: trading-service
spec:
  replicas: 6
  strategy:
    type: RollingUpdate
    maxSurge: 1
    maxUnavailable: 0

이러한 전략은 중단 없는 업데이트를 가능하게 하며, 일일 처리량을 120만 건까지 증가시켰다.

또한, 모니터링 시스템은 지표, 로그, 트레이싱을 통합한 통합 관측 플랫폼으로 진화하고 있다. 예를 들어, 온라인 상점은 Prometheus + Loki + Tempo를 결합하여 MTTR(평균 복구 시간)를 45분에서 8분으로 단축하였다.

미래 트렌드	대표 기술	적용 사례
서버리스 아키텍처	AWS Lambda, Knative	이미지 처리 등 이벤트 기반 작업
AI 엔지니어링 통합	KServe, MLflow	모델 추론 서비스 배포

Service A

API Gateway

Auth Service

Data Pipeline

Lakehouse

태그: GPU scheduling CPU optimization TPU integration kubernetes Load Balancing

6월 8일 21:24에 게시됨

괴물 클럽

GPU·CPU·TPU 혼합 환경에서의 효율적 자원 스케줄링 기법

인기 태그