서프릿 간격: 서포트 벡터 머신의 유연성 확보

소프트 간격의 개념과 의미

서포트 벡터 머신(SVM)에서 소프트 간격은 분류 경계를 완전히 만족하지 않더라도 일부 데이터 포인트가 오분류되거나 경계 내부에 위치하는 것을 허용하는 기법입니다. 이는 실제 데이터에 존재하는 노이즈와 이상치를 효과적으로 처리할 수 있게 해주며, 모델의 일반화 성능을 높이는 핵심 요소입니다.

하드 간격 대비 소프트 간격의 차이

하드 간격은 모든 데이터가 정확하게 분류되어야 한다는 강제 조건을 두며, 이로 인해 과적합(overfitting)의 위험이 큽니다. 반면 소프트 간격은 일부 오류를 수용함으로써 더 안정적인 결정 경계를 생성합니다. 이를 위해 '슬랙 변수'(slack variables)를 도입하여 오분류된 샘플에 대해 가중치를 부여합니다.

손실 함수의 역할

소프트 간격의 핵심은 적절한 손실 함수를 선택하는 것입니다. 각각의 손실 함수는 데이터의 특성에 따라 다르게 작용하며, 다음 네 가지가 주요한 예입니다:

1. 힌지 손실 (Hinge Loss)

공식: \( L(y, f(x)) = \max(0, 1 - y \cdot f(x)) \)
올바르게 분류되고 경계에서 멀리 떨어진 경우 손실은 0이며, 경계 근처 또는 잘못된 쪽에 있으면 점점 증가합니다. 선형 분리 가능 데이터에 적합하지만 노이즈에 민감할 수 있습니다.

2. 제곱 힌지 손실 (Squared Hinge Loss)

공식: \( L(y, f(x)) = \max(0, 1 - y \cdot f(x))^2 \)
힌지 손실보다 더 강한 페널티를 적용하여 오분류에 대한 반응이 더 급격합니다. 그러나 노이즈에 취약해 과적합 가능성도 커집니다.

3. 로지스틱 손실 (Logistic Loss)

공식: \( L(y, f(x)) = \log(1 + \exp(-y \cdot f(x))) \)
모든 데이터 포인트에 대해 연속적인 손실 값을 제공하며, 거리가 멀수록 페널티 감소. 비선형 분리 가능한 데이터나 노이즈가 많은 상황에서 유연성이 뛰어납니다.

4. 스무스 힌지 손실 (Smooth Hinge Loss)

공식: \[ L(y,f(x)) = \begin{cases} 0 & \text{if } yf(x) \geq 1 \\ 1 - yf(x) & \text{if } 0 < yf(x) < 1 \\ \frac{(1 - yf(x))^2}{2} & \text{if } yf(x) \leq 0 \end{cases} \] 힌지 손실의 불연속성을 보완하여 최적화 과정에서 더 안정적입니다. 특히 경사 하강법 등 반복적 최적화 알고리즘과 잘 맞습니다.

실습: 소프트 간격과 하드 간격 비교

다음 코드는 소프트 간격과 하드 간격의 성능 및 훈련 시간 차이를 시각화합니다.

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_blobs
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC

# 데이터 생성 (교차되는 클러스터)
X, y = make_blobs(n_samples=100, centers=2, random_state=42, cluster_std=4)

# 훈련/테스트 세분화
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 하드 간격 (큰 C 값)
model_hard = SVC(kernel='linear', C=1e10)
start_time = time.time()
model_hard.fit(X_train, y_train)
time_hard = time.time() - start_time

# 소프트 간격 (작은 C 값)
model_soft = SVC(kernel='linear', C=1.0)
start_time = time.time()
model_soft.fit(X_train, y_train)
time_soft = time.time() - start_time

print(f"하드 간격 훈련 시간: {time_hard:.4f}s")
print(f"소프트 간격 훈련 시간: {time_soft:.4f}s")

# 의사결정 경계 시각화
def plot_boundary(model, X, y, title):
    h = 0.02
    x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
    y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
    xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h))
    
    Z = model.predict(np.c_[xx.ravel(), yy.ravel()])
    Z = Z.reshape(xx.shape)
    
    plt.contourf(xx, yy, Z, alpha=0.8, cmap='viridis')
    plt.scatter(X[:, 0], X[:, 1], c=y, edgecolors='k', cmap='viridis')
    plt.title(title)
    plt.xlabel('특성 1')
    plt.ylabel('특성 2')

plt.figure(figsize=(14, 6))
plt.subplot(1, 2, 1)
plot_boundary(model_hard, X, y, "하드 간격 SVM")

plt.subplot(1, 2, 2)
plot_boundary(model_soft, X, y, "소프트 간격 SVM")

plt.tight_layout()
plt.show()

실행 결과에서 알 수 있듯이, 하드 간격 모델은 고려할 만한 훈련 시간이 걸리지만, 소프트 간격은 매우 빠르게 학습됩니다. 이는 복잡하거나 노이즈가 많은 데이터셋에서는 하드 간격이 거의 사용 불가능할 수 있음을 시사합니다.

다양한 손실 함수의 성능 비교

다음은 다양한 손실 함수를 사용한 분류기의 경계를 비교하는 코드입니다.

from sklearn.linear_model import SGDClassifier

# 동일한 데이터셋 재사용
X, y = make_blobs(n_samples=100, centers=2, random_state=42, cluster_std=4)

# 각 손실 함수로 모델 학습
models = {
    'Hinge Loss': SGDClassifier(loss='hinge', alpha=0.01, max_iter=1000, tol=1e-3, random_state=42),
    'Squared Hinge': SGDClassifier(loss='squared_hinge', alpha=0.01, max_iter=1000, tol=1e-3, random_state=42),
    'Logistic Loss': SGDClassifier(loss='log_loss', alpha=0.01, max_iter=1000, tol=1e-3, random_state=42),
    'Smooth Hinge (modified_huber)': SGDClassifier(loss='modified_huber', alpha=0.01, max_iter=1000, tol=1e-3, random_state=42)
}

fig, axes = plt.subplots(2, 2, figsize=(12, 12))

for idx, (name, model) in enumerate(models.items()):
    model.fit(X, y)
    ax = axes[idx // 2, idx % 2]
    plot_boundary(model, X, y, name)
    ax.set_title(name)

plt.tight_layout()
plt.show()

scikit-learn은 직접적인 'Smooth Hinge Loss'를 제공하지 않지만, `modified_huber`가 가장 근접한 구현입니다. 실제 적용 시 데이터의 특성에 따라 손실 함수를 선택해야 하며, 무조건 하나의 함수가 최고라는 법칙은 없습니다.

결론

소프트 간격은 현실 세계 데이터의 불완전성을 인정하고, 모델의 안정성과 일반화 능력을 극대화하는 중요한 설계 원칙입니다. 적절한 손실 함수와 페널티 파라미터 \( C \) 조정을 통해 다양한 문제에 대응할 수 있으며, 실험 시작 지점으로는 Hinge Loss + RBF 커널을 추천합니다. 이후 교차 검증을 통해 최적의 하이퍼파라미터를 탐색하는 것이 성공적인 모델링의 열쇠입니다.

태그: SVM soft margin hinge loss scikit-learn machine learning

5월 20일 22:09에 게시됨

괴물 클럽