접근 계층에서의 루프 문제: 사례 기반 분석
다음은 실제 고객 환경에서 발생한 네트워크 장애 사례입니다. 한 중소규모 네트워크에서 3계층 스위치 아래에 관리되지 않는 언매니지드 스위치(일명 '덤 스위치')가 연결되어 있었고, 정상적으로 작동하던 네트워크가 갑자기 심각한 지연과 패킷 손실을 겪었습니다. 초기 진단 결과, 네트워크 내부에 L2 루프(Layer 2 Loop)가 발생한 것으로 추정되었습니다.
문제의 핵심: 언매니지드 스위치와 루프 위험
언매니지드 스위치는 STP(Spanning Tree Protocol), VLAN, 포트 보안 등의 고급 기능을 지원하지 않으며, 단순히 MAC 주소 학습 기반으로 프레임을 전달합니다. 따라서 사용자가 실수로 두 개의 포트를 서로 연결하거나, 추가 스위치를 잘못 배선하면 쉽게 브로드캐스트 스톰(Broadcast Storm)이 발생하게 됩니다. 이로 인해 CPU 사용률 급증, 링크 포화, 전체 네트워크 성능 저하 등 심각한 문제가 발생할 수 있습니다.
예방 전략 1: BPDU Protection + Edge Port 설정
관리형 스위치의 엣지 포트(Edge Port)는 일반적으로 단말기(PC, IP 카메라 등)에 직접 연결된 포트로, STP 재계산을 유발하지 않도록 설계됩니다. 그러나 이 포트에 또 다른 스위치가 연결되고 BPDU(Bridge Protocol Data Unit)를 수신하면, 이는 잠재적 루프의 징후로 간주될 수 있습니다.
화웨이(Huawei) 장비에서는 다음 설정을 통해 이를 방지할 수 있습니다:
[Huawei] stp bpdu-protection
[Huawei]interface GigabitEthernet0/0/1
[Huawei-GigabitEthernet0/0/1] stp edged-port enable
이 구성 후 해당 포트에서 BPDU를 수신하면 다음과 같은 로그가 발생하며 포트가 자동으로 차단됩니다:
Sep 1 2021 20:31:37-08:00 Huawei %%01MSTP/4/BPDU_PROTECTION(l)[11]: This edged-port GigabitEthernet0/0/1 that enabled BPDU-Protection will be shutdown, because it received BPDU packet!
Sep 1 2021 20:31:38-08:00 Huawei %%01PHY/1/PHY(l)[12]: GigabitEthernet0/0/1: change status to down
이 메커니즘은 불필요한 BPDU 유입을 즉시 제어하여 시스템 리소스 과부하를 방지합니다.
자동 복구 설정
수동 복구 외에도 일정 시간 후 자동으로 포트를 활성화하도록 구성할 수 있습니다:
[Huawei] error-down auto-recovery cause bpdu-protection interval 300
위 예시는 5분(300초) 후 자동 복구되도록 설정합니다. 이렇게 하면 일시적인 오배선은 자동으로 해결되며, 반복적으로 장애가 발생하면 지속적인 루프 존재를 의심할 수 있습니다.
예방 전략 2: Loopback Detection (루프백 감지)
BPDU 프로텍션은 STP 기반의 방어이며, 비-STP 환경에서는 무용지물일 수 있습니다. 이 경우 Loopback Detection 기능이 유용합니다. 이 기능은 특정 포트에서 주기적으로 특수한 탐지 프레임을 송신하고, 동일 또는 다른 포트를 통해 그 프레임이 다시 수신되는지를 확인함으로써 루프를 판단합니다.
[Huawei]interface GigabitEthernet0/0/1
[Huawei-GigabitEthernet0/0/1] undo stp edged-port
[Huawei-GigabitEthernet0/0/1] loopback-detect enable
감지 후 수행할 동작은 다음 명령어로 설정 가능합니다:
[Huawei-GigabitEthernet0/0/1] loopback-detect action ?
block 포트를 논리적으로 차단
nolearn MAC 주소 학습 금지
shutdown 물리적 포트 다운 (기본값)
trap 경고만 전송
기본 동작인 shutdown을 사용하면 다음과 같은 로그가 생성됩니다:
Sep 1 2021 22:19:08-08:00 Huawei LBDT/4/Porttrap: OID 1.3.6.1.4.1.2011.5.25.174.3.3 Loopback does exist on interface(6)GigabitEthernet0/0/1 (VLAN 1), loopback detect status: 3
최신 소프트웨어 버전에서는 기본적으로 15초 후 자동 복구가 시도되며, 여전히 루프가 감지되면 다시 차단됩니다. 복구 시간은 다음 명령어로 조정할 수 있습니다:
[Huawei-GigabitEthernet0/0/1] loopback-detect recovery-time 20
H3C 장비에서의 구현
H3C 장비 역시 유사한 보호 기능을 제공합니다. 먼저 글로벌로 BPDU 보호를 활성화합니다:
[H3C] undo stp global enable
[H3C] stp bpdu-protection
[H3C]interface GigabitEthernet1/0/1
[H3C-GigabitEthernet1/0/1] stp edged-port
H3C V7 플랫폼은 기본적으로 BPDU 보호로 인한 포트 다운 후 자동 복구 기능이 활성화되어 있으며, 다음 명령어로 간격을 조절할 수 있습니다:
[H3C] shutdown-interval 300
루프백 감지는 VLAN 기반으로 설정해야 하며, 모든 VLAN을 포함할 수 있습니다:
[H3C]interface GigabitEthernet1/0/1
[H3C-GigabitEthernet1/0/1] undo stp edged-port
[H3C-GigabitEthernet1/0/1] loopback-detection enable vlan all
[H3C-GigabitEthernet1/0/1] loopback-detection action shutdown
상태 확인은 다음 명령어로 수행합니다:
[H3C] display loopback-detection
[H3C] display stp down-port
루프 발생 여부 진단 방법
실제 운영 환경에서는 실시간 모니터링이 어렵기 때문에, 장애 발생 후 진단을 위한 다양한 명령어를 숙지하는 것이 중요합니다.
- 로그 캐시 분석:
display logbuffer– 최근 시스템 이벤트 및 보호 동작 기록 확인 - 포트 상태 점검:
display stp brief– 포트의 STP 상태(Root, Designated, Alternate 등) 확인 - 트래픽 및 리소스 모니터링:
화웨이:display interface brief– 링크 이용률 및 에러 카운터 확인
H3C:display counters rate inbound interface GigabitEthernet1/0/1 - TC-BPDU 분석:
화웨이:display stp tc-bpdu statistic– TC(Topology Change) BPDU 송수신 빈도 확인
H3C:display stp bpdu-statistics - MAC 어드레스 플래핑 감지:
다음 로그는 동일 MAC 주소가 서로 다른 포트에서 반복해서 감지되었음을 의미합니다:Sep 2 2021 10:25:22-08:00 Core L2IFPPI/4/MFLPVLANALARM: MAC move detected, VlanId = 10, MacAddress = 5489-98a3-52af, Original-Port = GE0/0/1, Flapping port = GE0/0/3
확인 명령어:display mac-address flapping record
루프 발생 시 일반적인 증상
- 장비 접근 지연 (CLI 입력 지연, 웹 인터페이스 응답 없음)
- CPU 사용률 급증 (특히 protocol 관련 프로세스)
- 특정 포트의 이상 높은 트래픽 (90% 이상 지속)
- 다수의 TC-BPDU 또는 MAC 플래핑 로그
- 단말기 간 통신 지연 및 패킷 손실
이러한 현상은 특히 언매니지드 스위치가 다수 도입된 환경에서 흔히 발생합니다. 관리형 L2 스위치는 자체적으로 STP 또는 Loopback Detection을 실행할 수 있어, 상대적으로 루프에 대한 내성이 높습니다.