[에스넷시스템 부트캠프] TIL Day 41 - vSphere 고가용성 및 복구 기술

2025. 7. 17. 20:37·TIL
728x90
반응형

1. vSphere HA

vSphere HA는 가상머신의 고가용성 보장을 위한 VMware의 클러스터 기능으로 ESXi 호스트 장애 발생 시, 해당 호스트의 가상 머신을 자동으로 다른 호스트에서 재시작할 수 있게 해 운영 중단 없이 빠르게 복구가 가능하게 해준다. 계획된 다운타임뿐 아니라 예기치 못한 장애 상황도 대응할 수 있다. 

 

1) 주요 기술 요소

  • 가상 머신 마이그레이션
  • I/O 어댑터 경로 다중화
  • 무정지 장애 복구
  • VM 로드 밸런싱
  • 재해 복구 툴 

 

2) vCenter Server 주요 구성 요소

  • vCenter Server 데이터베이스 
  • 인증 ID 소스
이 구성 요소들에 대해 고가용성을 제공하면 vCenter Server 자체의 HA도 가능

 

3) 아키텍처 

  • FDM(Fault Domain Manager) 
    • HA 클러스터의 중심디 되는 관리 에이전트
    • 마스터-슬레이브 구조 관리
  • 주요 에이전트
    • vpxa : vCenter와 호스트 간 통신 담당
    • hostd : 로컬 호스트 서비스
    • vpxd : vCenter Server 데몬

 

4) 마스터 & 슬레이브 구조

  • HA 클러스터에는 하나의 마스터 호스트와 여러 슬레이브 호스트가 존재
  • 마스터는 클러스터 상태를 관리하고 장애 발생시 재시작을 지시
  • 슬레이브가 하트비트를 응답하지 않으면, 마스터는 장애 여부를 판단하고 필요한 경우 가상 머신을 다른 호스트에서 재시작
  • 하트비트 전송 방식
    • 네트워크 하트비트 : VMkernel 포트를 사용하여 전송
    • 데이터스토어 하트비트 : 네트워크 장애 시 백업용
    • NIC 티밍, 다중 VMkernel 포트를 활용해 이중화 가능

 

5) VMCP (Virtual Machine Component Protection)

가상 머신 스토리지 장애에 대한 보호 기능으로 종류에는 APD와 PDL이 있다.

  • APD (All Paths Down) : 일시적으로 스토리지 접근 불가
  • PDL (Permanent Device Loss) : 물리적 디바이스 손실

 

6) 장애 판별 방식

  • 네트워크 or 호스트 장애 판단 방법
    • 마스터는 Lock 파일(.lck)을 생성하여 슬레이브 상태를 판별
    • 슬레이브가 응답 시 파일 Lock/Unlock로 통신
    • 응답이 없으면 실제 호스트 장애로 간주
  • 마스터 호스트 장애 시
    • 새로운 마스터 호스트를 선출
    • 기준 : 가장 많은 데이터스토어 접근 권한 -> 동일한 경우 MOID 값 기준

 

7) 호스트 분리 설계 팁

  • 하트비트 네트워크 이중화 구성
  • 격리 주소 다중 설정
  • 스토리지와 관리 네트워크를 물리적으로 분리
  • Fibre Channel, IP 스토리지를 독립적으로 구성 

 

2. vSphere HA 구성

1) 클러스터

클러스터는 vSphere 환경에서 여러 ESXi 호스트를 논리적으로 묶어 단일 리소스 풀처럼 관리하는 단위를 말한다. vCenter Server는 이 클러스터를 통해 리소스를 중앙집중식으로 관리하고 HA, DRS 등의 고급 기능을 제공한다.

 

클러스터 생성 가이드라인

  • 최소 2개, 최대 64개의 ESXi 호스트 포함 가능
  • 모든 호스트는 정적 IP 주소로 구성, DHCP 사용시에도 주소가 유지되어야 ㅎ암
  • 모든 호스트는 공통 관리 네트워크 공유
  • 가상 머신 모니터링에는 VMware Tools 설치 필수

 

2) 슬롯 기반 리소스 계산

vSphere HA는 장애시 가상 머신을 재시작할 수 있는 용량이 클러스터에 있는지 확인해야 한다. 이를 위해 슬롯(Slot)이라는 VM을 실행하기 위해 필요한 CPU 및 메모리의 최소 단위 개념을 사용한다. 

 

슬롯 계산 방식

1. 슬롯 크기 계산 : 클러스터 내 가장 높은 CPU/메모리 요구량 기반

2. 호스트 당 슬롯 수 계산 : 각 호스트의 자원 ÷ 슬롯 크기

3. 페일오버 용량 비교 : 실제 슬롯 수 < 설정된 용량 -> 새로운 VM 실행 불가

 

3) 가상 머신 재시작 우선순위 및 종속성 설정

  • HA는 재 시작시 우선순위를 기준으로 VM을 순차적으로 재시작
  • VM 간 종속성 설정도 가능
  • VM은 우선순위가 같거나 더 높은 VM에만 종속될 수 있음
  • 순환 종속성 설정 금지

 

3. vSphere Fault Tolerance (FT)

FT는 무중단 무손실 복구를 의미한다.

 

1) 특징

  • 다운타임 없음
  • 데이터 손실 없음
  • TCP 연결 손실 없음
  • 즉, 사용자가 장애 발생 사실을 인지하지 못할 정도의 빠른 복구
  • 운영체제와 상관없이 고성능 미션 크리티컬 애플리케이션을 보호
  • 최대 vCPU 4개 및 64GB 메모리의 가상 머신 구성 지원

 

2) 작동 방식

  • 기본 & 보조 가상 머신 
    • 2개의 완전한 VM 생성 : Primary + Secondary 
    • 각각의 VM에 .vmx, .vmdk 등 개별 구성 파일 보유
    • 데이터스토어도 분리 가능
  • 메모리 복제
    • Primary의 메모리가 실시간으로 Secondar에 미러링
    • CPU 상태와 메모리 I/O가 실시간 동기화됨
    • Primary에 장애 발생 시 Secondary가 즉시 인계 받아 서비스 지속

 

4. vSphere Replication

vSphere Replication은 스토리지 기반 복제의 대안으로 사이트 간에 가상 머신을 복제하여 부분 또는 전체 사이트 장애로부터 가상 머신을 보호한다.

 

1) 특징

  • 스토리지 비의존적 : 스토리지 벤더에 종속되지 않음
  • 저렴한 구축 비용 : 전통적인 스토리지 복제보다 비용 낮음
  • 유연성 : 소스와 대상 사이트의 스토리지 자유롭게 선택 가능

 

2) 구성 요소

  • VR 서버 : 복제 동기화 및 전송 기능 제공 (코어 기능)
  • 내장형 DB : 복제 구성 정보 저장
  • VR 관리 서버 : 복제 활성화, 모니터링, 권한 확인 등 관리 기능 수행
  • Web Client 플러그인 : 사용자 인터페이스 제공

 

3) 동작 방식

1. 사용자가 복제를 설정하면 VR 서버가 동작 시작

2. 변경된 데이터 블록만 캡처하여 대상지로 전송 (효율적 전송)

3. 정해진 주기에 따라 지속적으로 동기화

4. 장애 발생 시 대상지에서 복제된 VM을 빠르게 복구

 

5. vSphere  Data Protection (VDP)

vSphere Data Protection은 디스크 기반 백업 및 복구 솔루션으로, 가상 환경에서 효율적이고 신속한 백업을 수행한다. 

 

1) 주요 특징

배포가 간단 : vCenter Server 또는 vCenter Server Appliance와 연동

리소스 분리 : 별도의 백업 서버를 사용해 ESXi 오버로드 방지

스토리지 절감 : 데이터 중복 제거 기능 제공

빠른 백업 성능 : 블록 수준 백업 방식으로 효율성 강화

 

2) 동작 방식

1. 백업 서버가 vCenter와 연동되어 각 VM의 백업을 관리

2. 백업은 ESXi가 아닌 별도 서버에서 수행되어 부하 분산

3. 중복된 데이터는 저장하지 않아 스토리지 절약

4. 복원 시점선택 가능

 

6. DRS

DRS는 클러스터 내에서 CPU와 메모리 자원을 자동으로 분산시켜주는 기능이다. 가상 머신의 실행 성능을 최대한 유지하면서 과부하 방지 및 리소스 최적화를 돕는다. 

 

1) DRS 구성 전 조건

  • HA 구성 선행 필요
  • 모든 ESXi 호스트가 공유 스토리지를 사용해야 함
  • VM의 vMotion 요건 충족이 전제
  • 소스/대상 호스트가 동일한 데이터스토어 접근 가능해야 함

 

2) DRS 주요 기능

  • 동적 로드 밸런싱 : 실행 중인 VM의 부하를 분산
  • 초기 배치 자동화 : 새 VM이 최적의 호스트에 배치됨
  • 예측 메트릭 사용 : 예측된 리소스 사용량 기반으로 결정
  • 선호도/반선호도 규칙 : VM 간 위치 관계 설정 가능

 

3) 선호도 규칙

  • 선호도 규칙 : 특정 VM들을 같은 호스트에 배치
  • 반선호도 규칙 : 특정 VM들을 다른 호스트에 분리
  • 우선 규칙 : 가능하면 따르지만 상황에 따라 위반 가능한 규칙
  • 필수 규칙 : 반드시 따라야 하는 규칙

 

4) 유지보수 & 호스트 관리 

  • 유지보수 모드 진입시 VM들을 다르 호스트로 vMotion 이동 후 유지보수 가능
  • 호스트 제거시 고려 사항
  • 리소스 풀 계층은 클러스터와 함께 유지됨
  • 제거 대상 호스트는 반드시 유지보수 모드여야 함
  • 실행 중인 VM은 전원이 꺼지거나 이동되어야 함
  • 전체 클러스터 리소스 감소

 

5) DRS 해제 시 주의사항

  • DRS 클러스트 해제 = 리소스 풀 사라짐
  • 리소스 풀 계층 및 선호도 규칙은 복원되지 않음
  • 사전 백업 : 로컬 시스템에 리소스 풀 트리 스냅샷 저장 필요

 

 

✍️ 하루 회고

이번 시간엔 vSphere의 다양한 고가용성 기술에 대해 배웠다.

각 기능의 목적과 차이를 비교하고 실습을 통해 가상화 환경에서 안정성과 연속성을 어떻게 확보하는지에 대해 이해할 수 있었다. 

실습은 직접 해보고 싶었으나 컴퓨터 성능 부족 이슈로 강사님이 하시는 걸 지켜보는 수 밖에 없어 많이 아쉬웠다. 

728x90
반응형

'TIL' 카테고리의 다른 글

[에스넷시스템 부트캠프] TIL Day 43 - VUM  (0) 2025.07.21
[에스넷시스템 부트캠프] TIL Day 42 - 에스넷시스템 현장견학  (2) 2025.07.18
[에스넷시스템 부트캠프] TIL Day 40 - 리소스 관리 및 모니터링  (0) 2025.07.17
[에스넷시스템 부트캠프] TIL Day 39 - 템플릿, 마이그레이션, 스냅샷 실습  (0) 2025.07.15
[에스넷시스템 부트캠프] TIL Day 38 - 가상머신 스토리지 실습, 가상머신 관리  (0) 2025.07.15
'TIL' 카테고리의 다른 글
  • [에스넷시스템 부트캠프] TIL Day 43 - VUM
  • [에스넷시스템 부트캠프] TIL Day 42 - 에스넷시스템 현장견학
  • [에스넷시스템 부트캠프] TIL Day 40 - 리소스 관리 및 모니터링
  • [에스넷시스템 부트캠프] TIL Day 39 - 템플릿, 마이그레이션, 스냅샷 실습
yulee_to
yulee_to
  • yulee_to
    yulee
    yulee_to
  • 전체
    오늘
    어제
    • 전체 글 (170)
      • CS (2)
        • OS (0)
        • DB (0)
        • Network (2)
      • Develop (1)
        • Spring (9)
        • Java (12)
        • Python (0)
        • Algorithm (0)
        • 기타 (0)
      • PS (39)
        • C++ (39)
        • Java (0)
      • TIL (61)
      • Book (39)
        • 자바의 신 (32)
        • 스프링 입문을 위한 자바 객체 지향의 원리와 이해 (7)
      • ETC (4)
        • Blog (3)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    객체지향
    자바
    에스넷시스템
    클라우드 활용 네트워크 엔지니어 부트캠프
    EC2
    aws
    C++
    에스넷시스템 부트캠프
    TiL
    Java
    자바의 신
    백준
    부트캠프후기
    스프링 입문
    스터디
    알고리즘
    1일1백준
    멀티캠퍼스it부트캠프
    boj
    GodOfJava
  • 최근 댓글

  • 250x250
  • hELLO· Designed By정상우.v4.10.3
yulee_to
[에스넷시스템 부트캠프] TIL Day 41 - vSphere 고가용성 및 복구 기술
상단으로

티스토리툴바