TSF – Giải pháp IT toàn diện cho doanh nghiệp SMB | HCM

P24 - Cấu hình HA với Ceph trên Proxmox 9 | Failover Test

Proxmox P24 – High Availability với Ceph Failover Test

Cấu Hình HA với Ceph Trên Proxmox VE 9 (Chi Tiết Từng Bước)

High Availability (HA) kết hợp với Ceph Storage là một trong những giải pháp mạnh mẽ nhất trên Proxmox VE 9. Trong bài viết này, chúng ta sẽ triển khai mô hình HA sử dụng Ceph làm shared storage và thực hiện kiểm thử failover thực tế khi một node bị down.

Bạn sẽ được hướng dẫn đầy đủ các bước: tạo cluster 3 node, cài đặt Ceph, tạo MON – OSD – Pool, chuyển disk VM sang Ceph storage, cấu hình HA resource và mô phỏng sự cố node.

Nếu bạn đang vận hành môi trường production, hệ thống quan trọng hoặc lab nâng cao, việc nắm vững Proxmox HA với Ceph là kỹ năng bắt buộc để đảm bảo uptime và toàn vẹn dữ liệu.


1️⃣ Chuẩn Bị

Trước khi cấu hình High Availability với Ceph, cần chuẩn bị hạ tầng đầy đủ.

🔧 Mô Hình Lab

Chuẩn bị 3 node Proxmox.
Mỗi node có 3 ổ đĩa:

• 1 ổ chứa OS Proxmox VE
• 2 ổ dùng làm Ceph OSD

Cấu hình:

• Pve01: Disk 2,3: 30Gb : 192.168.16.200
• Pve02: Disk 2,3: 40Gb : 192.168.16.201
• Pve03: Disk 2,3: 45Gb : 192.168.16.202


🔹 Step 1 — Set Serial Disk (Nếu Cài Trên Proxmox VM)

Nếu triển khai trong môi trường VM, cần set serial cho disk (ổ vật lý thực tế đã có serial sẵn).

 
nano /etc/pve/qemu-server/102.conf serial=DISK05 serial=DISK06
 
nano /etc/pve/qemu-server/103.conf serial=DISK03 serial=DISK04
 
nano /etc/pve/qemu-server/104.conf serial=DISK01 serial=DISK02

🔹 Step 2 — Chuẩn Bị Windows 10 VM Trên PVE01

Node PVE01 có VM Windows 10 dùng để test HA.


🔹 Step 3 — Đồng Bộ Thời Gian Các Node

Các node trong cluster phải đồng bộ thời gian hệ thống:

 
timedatectl status

Thời gian không đồng bộ có thể gây lỗi cluster hoặc Ceph.


🔹 Step 4 — Kiểm Tra Disk Trước Khi Tạo Ceph OSD

Liệt kê ổ đĩa để tránh xóa nhầm:

 
lsblk fdisk -l

Luôn xác nhận chính xác disk trước khi tạo OSD.


2️⃣ Cài Đặt Ceph


🔵 Step 1 — Tạo Cluster 3 Node

Trên Pve01:

 
pvecm create tsf

Lấy IP pve01 và thêm vào file hosts của pve02, pve03:

 
192.168.16.200 pve01zfs.tsf.id.vn pve01zfs

Trên pve02 và pve03:

 
pvecm add pve01zfs.tsf.id.vn

Cluster phải ở trạng thái healthy trước khi cài Ceph.


🔵 Step 2 — Cài Đặt Ceph

Trong GUI:

Datacenter → Ceph → Install Ceph

Thực hiện tương tự trên 2 node còn lại.

Tất cả node phải cùng phiên bản Ceph.


🔵 Step 3 — Tạo Ceph MON

Add MON
Add Manager (administrator)

Ceph MON chịu trách nhiệm quản lý trạng thái cluster.


🔵 Step 4 — Tạo Ceph OSD

Tạo OSD trên từng node bằng các disk đã chuẩn bị.

Mỗi node sẽ đóng góp storage vào hệ thống Ceph phân tán.


🔵 Step 5 — Tạo Ceph Pool

Chỉ cần tạo pool một lần trên một node.

Pool sẽ tự động khả dụng trên toàn cluster.


3️⃣ Cấu Hình HA Với Ceph

Sau khi Ceph sẵn sàng, tiến hành cấu hình HA.


🔹 Step 1 — Chuyển Disk VM Sang Ceph Storage

Chuyển disk của VM Windows sang Ceph pool.

👉 Lưu ý quan trọng:

• Moving disk loses optional capacity over time.
• VM có thể bật khi di chuyển disk (online move OK).

Ceph là shared storage nên VM có thể chạy trên bất kỳ node nào.


🔹 Step 2 — Thêm VM Vào HA Manager

Add HA resource

Add HA preference rule

HA resource: select VM HA

Priority:

• pve01 = 3
• pve02 = 2
• pve03 = 1

VM sẽ ưu tiên chạy trên pve01, nếu node này lỗi sẽ chuyển sang node còn lại theo mức priority.


4️⃣ Mô Phỏng Kiểm Thử HA

Thực hiện test thực tế:

Down pve01

Khi pve01 offline:

→ HA manager phát hiện node lỗi
→ VM tự động khởi động trên pve02
→ Ceph đảm bảo disk luôn sẵn sàng trên toàn cluster
→ Không mất dữ liệu

Khi pve01 hoạt động lại:

→ VM có thể migrate về node chính tùy theo chính sách HA

Đây là minh chứng cho High Availability thực sự với shared storage.


🔐 Vì Sao Nên Dùng Ceph Cho HA?

So với ZFS replication, Ceph mang lại:

• Shared storage thực sự
• Failover gần như tức thì
• Không phụ thuộc lịch replication
• Dữ liệu phân tán real-time
• Phù hợp môi trường production

Ceph tự động replicate block dữ liệu giữa các node, đảm bảo redundancy và toàn vẹn dữ liệu.


🚀 Kết Luận

Proxmox VE 9 kết hợp Ceph mang lại giải pháp High Availability chuẩn enterprise mà không tốn chi phí license cao. Khi triển khai đúng mô hình 3 node, cấu hình MON – OSD – Pool chính xác và thiết lập HA priority hợp lý, bạn sẽ có hệ thống ảo hóa chịu lỗi cao.

Giải pháp này đặc biệt phù hợp cho:

  • Hệ thống doanh nghiệp

  • Ứng dụng quan trọng

  • Production workload

  • Lab nâng cao

  • Quản trị viên IT chuyên nghiệp

Làm chủ Proxmox HA với Ceph là bước nâng cấp lớn trong hành trình xây dựng hạ tầng ảo hóa bền vững và sẵn sàng cho môi trường thực tế.

Tham khảo thêm bài viết cùng chủ đề

P15 – Sao lưu và Khôi phục Máy Ảo Trên Proxmox

P15 – Sao lưu và Khôi phục Máy Ảo Trên Proxmox 🚀 Proxmox VE P15 – Backup và Restore Virtual Machines (Hướng dẫn Full Step-by-Step) Bảo vệ dữ liệu là một trong những trách nhiệm quan trọng nhất của bất kỳ System Administrator nào.Trong Proxmox VE, việc xây dựng chiến...

Read More