P24 - Cấu hình HA với Ceph trên Proxmox 9 | Failover Test
Proxmox P24 – High Availability với Ceph Failover Test
Cấu Hình HA với Ceph Trên Proxmox VE 9 (Chi Tiết Từng Bước)
High Availability (HA) kết hợp với Ceph Storage là một trong những giải pháp mạnh mẽ nhất trên Proxmox VE 9. Trong bài viết này, chúng ta sẽ triển khai mô hình HA sử dụng Ceph làm shared storage và thực hiện kiểm thử failover thực tế khi một node bị down.
Bạn sẽ được hướng dẫn đầy đủ các bước: tạo cluster 3 node, cài đặt Ceph, tạo MON – OSD – Pool, chuyển disk VM sang Ceph storage, cấu hình HA resource và mô phỏng sự cố node.
Nếu bạn đang vận hành môi trường production, hệ thống quan trọng hoặc lab nâng cao, việc nắm vững Proxmox HA với Ceph là kỹ năng bắt buộc để đảm bảo uptime và toàn vẹn dữ liệu.
1️⃣ Chuẩn Bị
Trước khi cấu hình High Availability với Ceph, cần chuẩn bị hạ tầng đầy đủ.
🔧 Mô Hình Lab
Chuẩn bị 3 node Proxmox.
Mỗi node có 3 ổ đĩa:
• 1 ổ chứa OS Proxmox VE
• 2 ổ dùng làm Ceph OSD
Cấu hình:
• Pve01: Disk 2,3: 30Gb : 192.168.16.200
• Pve02: Disk 2,3: 40Gb : 192.168.16.201
• Pve03: Disk 2,3: 45Gb : 192.168.16.202
🔹 Step 1 — Set Serial Disk (Nếu Cài Trên Proxmox VM)
Nếu triển khai trong môi trường VM, cần set serial cho disk (ổ vật lý thực tế đã có serial sẵn).
nano /etc/pve/qemu-server/102.conf
serial=DISK05
serial=DISK06
nano /etc/pve/qemu-server/103.conf
serial=DISK03
serial=DISK04
nano /etc/pve/qemu-server/104.conf
serial=DISK01
serial=DISK02
🔹 Step 2 — Chuẩn Bị Windows 10 VM Trên PVE01
Node PVE01 có VM Windows 10 dùng để test HA.
🔹 Step 3 — Đồng Bộ Thời Gian Các Node
Các node trong cluster phải đồng bộ thời gian hệ thống:
timedatectl status
Thời gian không đồng bộ có thể gây lỗi cluster hoặc Ceph.
🔹 Step 4 — Kiểm Tra Disk Trước Khi Tạo Ceph OSD
Liệt kê ổ đĩa để tránh xóa nhầm:
lsblk
fdisk -l
Luôn xác nhận chính xác disk trước khi tạo OSD.
2️⃣ Cài Đặt Ceph
🔵 Step 1 — Tạo Cluster 3 Node
Trên Pve01:
pvecm create tsf
Lấy IP pve01 và thêm vào file hosts của pve02, pve03:
192.168.16.200 pve01zfs.tsf.id.vn pve01zfs
Trên pve02 và pve03:
pvecm add pve01zfs.tsf.id.vn
Cluster phải ở trạng thái healthy trước khi cài Ceph.
🔵 Step 2 — Cài Đặt Ceph
Trong GUI:
Datacenter → Ceph → Install Ceph
Thực hiện tương tự trên 2 node còn lại.
Tất cả node phải cùng phiên bản Ceph.
🔵 Step 3 — Tạo Ceph MON
Add MON
Add Manager (administrator)
Ceph MON chịu trách nhiệm quản lý trạng thái cluster.
🔵 Step 4 — Tạo Ceph OSD
Tạo OSD trên từng node bằng các disk đã chuẩn bị.
Mỗi node sẽ đóng góp storage vào hệ thống Ceph phân tán.
🔵 Step 5 — Tạo Ceph Pool
Chỉ cần tạo pool một lần trên một node.
Pool sẽ tự động khả dụng trên toàn cluster.
3️⃣ Cấu Hình HA Với Ceph
Sau khi Ceph sẵn sàng, tiến hành cấu hình HA.
🔹 Step 1 — Chuyển Disk VM Sang Ceph Storage
Chuyển disk của VM Windows sang Ceph pool.
👉 Lưu ý quan trọng:
• Moving disk loses optional capacity over time.
• VM có thể bật khi di chuyển disk (online move OK).
Ceph là shared storage nên VM có thể chạy trên bất kỳ node nào.
🔹 Step 2 — Thêm VM Vào HA Manager
Add HA resource
Add HA preference rule
HA resource: select VM HA
Priority:
• pve01 = 3
• pve02 = 2
• pve03 = 1
VM sẽ ưu tiên chạy trên pve01, nếu node này lỗi sẽ chuyển sang node còn lại theo mức priority.
4️⃣ Mô Phỏng Kiểm Thử HA
Thực hiện test thực tế:
Down pve01
Khi pve01 offline:
→ HA manager phát hiện node lỗi
→ VM tự động khởi động trên pve02
→ Ceph đảm bảo disk luôn sẵn sàng trên toàn cluster
→ Không mất dữ liệu
Khi pve01 hoạt động lại:
→ VM có thể migrate về node chính tùy theo chính sách HA
Đây là minh chứng cho High Availability thực sự với shared storage.
🔐 Vì Sao Nên Dùng Ceph Cho HA?
So với ZFS replication, Ceph mang lại:
• Shared storage thực sự
• Failover gần như tức thì
• Không phụ thuộc lịch replication
• Dữ liệu phân tán real-time
• Phù hợp môi trường production
Ceph tự động replicate block dữ liệu giữa các node, đảm bảo redundancy và toàn vẹn dữ liệu.
🚀 Kết Luận
Proxmox VE 9 kết hợp Ceph mang lại giải pháp High Availability chuẩn enterprise mà không tốn chi phí license cao. Khi triển khai đúng mô hình 3 node, cấu hình MON – OSD – Pool chính xác và thiết lập HA priority hợp lý, bạn sẽ có hệ thống ảo hóa chịu lỗi cao.
Giải pháp này đặc biệt phù hợp cho:
Hệ thống doanh nghiệp
Ứng dụng quan trọng
Production workload
Lab nâng cao
Quản trị viên IT chuyên nghiệp
Làm chủ Proxmox HA với Ceph là bước nâng cấp lớn trong hành trình xây dựng hạ tầng ảo hóa bền vững và sẵn sàng cho môi trường thực tế.
Tham khảo thêm bài viết cùng chủ đề
P21 – Hướng Dẫn Tự Động Start và Shutdown VM Proxmox Bằng Cron
P21 – Hướng Dẫn Tự Động Start và Shutdown VM Proxmox Bằng Cron ⏰ Proxmox VE – Hướng Dẫn Tự Động Start và Shutdown VM Bằng Cron (Step-by-Step) Tự động hóa việc khởi động và tắt máy ảo là một kỹ năng quan trọng đối với mọi quản trị viên...
Read MoreP15 – Sao lưu và Khôi phục Máy Ảo Trên Proxmox
P15 – Sao lưu và Khôi phục Máy Ảo Trên Proxmox 🚀 Proxmox VE P15 – Backup và Restore Virtual Machines (Hướng dẫn Full Step-by-Step) Bảo vệ dữ liệu là một trong những trách nhiệm quan trọng nhất của bất kỳ System Administrator nào.Trong Proxmox VE, việc xây dựng chiến...
Read MoreP14 – Hướng Dẫn Remove Cluster Group An Toàn trên Proxmox (Step-by-Step)
Proxmox VE 9 P14: Hướng Dẫn Remove Cluster Group An Toàn trên proxmox (Step-by-Step) 🚀 Proxmox VE 9 – Hướng Dẫn Remove Cluster Group (Step-by-Step) Trong một số tình huống thực tế, bạn có thể cần gỡ bỏ hoàn toàn cấu hình cluster trong Proxmox VE 9, đặc biệt khi:...
Read More