P13 - Thiết lập HA cho Cluster Proxmox VE 2 Node

🚀 Proxmox VE P13 – Cấu Hình High Availability (2-Node Cluster + NAS) | Failover Test

High Availability (HA) là một trong những tính năng mạnh mẽ nhất của Proxmox VE, cho phép máy ảo tự động khởi động lại trên node khác khi xảy ra sự cố phần cứng hoặc mất kết nối.

Trong bài hướng dẫn này, bạn sẽ thực hiện đầy đủ quy trình cấu hình Proxmox HA trên cluster 2 node sử dụng NAS làm shared storage.

Bạn sẽ học cách:

Cấu hình HA trên cluster 2 node
Sử dụng NAS (NFS) làm shared storage
Thiết lập quorum vote đúng cách
Thêm VM vào HA group
Mô phỏng sự cố phần cứng thực tế
Kiểm tra cơ chế failover tự động

Sau khi hoàn thành, bạn sẽ có một hệ thống HA hoạt động thực tế, đủ khả năng xử lý node failure tự động.

🧪 Lab Environment

I/ HA configuration 2 nodes

Step 0: Mount storage NFS

Hai node phải sử dụng shared storage chung.

Trong lab này sử dụng:

NAS Synology với shared folder NFS
Storage được mount trên cả PVE01 và PVE02

Hoặc có thể sử dụng các phương án khác như:

SMB
OneDrive
Các dạng shared storage khác

Video hướng dẫn mount NFS:
https://youtu.be/oXagwrTRzM8

Step 1: Move disk VM to storage NFS

Di chuyển disk của VM Windows10 từ local storage sang storage NFS đã mount.

Việc này đảm bảo VM có thể chạy trên cả hai node.

Step 2: Set Vote for PVE02

Ban đầu, cả hai node đều có vote = 1 (Cluster Information).

Với cluster 2 node, cần chỉnh vote thủ công.
Nếu cluster có từ 3 node trở lên, hệ thống sẽ tự xử lý vote.

Mở shell trên pve01 và kiểm tra file corosync:

Backup và chỉnh sửa file cấu hình:

Chỉnh nội dung:

Lưu file:

Ctrl + O → Enter
Thoát: Ctrl + X

Thay thế file cấu hình:

Kiểm tra lại số vote trong Cluster Information.

Step 3: Create HA

Thêm VM vào HA resource:

Add node HA (cấu hình trong GUI nếu cần).

Remove VM HA (Option):

Restart dịch vụ HA:

Đến đây HA đã được kích hoạt.

II/ Simulate PVE01 FAIL disaster

Tiến hành mô phỏng sự cố phần cứng.

Demo STOP pve01 (giả lập node chính bị hỏng phần cứng).

Đăng nhập pve02 (backup) để kiểm tra.

Sau khoảng 3–5 phút:

VM Windows10 tự động chuyển sang PVE02
VM tự động khởi động

Đây là cơ chế failover tự động của Proxmox HA.

Step 1: Handle Physical Server PVE01

Sau khi bảo trì và sửa phần cứng, bật lại Server PVE01.

Nếu HA priority được cấu hình:

PVE01 priority = 2
PVE02 priority thấp hơn

VM sẽ tự động migrate về PVE01 khi node online.

Lý do: hệ thống ưu tiên node có priority cao hơn.

Step 2: Restart service system PVE01 (main)

Restart các service:

Đảm bảo cluster và HA hoạt động bình thường.

Step 3: Migrate VM Windows10 back to PVE01.

Trường hợp priority = 1 cho cả hai node:

Bạn có thể chọn thời điểm ít tải để migrate thủ công.

Điều này giúp giảm ảnh hưởng đến người dùng.

Step 4: Restart service system PVE02 (backup)

Restart các service:

Hai node sẽ đồng bộ lại trạng thái.

III/ In case PVE01 cannot be completely repaired, it must be replaced (PVE03)

Nếu PVE01 không thể sửa chữa hoàn toàn và cần thay bằng PVE03:

Step 1: Shutdown all VMs of PVE02

Tắt toàn bộ VM trước khi thay đổi cấu trúc cluster.

Step 2: Remove cluster group

Tiến hành remove cluster group.

Step 3: Share NFS

Trên NAS:

Thêm quyền IP NFS Share Folder cho PVE03
Hoặc cấu hình IP của PVE03 giống IP cũ của PVE01

Đảm bảo quyền truy cập NFS chính xác.

Step 4: On PVE03, add storage NFS NAS

Mount NFS storage trên node mới.

Step 5: Create cluster group for PVE02 and PVE03

Tạo lại cluster.

Create HA group.

Set number of votes.

Cluster được phục hồi với node mới.

🔐 Best Practices cho HA 2-Node

✔ Luôn sử dụng shared storage
✔ Thiết lập vote thủ công cho cluster 2 node
✔ Cấu hình priority cho node chính
✔ Test failover trước khi đưa vào production
✔ Giám sát trạng thái HA thường xuyên

Trong môi trường production:

Nên dùng QDevice để tăng ổn định quorum
Tách riêng network cho corosync
Theo dõi log HA định kỳ

🎯 Kết Luận

Cấu hình Proxmox HA trên cluster 2 node sử dụng NAS mang lại khả năng dự phòng mạnh mẽ ngay cả với hạ tầng nhỏ.

Trong bài hướng dẫn này, bạn đã:

Cấu hình HA
Thiết lập quorum vote
Thêm VM vào HA
Mô phỏng sự cố phần cứng
Kiểm tra failover tự động
Thực hiện quy trình thay thế node

Hiểu rõ cơ chế HA failover là kỹ năng quan trọng đối với bất kỳ System Administrator hoặc IT Engineer nào quản lý hạ tầng ảo hóa.

Đây không chỉ là cấu hình — mà là mô phỏng tình huống thực tế trong môi trường doanh nghiệp.

Tham khảo thêm bài viết cùng chủ đề

P21 – Hướng Dẫn Tự Động Start và Shutdown VM Proxmox Bằng Cron

P21 – Hướng Dẫn Tự Động Start và Shutdown VM Proxmox Bằng Cron ⏰ Proxmox VE – Hướng Dẫn Tự Động Start và Shutdown VM Bằng Cron (Step-by-Step) Tự động hóa việc khởi động và tắt máy ảo là một kỹ năng quan trọng đối với mọi quản trị viên...

P15 – Sao lưu và Khôi phục Máy Ảo Trên Proxmox

P15 – Sao lưu và Khôi phục Máy Ảo Trên Proxmox 🚀 Proxmox VE P15 – Backup và Restore Virtual Machines (Hướng dẫn Full Step-by-Step) Bảo vệ dữ liệu là một trong những trách nhiệm quan trọng nhất của bất kỳ System Administrator nào.Trong Proxmox VE, việc xây dựng chiến...

P14 – Hướng Dẫn Remove Cluster Group An Toàn trên Proxmox (Step-by-Step)

Proxmox VE 9 P14: Hướng Dẫn Remove Cluster Group An Toàn trên proxmox (Step-by-Step) 🚀 Proxmox VE 9 – Hướng Dẫn Remove Cluster Group (Step-by-Step) Trong một số tình huống thực tế, bạn có thể cần gỡ bỏ hoàn toàn cấu hình cluster trong Proxmox VE 9, đặc biệt khi:...