P13 - Thiết lập HA cho Cluster Proxmox VE 2 Node
🚀 Proxmox VE P13 – Cấu Hình High Availability (2-Node Cluster + NAS) | Failover Test
High Availability (HA) là một trong những tính năng mạnh mẽ nhất của Proxmox VE, cho phép máy ảo tự động khởi động lại trên node khác khi xảy ra sự cố phần cứng hoặc mất kết nối.
Trong bài hướng dẫn này, bạn sẽ thực hiện đầy đủ quy trình cấu hình Proxmox HA trên cluster 2 node sử dụng NAS làm shared storage.
Bạn sẽ học cách:
Cấu hình HA trên cluster 2 node
Sử dụng NAS (NFS) làm shared storage
Thiết lập quorum vote đúng cách
Thêm VM vào HA group
Mô phỏng sự cố phần cứng thực tế
Kiểm tra cơ chế failover tự động
Sau khi hoàn thành, bạn sẽ có một hệ thống HA hoạt động thực tế, đủ khả năng xử lý node failure tự động.
🧪 Lab Environment
PVE01: 192.168.11.200 (main)
PVE02: 192.168.11.201 (backup)
Join cluster: TSF
NAS TSF: 192.168.11.30:5001
VM Windows10 on PVE01
I/ HA configuration 2 nodes
Step 0: Mount storage NFS
Hai node phải sử dụng shared storage chung.
Trong lab này sử dụng:
NAS Synology với shared folder NFS
Storage được mount trên cả PVE01 và PVE02
Hoặc có thể sử dụng các phương án khác như:
SMB
OneDrive
Các dạng shared storage khác
Video hướng dẫn mount NFS:
https://youtu.be/oXagwrTRzM8
Step 1: Move disk VM to storage NFS
Di chuyển disk của VM Windows10 từ local storage sang storage NFS đã mount.
Việc này đảm bảo VM có thể chạy trên cả hai node.
Step 2: Set Vote for PVE02
Ban đầu, cả hai node đều có vote = 1 (Cluster Information).
Với cluster 2 node, cần chỉnh vote thủ công.
Nếu cluster có từ 3 node trở lên, hệ thống sẽ tự xử lý vote.
Mở shell trên pve01 và kiểm tra file corosync:
ls /etc/pve
Backup và chỉnh sửa file cấu hình:
cd /etc/pve
cp corosync.conf corosync.new.conf
nano corosync.new.conf
Chỉnh nội dung:
Config_version:3
quorum_votes:2 (PVE02)
Lưu file:
Ctrl + O → Enter
Thoát: Ctrl + X
Thay thế file cấu hình:
mv corosync.conf corosync.bak.conf
mv corosync.new.conf corosync.conf
Kiểm tra lại số vote trong Cluster Information.
Step 3: Create HA
Thêm VM vào HA resource:
ha-manager add vm:100
Add node HA (cấu hình trong GUI nếu cần).
Remove VM HA (Option):
ha-manager remove vm:100
Restart dịch vụ HA:
systemctl restart pve-ha-crm
Đến đây HA đã được kích hoạt.
II/ Simulate PVE01 FAIL disaster
Tiến hành mô phỏng sự cố phần cứng.
Demo STOP pve01 (giả lập node chính bị hỏng phần cứng).
Đăng nhập pve02 (backup) để kiểm tra.
Sau khoảng 3–5 phút:
VM Windows10 tự động chuyển sang PVE02
VM tự động khởi động
Đây là cơ chế failover tự động của Proxmox HA.
Step 1: Handle Physical Server PVE01
Sau khi bảo trì và sửa phần cứng, bật lại Server PVE01.
Nếu HA priority được cấu hình:
PVE01 priority = 2
PVE02 priority thấp hơn
VM sẽ tự động migrate về PVE01 khi node online.
Lý do: hệ thống ưu tiên node có priority cao hơn.
Step 2: Restart service system PVE01 (main)
Restart các service:
pve-cluster
pve-ha-crm
pve-ha-lm
Đảm bảo cluster và HA hoạt động bình thường.
Step 3: Migrate VM Windows10 back to PVE01.
Trường hợp priority = 1 cho cả hai node:
Bạn có thể chọn thời điểm ít tải để migrate thủ công.
Điều này giúp giảm ảnh hưởng đến người dùng.
Step 4: Restart service system PVE02 (backup)
Restart các service:
pve-cluster
pve-ha-crm
pve-ha-lm
Hai node sẽ đồng bộ lại trạng thái.
III/ In case PVE01 cannot be completely repaired, it must be replaced (PVE03)
Nếu PVE01 không thể sửa chữa hoàn toàn và cần thay bằng PVE03:
Step 1: Shutdown all VMs of PVE02
Tắt toàn bộ VM trước khi thay đổi cấu trúc cluster.
Step 2: Remove cluster group
Tiến hành remove cluster group.
Step 3: Share NFS
Trên NAS:
Thêm quyền IP NFS Share Folder cho PVE03
Hoặc cấu hình IP của PVE03 giống IP cũ của PVE01
Đảm bảo quyền truy cập NFS chính xác.
Step 4: On PVE03, add storage NFS NAS
Mount NFS storage trên node mới.
Step 5: Create cluster group for PVE02 and PVE03
Tạo lại cluster.
Create HA group.
Set number of votes.
Cluster được phục hồi với node mới.
🔐 Best Practices cho HA 2-Node
✔ Luôn sử dụng shared storage
✔ Thiết lập vote thủ công cho cluster 2 node
✔ Cấu hình priority cho node chính
✔ Test failover trước khi đưa vào production
✔ Giám sát trạng thái HA thường xuyên
Trong môi trường production:
Nên dùng QDevice để tăng ổn định quorum
Tách riêng network cho corosync
Theo dõi log HA định kỳ
🎯 Kết Luận
Cấu hình Proxmox HA trên cluster 2 node sử dụng NAS mang lại khả năng dự phòng mạnh mẽ ngay cả với hạ tầng nhỏ.
Trong bài hướng dẫn này, bạn đã:
Cấu hình HA
Thiết lập quorum vote
Thêm VM vào HA
Mô phỏng sự cố phần cứng
Kiểm tra failover tự động
Thực hiện quy trình thay thế node
Hiểu rõ cơ chế HA failover là kỹ năng quan trọng đối với bất kỳ System Administrator hoặc IT Engineer nào quản lý hạ tầng ảo hóa.
Đây không chỉ là cấu hình — mà là mô phỏng tình huống thực tế trong môi trường doanh nghiệp.
Tham khảo thêm bài viết cùng chủ đề
P21 – Hướng Dẫn Tự Động Start và Shutdown VM Proxmox Bằng Cron
P21 – Hướng Dẫn Tự Động Start và Shutdown VM Proxmox Bằng Cron ⏰ Proxmox VE – Hướng Dẫn Tự Động Start và Shutdown VM Bằng Cron (Step-by-Step) Tự động hóa việc khởi động và tắt máy ảo là một kỹ năng quan trọng đối với mọi quản trị viên...
Read MoreP15 – Sao lưu và Khôi phục Máy Ảo Trên Proxmox
P15 – Sao lưu và Khôi phục Máy Ảo Trên Proxmox 🚀 Proxmox VE P15 – Backup và Restore Virtual Machines (Hướng dẫn Full Step-by-Step) Bảo vệ dữ liệu là một trong những trách nhiệm quan trọng nhất của bất kỳ System Administrator nào.Trong Proxmox VE, việc xây dựng chiến...
Read MoreP14 – Hướng Dẫn Remove Cluster Group An Toàn trên Proxmox (Step-by-Step)
Proxmox VE 9 P14: Hướng Dẫn Remove Cluster Group An Toàn trên proxmox (Step-by-Step) 🚀 Proxmox VE 9 – Hướng Dẫn Remove Cluster Group (Step-by-Step) Trong một số tình huống thực tế, bạn có thể cần gỡ bỏ hoàn toàn cấu hình cluster trong Proxmox VE 9, đặc biệt khi:...
Read More