TSF – Giải pháp IT toàn diện cho doanh nghiệp SMB | HCM

P13 - Thiết lập HA cho Cluster Proxmox VE 2 Node

🚀 Proxmox VE P13 – Cấu Hình High Availability (2-Node Cluster + NAS) | Failover Test

High Availability (HA) là một trong những tính năng mạnh mẽ nhất của Proxmox VE, cho phép máy ảo tự động khởi động lại trên node khác khi xảy ra sự cố phần cứng hoặc mất kết nối.

Trong bài hướng dẫn này, bạn sẽ thực hiện đầy đủ quy trình cấu hình Proxmox HA trên cluster 2 node sử dụng NAS làm shared storage.

Bạn sẽ học cách:

  • Cấu hình HA trên cluster 2 node

  • Sử dụng NAS (NFS) làm shared storage

  • Thiết lập quorum vote đúng cách

  • Thêm VM vào HA group

  • Mô phỏng sự cố phần cứng thực tế

  • Kiểm tra cơ chế failover tự động

Sau khi hoàn thành, bạn sẽ có một hệ thống HA hoạt động thực tế, đủ khả năng xử lý node failure tự động.


🧪 Lab Environment

 
PVE01: 192.168.11.200 (main) PVE02: 192.168.11.201 (backup) Join cluster: TSF NAS TSF: 192.168.11.30:5001 VM Windows10 on PVE01

I/ HA configuration 2 nodes


Step 0: Mount storage NFS

Hai node phải sử dụng shared storage chung.

Trong lab này sử dụng:

  • NAS Synology với shared folder NFS

  • Storage được mount trên cả PVE01 và PVE02

Hoặc có thể sử dụng các phương án khác như:

  • SMB

  • OneDrive

  • Các dạng shared storage khác

Video hướng dẫn mount NFS:
https://youtu.be/oXagwrTRzM8


Step 1: Move disk VM to storage NFS

Di chuyển disk của VM Windows10 từ local storage sang storage NFS đã mount.

Việc này đảm bảo VM có thể chạy trên cả hai node.


Step 2: Set Vote for PVE02

Ban đầu, cả hai node đều có vote = 1 (Cluster Information).

Với cluster 2 node, cần chỉnh vote thủ công.
Nếu cluster có từ 3 node trở lên, hệ thống sẽ tự xử lý vote.

Mở shell trên pve01 và kiểm tra file corosync:

 
ls /etc/pve

Backup và chỉnh sửa file cấu hình:

 
cd /etc/pve cp corosync.conf corosync.new.conf nano corosync.new.conf

Chỉnh nội dung:

 
Config_version:3 quorum_votes:2 (PVE02)

Lưu file:

Ctrl + O → Enter
Thoát: Ctrl + X

Thay thế file cấu hình:

 
mv corosync.conf corosync.bak.conf mv corosync.new.conf corosync.conf

Kiểm tra lại số vote trong Cluster Information.


Step 3: Create HA

Thêm VM vào HA resource:

 
ha-manager add vm:100

Add node HA (cấu hình trong GUI nếu cần).

Remove VM HA (Option):

 
ha-manager remove vm:100

Restart dịch vụ HA:

 
systemctl restart pve-ha-crm

Đến đây HA đã được kích hoạt.


II/ Simulate PVE01 FAIL disaster

Tiến hành mô phỏng sự cố phần cứng.

Demo STOP pve01 (giả lập node chính bị hỏng phần cứng).

Đăng nhập pve02 (backup) để kiểm tra.

Sau khoảng 3–5 phút:

  • VM Windows10 tự động chuyển sang PVE02

  • VM tự động khởi động

Đây là cơ chế failover tự động của Proxmox HA.


Step 1: Handle Physical Server PVE01

Sau khi bảo trì và sửa phần cứng, bật lại Server PVE01.

Nếu HA priority được cấu hình:

  • PVE01 priority = 2

  • PVE02 priority thấp hơn

VM sẽ tự động migrate về PVE01 khi node online.

Lý do: hệ thống ưu tiên node có priority cao hơn.


Step 2: Restart service system PVE01 (main)

Restart các service:

 
pve-cluster pve-ha-crm pve-ha-lm

Đảm bảo cluster và HA hoạt động bình thường.


Step 3: Migrate VM Windows10 back to PVE01.

Trường hợp priority = 1 cho cả hai node:

Bạn có thể chọn thời điểm ít tải để migrate thủ công.

Điều này giúp giảm ảnh hưởng đến người dùng.


Step 4: Restart service system PVE02 (backup)

Restart các service:

 
pve-cluster pve-ha-crm pve-ha-lm

Hai node sẽ đồng bộ lại trạng thái.


III/ In case PVE01 cannot be completely repaired, it must be replaced (PVE03)

Nếu PVE01 không thể sửa chữa hoàn toàn và cần thay bằng PVE03:


Step 1: Shutdown all VMs of PVE02

Tắt toàn bộ VM trước khi thay đổi cấu trúc cluster.


Step 2: Remove cluster group

Tiến hành remove cluster group.


Step 3: Share NFS

Trên NAS:

  • Thêm quyền IP NFS Share Folder cho PVE03

  • Hoặc cấu hình IP của PVE03 giống IP cũ của PVE01

Đảm bảo quyền truy cập NFS chính xác.


Step 4: On PVE03, add storage NFS NAS

Mount NFS storage trên node mới.


Step 5: Create cluster group for PVE02 and PVE03

Tạo lại cluster.

Create HA group.

Set number of votes.

Cluster được phục hồi với node mới.


🔐 Best Practices cho HA 2-Node

✔ Luôn sử dụng shared storage
✔ Thiết lập vote thủ công cho cluster 2 node
✔ Cấu hình priority cho node chính
✔ Test failover trước khi đưa vào production
✔ Giám sát trạng thái HA thường xuyên

Trong môi trường production:

  • Nên dùng QDevice để tăng ổn định quorum

  • Tách riêng network cho corosync

  • Theo dõi log HA định kỳ


🎯 Kết Luận

Cấu hình Proxmox HA trên cluster 2 node sử dụng NAS mang lại khả năng dự phòng mạnh mẽ ngay cả với hạ tầng nhỏ.

Trong bài hướng dẫn này, bạn đã:

  • Cấu hình HA

  • Thiết lập quorum vote

  • Thêm VM vào HA

  • Mô phỏng sự cố phần cứng

  • Kiểm tra failover tự động

  • Thực hiện quy trình thay thế node

Hiểu rõ cơ chế HA failover là kỹ năng quan trọng đối với bất kỳ System Administrator hoặc IT Engineer nào quản lý hạ tầng ảo hóa.

Đây không chỉ là cấu hình — mà là mô phỏng tình huống thực tế trong môi trường doanh nghiệp.

Tham khảo thêm bài viết cùng chủ đề

P15 – Sao lưu và Khôi phục Máy Ảo Trên Proxmox

P15 – Sao lưu và Khôi phục Máy Ảo Trên Proxmox 🚀 Proxmox VE P15 – Backup và Restore Virtual Machines (Hướng dẫn Full Step-by-Step) Bảo vệ dữ liệu là một trong những trách nhiệm quan trọng nhất của bất kỳ System Administrator nào.Trong Proxmox VE, việc xây dựng chiến...

Read More