TSF – Giải pháp IT toàn diện cho doanh nghiệp SMB | HCM

P23 - ZFS Replication HA Proxmox– Full Demo Proxmox 9

Proxmox P23 – Kiểm Thử High Availability với ZFS Replication

Demo Đầy Đủ HA + ZFS Replication Trên Proxmox VE 9 (Chi Tiết Từng Bước)

High Availability (HA) là một trong những tính năng quan trọng nhất khi triển khai môi trường ảo hóa production. Trong bài viết này, chúng ta sẽ thực hiện kiểm thử High Availability trên Proxmox VE 9 kết hợp ZFS Replication, mô phỏng tình huống node chính gặp sự cố và VM tự động failover sang node dự phòng.

Bài hướng dẫn này bao gồm đầy đủ các bước: tạo cluster, chuẩn bị storage hỗ trợ replication, cấu hình replication task, thêm VM vào HA Manager và test failover thực tế.

Nếu bạn đang vận hành hệ thống quan trọng (database, file server, dịch vụ nội bộ…) thì HA + ZFS Replication là giải pháp giúp giảm downtime và bảo toàn dữ liệu hiệu quả.


1️⃣ Tổng Quan

🚀 Replication Trong Proxmox Là Gì?

Replication trong Proxmox là cơ chế đồng bộ gia tăng (incremental) dữ liệu VM từ node A sang node B theo lịch định sẵn (5 phút, 15 phút, 1 giờ…).

Replication chỉ hỗ trợ cho:

• VM sử dụng Ceph RBD
• VM sử dụng ZFS (ZFS send/receive)

Không hỗ trợ:

• LVM-thin
• ext4
• directory storage


📦 Cơ Chế Hoạt Động Của Replication

Ví dụ:

VM 100 đang chạy trên node pve01.
Bạn tạo replication sang pve02.

Cơ chế:

• Lần đầu → Sao chép toàn bộ dữ liệu VM sang pve02
• Các lần sau → Chỉ gửi block thay đổi (incremental)
• Tại node đích, VM luôn ở trạng thái stopped và chỉ giữ snapshot replication
• Khi xảy ra failover → Snapshot được “promote” thành master → VM có thể chạy

Cơ chế này đảm bảo dữ liệu được đồng bộ gần như thời gian thực mà vẫn tối ưu băng thông.


2️⃣ QUY TRÌNH CHUẨN HA + REPLICATION PROXMOX


🔵 STEP 1 — Tạo Proxmox Cluster (Bắt Buộc)

Hạ tầng:

pve01zfs: 192.168.11.200 (main)
pve02zfs: 192.168.11.201 (backup)

Trên node master (pve01zfs):

 
pvecm create tsf

Lấy thông tin IP pve01 và thêm vào file hosts của pve02:

 
192.168.11.200 pve01zfs.tsf.id.vn pve01zfs

Trên pve02 join cluster:

 
pvecm add pve01zfs.tsf.id.vn

Password: root của pve01

Chi tiết cấu hình cluster xem video:
Setup Cluster Group on Proxmox Version 9
https://youtu.be/wUqA8xeLcjc

Lưu ý quan trọng:

• Hai node nên có corosync link riêng hoặc LAN ổn định
• Latency < 2ms
• Đồng bộ thời gian hệ thống
• Cùng phiên bản Proxmox

Cluster phải ổn định trước khi cấu hình HA.


🔵 STEP 2 — Chuẩn Bị Storage Hỗ Trợ Replication

VM bắt buộc phải chạy trên ZFS hoặc Ceph để sử dụng replication.

Nếu đang dùng local-lvm, chuyển disk sang ZFS:

 
qm move_disk 101 scsi0 zfs-storage

Chỉ ZFS và Ceph mới hỗ trợ replication native trong Proxmox VE 9.


🔵 STEP 3 — Tạo Replication Task Cho VM

Thực hiện trong GUI:

• Chọn VM → Replication → Add
• Target: pve02
• Schedule: */30 * * * * (30 phút)
• Rate limit: Unlimited (hoặc 100 MB/s)

Replication sẽ tự động tạo snapshot trên node đích.

Lần chạy đầu tiên:
Schedule ngay → snapshot full VM (mất thời gian)

Các lần sau:
Snapshot incremental (chỉ block thay đổi)

Đây là cơ chế ZFS replication tối ưu và an toàn.


🔵 STEP 4 — Thiết Lập Cluster Votes (Tùy Chọn)

Lưu ý: Chỉ cần khi cluster có dưới 3 node.

Tạo file cấu hình mới:

 
cd /etc/pve cp corosync.conf corosync.new.conf

Chỉnh sửa:

 
nano corosync.new.conf

Cấu hình vote:

pve02 vote 2 (backup)

Backup file cũ và đổi tên:

 
mv corosync.conf corosync.bak.conf mv corosync.new.conf corosync.conf

Mục đích: Tránh split-brain trong cluster 2 node.


🔵 STEP 5 — Thêm VM Vào HA Manager

Thêm VM 100 vào HA:

 
ha-manager add vm:100

Thiết lập Node Affinity Rules:

Datacenter → HA → Affinity Rules → HA Node Affinity Rules → Add

Chọn HA Resource: VM 100

Thiết lập priority:

• pve01 = 2 (node chính, ưu tiên cao hơn)
• pve02 = 1

VM sẽ ưu tiên chạy trên node chính.


🔵 STEP 6 — Kiểm Thử HA Failover (Bước Quan Trọng)

Cách test:

TẮT hoàn toàn node pve01

Kết quả:

→ VM 100 tự động chạy trên pve02
→ Thời gian khởi động có thể mất vài phút

Khi pve01 được sửa và khởi động lại:

→ VM tự động migrate về lại pve01

Điều này xác nhận HA + Replication hoạt động đúng.


🔵 STEP 7 — Restart Services Cluster

Sau khi cấu hình xong, có thể restart dịch vụ cluster nếu cần để đảm bảo ổn định.


🔐 Vì Sao HA + ZFS Replication Quan Trọng?

Triển khai High Availability với ZFS replication trong Proxmox giúp:

• Giảm downtime
• Failover tự động
• Đồng bộ dữ liệu bằng snapshot ZFS
• Replication incremental tiết kiệm băng thông
• Sẵn sàng cho production

Phù hợp cho:

  • Hệ thống doanh nghiệp

  • Lab testing

  • Database server

  • File server

  • Workload quan trọng

🎯 Kết Luận

Proxmox VE 9 kết hợp ZFS Replication mang lại giải pháp High Availability mạnh mẽ và tiết kiệm chi phí. Khi cấu hình đúng cluster quorum, replication task và HA resource priority, bạn có thể xây dựng hệ thống ảo hóa có khả năng chịu lỗi cao.

Việc hiểu rõ cơ chế incremental replication của ZFS và cách HA failover hoạt động sẽ giúp bạn làm chủ hạ tầng Proxmox trong môi trường thực tế.

Nắm vững HA + ZFS Replication là bước nâng cấp quan trọng trong hành trình nâng cao kỹ năng quản trị Proxmox chuyên nghiệp.

Tham khảo thêm bài viết cùng chủ đề

P15 – Sao lưu và Khôi phục Máy Ảo Trên Proxmox

P15 – Sao lưu và Khôi phục Máy Ảo Trên Proxmox 🚀 Proxmox VE P15 – Backup và Restore Virtual Machines (Hướng dẫn Full Step-by-Step) Bảo vệ dữ liệu là một trong những trách nhiệm quan trọng nhất của bất kỳ System Administrator nào.Trong Proxmox VE, việc xây dựng chiến...

Read More