P25 - Ceph HA trên Proxmox | Thay thế node bị lỗi
🚀 Proxmox – P25 Ceph HA Cluster: Thay Thế Node Bị Lỗi Trên Proxmox (Full Demo)
🔎 Giới thiệu
Trong bài hướng dẫn này, chúng ta sẽ thực hiện thay thế một node bị lỗi trong cụm Proxmox Ceph High Availability (HA) theo từng bước chi tiết và an toàn. Khi một node Proxmox gặp sự cố hoặc bị mất kết nối, cluster Ceph có thể chuyển sang trạng thái degraded. Tuy nhiên, nhờ cơ chế replication của Ceph và HA của Proxmox, các máy ảo (VM) vẫn có thể tiếp tục hoạt động nếu hệ thống được cấu hình đúng.
Bài viết này sẽ giúp bạn:
Xóa node chết khỏi cluster đúng cách
Loại bỏ MON và OSD khỏi Ceph an toàn
Cập nhật CRUSH map chính xác
Thêm node thay thế vào cluster
Cài đặt lại Ceph trên node mới
Theo dõi quá trình rebalance dữ liệu
Khôi phục đầy đủ chức năng HA
Phù hợp cho quản trị viên hệ thống đang vận hành môi trường production và cả anh em lab tại nhà muốn nâng cao kỹ năng Proxmox PVE 9 + Ceph HA.
🧪 5. Giả Lập Node Bị Lỗi
Do điều kiện lab hạn chế, các VM được dựng để test chạy khá chậm.
Mục tiêu chính của demo là minh họa rõ từng bước xử lý thay thế node.
Trong môi trường thực tế, server vật lý chạy Proxmox sẽ có hiệu năng cao hơn nhiều.
⚠️ 5.1. Dấu hiệu nhận biết
Khi node pve01zfs bị lỗi:
Nhiều OSD trên node đó chuyển sang trạng thái down
Ceph báo OSD ở trạng thái down/out
Nếu replication factor đủ (ví dụ: 3), VM vẫn chạy trên các node còn lại
Cluster chuyển sang trạng thái degraded
🛠 5.2. Quy trình xử lý sự cố
🔹 Step 1: Xóa node bị lỗi khỏi cluster
Thực hiện xóa node:
pvecm delnode pve01zfs
Xóa file cấu hình còn sót lại:
rm -rf /etc/pve/nodes/pve01zfs
🔹 Step 2: Gỡ MON pve01 khỏi Ceph
Đầu tiên đánh dấu MON là down:
ceph mon down pve01zfs
Sau đó xóa MON:
ceph mon remove pve01zfs
Lệnh này sẽ loại bỏ hoàn toàn dịch vụ MON khỏi cụm Ceph.
🔹 Step 3: Xóa OSD pve01zfs
Kiểm tra OSD:
ceph osd tree
Ví dụ:
osd.0
osd.1
Đánh dấu OSD là down:
ceph osd down osd.0
ceph osd down osd.1
Đánh dấu OSD là out:
ceph osd out osd.0
ceph osd out osd.1
Xóa khỏi CRUSH map:
ceph osd crush remove osd.0
ceph osd crush remove osd.1
Xóa authentication:
ceph auth del osd.0
ceph auth del osd.1
Xóa OSD khỏi Ceph hoàn toàn:
ceph osd rm osd.0
ceph osd rm osd.1
🔹 Step 4: Xóa host khỏi CRUSH Map
Chạy đúng một lệnh:
ceph osd crush remove pve01zfs
Nếu không chắc hostname:
ceph osd tree
Sau đó restart các service Ceph trên 2 node còn lại.
Ceph sẽ tự động phân phối lại dữ liệu sang các OSD còn hoạt động.
Tốc độ nhanh hay chậm phụ thuộc vào hiệu năng disk và network.
(Lab chắc chắn sẽ chậm 😄)
🆕 Step 5: Chuẩn bị node thay thế (pve04zfs)
Chỉnh serial disk:
nano /etc/pve/qemu-server/105.conf
serial=DISK07
serial=DISK08
Disable enterprise repository.
Cấu hình IP cùng lớp mạng với pve02 và pve03.
Chỉnh file hosts:
nano /etc/hosts
192.168.16.201 pve02zfs.tsf.id.vn pve02zfs
192.168.16.202 pve03zfs.tsf.id.vn pve03zfs
Kiểm tra disk:
lsblk
ls -l /dev/disk/by-id/
🔗 Step 6: Join pve04 vào cluster
pvecm add pve02zfs.tsf.id.vn
💾 Step 7: Cài đặt Ceph trên node mới (pve04)
Thực hiện trên GUI của node pve04:
Ceph → Install Ceph
Chọn cùng version với 2 node còn lại
Reboot nếu hệ thống yêu cầu
Sau đó thêm service:
➤ Thêm MON + MGR
Ceph → Monitor → Add
Ceph → Manager → Add
➤ Thêm OSD
Ceph → OSD → Create OSD
Chọn
/dev/sdbhoặc disk trốngLặp lại đến khi đủ số OSD mong muốn
⚖️ Step 8: Rebalance Ceph
Khi node mới tham gia, Ceph sẽ tự động rebalance dữ liệu.
Kiểm tra trạng thái:
ceph -s
Trạng thái tốt:
HEALTH_OK
Lưu ý:
Vì lab sử dụng server nhỏ để giả lập 3 node, bạn có thể thấy cảnh báo:
slow IO
BlueStore slow operations
Quá trình ghi dữ liệu sang disk mới sẽ mất thời gian tùy theo hiệu năng phần cứng.
Trạng thái degraded sẽ giảm dần cho đến khi cluster đạt trạng thái active + clean.
🏷 Step 9: Thêm node mới vào HA group
Truy cập:
Datacenter → HA → Groups → Chọn Group → Add pve04
Lúc này HA có thể sử dụng node mới để chạy VM khi xảy ra failover.
✅ Kết luận
Việc thay thế node lỗi trong Proxmox Ceph HA Cluster cần thực hiện đúng thứ tự:
Xóa node khỏi cluster
Gỡ MON và OSD
Cập nhật CRUSH map
Thêm node thay thế
Cài lại Ceph
Theo dõi rebalance
Cấu hình lại HA
Nếu thực hiện đúng quy trình, bạn có thể đảm bảo:
Tính toàn vẹn dữ liệu
Giảm thiểu downtime
Duy trì High Availability
Ổn định hạ tầng ảo hóa production
Ceph replication kết hợp Proxmox HA chính là nền tảng quan trọng để xây dựng hạ tầng ảo hóa doanh nghiệp bền vững và linh hoạt.
Tham khảo thêm bài viết cùng chủ đề
P21 – Hướng Dẫn Tự Động Start và Shutdown VM Proxmox Bằng Cron
P21 – Hướng Dẫn Tự Động Start và Shutdown VM Proxmox Bằng Cron ⏰ Proxmox VE – Hướng Dẫn Tự Động Start và Shutdown VM Bằng Cron (Step-by-Step) Tự động hóa việc khởi động và tắt máy ảo là một kỹ năng quan trọng đối với mọi quản trị viên...
Read MoreP15 – Sao lưu và Khôi phục Máy Ảo Trên Proxmox
P15 – Sao lưu và Khôi phục Máy Ảo Trên Proxmox 🚀 Proxmox VE P15 – Backup và Restore Virtual Machines (Hướng dẫn Full Step-by-Step) Bảo vệ dữ liệu là một trong những trách nhiệm quan trọng nhất của bất kỳ System Administrator nào.Trong Proxmox VE, việc xây dựng chiến...
Read MoreP14 – Hướng Dẫn Remove Cluster Group An Toàn trên Proxmox (Step-by-Step)
Proxmox VE 9 P14: Hướng Dẫn Remove Cluster Group An Toàn trên proxmox (Step-by-Step) 🚀 Proxmox VE 9 – Hướng Dẫn Remove Cluster Group (Step-by-Step) Trong một số tình huống thực tế, bạn có thể cần gỡ bỏ hoàn toàn cấu hình cluster trong Proxmox VE 9, đặc biệt khi:...
Read More