P25 - Ceph HA trên Proxmox | Thay thế node bị lỗi

🚀 Proxmox – P25 Ceph HA Cluster: Thay Thế Node Bị Lỗi Trên Proxmox (Full Demo)

🔎 Giới thiệu

Trong bài hướng dẫn này, chúng ta sẽ thực hiện thay thế một node bị lỗi trong cụm Proxmox Ceph High Availability (HA) theo từng bước chi tiết và an toàn. Khi một node Proxmox gặp sự cố hoặc bị mất kết nối, cluster Ceph có thể chuyển sang trạng thái degraded. Tuy nhiên, nhờ cơ chế replication của Ceph và HA của Proxmox, các máy ảo (VM) vẫn có thể tiếp tục hoạt động nếu hệ thống được cấu hình đúng.

Bài viết này sẽ giúp bạn:

Xóa node chết khỏi cluster đúng cách
Loại bỏ MON và OSD khỏi Ceph an toàn
Cập nhật CRUSH map chính xác
Thêm node thay thế vào cluster
Cài đặt lại Ceph trên node mới
Theo dõi quá trình rebalance dữ liệu
Khôi phục đầy đủ chức năng HA

Phù hợp cho quản trị viên hệ thống đang vận hành môi trường production và cả anh em lab tại nhà muốn nâng cao kỹ năng Proxmox PVE 9 + Ceph HA.

🧪 5. Giả Lập Node Bị Lỗi

Do điều kiện lab hạn chế, các VM được dựng để test chạy khá chậm.
Mục tiêu chính của demo là minh họa rõ từng bước xử lý thay thế node.

Trong môi trường thực tế, server vật lý chạy Proxmox sẽ có hiệu năng cao hơn nhiều.

⚠️ 5.1. Dấu hiệu nhận biết

Khi node pve01zfs bị lỗi:

Nhiều OSD trên node đó chuyển sang trạng thái down
Ceph báo OSD ở trạng thái down/out
Nếu replication factor đủ (ví dụ: 3), VM vẫn chạy trên các node còn lại
Cluster chuyển sang trạng thái degraded

🛠 5.2. Quy trình xử lý sự cố

🔹 Step 1: Xóa node bị lỗi khỏi cluster

Thực hiện xóa node:

Xóa file cấu hình còn sót lại:

🔹 Step 2: Gỡ MON pve01 khỏi Ceph

Đầu tiên đánh dấu MON là down:

Sau đó xóa MON:

Lệnh này sẽ loại bỏ hoàn toàn dịch vụ MON khỏi cụm Ceph.

🔹 Step 3: Xóa OSD pve01zfs

Kiểm tra OSD:

Ví dụ:

osd.0
osd.1

Đánh dấu OSD là down:

Đánh dấu OSD là out:

Xóa khỏi CRUSH map:

Xóa authentication:

Xóa OSD khỏi Ceph hoàn toàn:

🔹 Step 4: Xóa host khỏi CRUSH Map

Chạy đúng một lệnh:

Nếu không chắc hostname:

Sau đó restart các service Ceph trên 2 node còn lại.

Ceph sẽ tự động phân phối lại dữ liệu sang các OSD còn hoạt động.
Tốc độ nhanh hay chậm phụ thuộc vào hiệu năng disk và network.
(Lab chắc chắn sẽ chậm 😄)

🆕 Step 5: Chuẩn bị node thay thế (pve04zfs)

Chỉnh serial disk:

Disable enterprise repository.

Cấu hình IP cùng lớp mạng với pve02 và pve03.

Chỉnh file hosts:

Kiểm tra disk:

🔗 Step 6: Join pve04 vào cluster

💾 Step 7: Cài đặt Ceph trên node mới (pve04)

Thực hiện trên GUI của node pve04:

Ceph → Install Ceph
Chọn cùng version với 2 node còn lại
Reboot nếu hệ thống yêu cầu

Sau đó thêm service:

➤ Thêm MON + MGR

Ceph → Monitor → Add
Ceph → Manager → Add

➤ Thêm OSD

Ceph → OSD → Create OSD
Chọn /dev/sdb hoặc disk trống
Lặp lại đến khi đủ số OSD mong muốn

⚖️ Step 8: Rebalance Ceph

Khi node mới tham gia, Ceph sẽ tự động rebalance dữ liệu.

Kiểm tra trạng thái:

Trạng thái tốt:

Lưu ý:

Vì lab sử dụng server nhỏ để giả lập 3 node, bạn có thể thấy cảnh báo:

slow IO
BlueStore slow operations

Quá trình ghi dữ liệu sang disk mới sẽ mất thời gian tùy theo hiệu năng phần cứng.

Trạng thái degraded sẽ giảm dần cho đến khi cluster đạt trạng thái active + clean.

🏷 Step 9: Thêm node mới vào HA group

Truy cập:

Datacenter → HA → Groups → Chọn Group → Add pve04

Lúc này HA có thể sử dụng node mới để chạy VM khi xảy ra failover.

✅ Kết luận

Việc thay thế node lỗi trong Proxmox Ceph HA Cluster cần thực hiện đúng thứ tự:

Xóa node khỏi cluster
Gỡ MON và OSD
Cập nhật CRUSH map
Thêm node thay thế
Cài lại Ceph
Theo dõi rebalance
Cấu hình lại HA

Nếu thực hiện đúng quy trình, bạn có thể đảm bảo:

Tính toàn vẹn dữ liệu
Giảm thiểu downtime
Duy trì High Availability
Ổn định hạ tầng ảo hóa production

Ceph replication kết hợp Proxmox HA chính là nền tảng quan trọng để xây dựng hạ tầng ảo hóa doanh nghiệp bền vững và linh hoạt.

Tham khảo thêm bài viết cùng chủ đề

P21 – Hướng Dẫn Tự Động Start và Shutdown VM Proxmox Bằng Cron

P21 – Hướng Dẫn Tự Động Start và Shutdown VM Proxmox Bằng Cron ⏰ Proxmox VE – Hướng Dẫn Tự Động Start và Shutdown VM Bằng Cron (Step-by-Step) Tự động hóa việc khởi động và tắt máy ảo là một kỹ năng quan trọng đối với mọi quản trị viên...

P15 – Sao lưu và Khôi phục Máy Ảo Trên Proxmox

P15 – Sao lưu và Khôi phục Máy Ảo Trên Proxmox 🚀 Proxmox VE P15 – Backup và Restore Virtual Machines (Hướng dẫn Full Step-by-Step) Bảo vệ dữ liệu là một trong những trách nhiệm quan trọng nhất của bất kỳ System Administrator nào.Trong Proxmox VE, việc xây dựng chiến...

P14 – Hướng Dẫn Remove Cluster Group An Toàn trên Proxmox (Step-by-Step)

Proxmox VE 9 P14: Hướng Dẫn Remove Cluster Group An Toàn trên proxmox (Step-by-Step) 🚀 Proxmox VE 9 – Hướng Dẫn Remove Cluster Group (Step-by-Step) Trong một số tình huống thực tế, bạn có thể cần gỡ bỏ hoàn toàn cấu hình cluster trong Proxmox VE 9, đặc biệt khi:...