P26 - Cấu Hình Thay thế Disk bị lỗi Với Ceph HA Proxmox

🚀 Proxmox – P26 Ceph HA Cluster: Thay Thế Ổ Đĩa Bị Lỗi Trên Proxmox (Full Demo)

🔎 Giới thiệu

Trong bài hướng dẫn này, chúng ta sẽ thực hiện quy trình thay thế một ổ đĩa (disk) bị lỗi trong cụm Proxmox 9 Ceph High Availability (HA) một cách an toàn mà không làm gián đoạn các máy ảo đang hoạt động. Lỗi ổ cứng là một trong những sự cố phần cứng phổ biến nhất trong môi trường production, và nếu xử lý không đúng quy trình có thể gây mất dữ liệu hoặc làm cluster mất ổn định.

Ceph được thiết kế với cơ chế replication và self-healing, cho phép tự động phân phối lại dữ liệu khi một OSD hoặc disk gặp sự cố. Tuy nhiên, quản trị viên cần thực hiện đúng các bước remove và replace để đảm bảo tính toàn vẹn dữ liệu.

Trong bài demo này, bạn sẽ học được:

Cách xác định OSD bị lỗi trong Ceph
Cách kiểm tra disk có thực sự hỏng hay không
Cách remove OSD khỏi cluster đúng chuẩn
Cách thay disk và tạo OSD mới
Cách Ceph tự động rebalance và khôi phục redundancy
Best practice khi vận hành Ceph HA trên Proxmox PVE 9

Phù hợp cho quản trị viên hệ thống đang vận hành cluster production và cả anh em xây dựng home lab chuyên sâu về Proxmox & Ceph HA.

🧪 4. Giả Lập 1 Disk Bị Lỗi Trên Node

Trong tình huống này, chúng ta mô phỏng một ổ đĩa bị hỏng trên node pve03zfs.

⚠️ 4.1. Dấu hiệu nhận biết

Giả lập: node pve03zfs bị hỏng 1 ổ cứng.

Bạn sẽ thấy:

Ceph báo OSD ở trạng thái down hoặc out
Pool vẫn còn dữ liệu, nhưng thiếu 1 bản sao
Ceph bắt đầu tự động phân phối lại dữ liệu

Cluster chuyển sang trạng thái degraded nhưng vẫn hoạt động nếu replication factor đủ.

🛠 4.2. Quy trình xử lý sự cố

🔹 Step 1: Xác định OSD bị lỗi

Sử dụng command hoặc GUI để xác định OSD lỗi.

Kiểm tra trạng thái cluster:

Kiểm tra OSD tree:

Kiểm tra serial và mapping của disk:

Ví dụ:

Disk lỗi: osd.5
Mất disk: sdc

🔹 Step 2: Kiểm tra disk có thực sự hỏng không

⚠️ Bước này chỉ áp dụng trong môi trường server vật lý.
Lab chạy VM có thể không phát hiện lỗi phần cứng thực tế.

SSH vào node chứa OSD lỗi (ví dụ: pve03zfs).

Kiểm tra disk còn tồn tại không:

Kiểm tra SMART:

Diễn giải kết quả:

Không thấy disk → hỏng hoàn toàn
SMART báo lỗi → lỗi phần cứng
Disk chuyển read-only → hỏng nghiêm trọng

Nếu xác nhận disk hỏng → bắt buộc phải thay thế.

🔹 Step 3: Remove OSD bị lỗi khỏi cluster

Đánh dấu OSD là down:

Đánh dấu OSD là out:

Remove khỏi CRUSH map:

Xóa keyring và entry:

Sau bước này, Ceph sẽ tự động:

Rebalance Placement Groups (PG)
Tạo lại replica trên các OSD khỏe mạnh
Dần dần đưa cluster về trạng thái ổn định

Đây chính là cơ chế self-healing của Ceph trong Proxmox HA.

🔹 Step 4: Thay thế ổ cứng mới

Tắt server chứa ổ cứng lỗi.

Tiến hành thay disk mới.

Sau đó kiểm tra cấu hình:

Đảm bảo hệ thống nhận diện disk mới chính xác trước khi tiếp tục.

🔹 Step 5: Tạo OSD mới trên ổ đĩa mới

Truy cập:

GUI → Ceph → OSD

Tạo OSD mới trên disk vừa thay.

Sau khi tạo xong, Ceph sẽ tự động:

Phân phối lại dữ liệu
Tái tạo replica theo replication factor
Khôi phục đầy đủ redundancy

Không cần thực hiện rebalance thủ công.

⚖️ Quá Trình Phục Hồi & Rebalance

Sau khi thêm OSD mới, theo dõi trạng thái cluster:

Ban đầu có thể thấy:

Trạng thái degraded
Active + remapped
Recovering PGs

Theo thời gian, Ceph sẽ:

Phân đoạn lại dữ liệu
Ghi replica mới
Đưa cluster về trạng thái HEALTH_OK

Kết quả cuối cùng:

OSD lỗi được thay thế
Dữ liệu được replicate đầy đủ
Cluster trở lại trạng thái ổn định

⏳ Thời gian phục hồi phụ thuộc vào:

Hiệu năng ổ đĩa
Băng thông mạng
Tổng dung lượng dữ liệu
Replication factor

Vì đây là môi trường lab sử dụng VM, tốc độ re-segmentation có thể khác so với server production thực tế.

Khi quá trình hoàn tất, trạng thái màu xanh trong Proxmox GUI sẽ được khôi phục hoàn toàn.

✅ Best Practice Khi Thay Disk Trong Ceph HA

Để đảm bảo hệ thống Proxmox Ceph luôn ổn định:

✔ Xác nhận disk hỏng trước khi remove OSD
✔ Luôn mark OSD down & out trước khi xóa
✔ Theo dõi ceph status liên tục
✔ Duy trì replication factor tối thiểu 3
✔ Thay phần cứng sớm để tránh double failure

🏁 Kết luận

Quy trình thay thế disk trong Proxmox 9 Ceph HA Cluster cần thực hiện theo đúng thứ tự:

Xác định OSD lỗi
Kiểm tra tình trạng phần cứng
Mark OSD down & out
Remove khỏi CRUSH và auth
Thay disk mới
Tạo OSD mới
Theo dõi quá trình rebalance

Nếu thực hiện đúng quy trình, bạn sẽ đảm bảo:

Không downtime VM (nếu replication đủ)
Toàn vẹn dữ liệu
Duy trì High Availability
Hạ tầng production ổn định và bền vững

Ceph với cơ chế replication và self-healing là nền tảng lưu trữ phân tán mạnh mẽ cho môi trường ảo hóa Proxmox. Việc nắm vững quy trình thay disk sẽ giúp bạn tự tin xử lý sự cố phần cứng trong môi trường thực tế.

Tham khảo thêm bài viết cùng chủ đề

P21 – Hướng Dẫn Tự Động Start và Shutdown VM Proxmox Bằng Cron

P21 – Hướng Dẫn Tự Động Start và Shutdown VM Proxmox Bằng Cron ⏰ Proxmox VE – Hướng Dẫn Tự Động Start và Shutdown VM Bằng Cron (Step-by-Step) Tự động hóa việc khởi động và tắt máy ảo là một kỹ năng quan trọng đối với mọi quản trị viên...

P15 – Sao lưu và Khôi phục Máy Ảo Trên Proxmox

P15 – Sao lưu và Khôi phục Máy Ảo Trên Proxmox 🚀 Proxmox VE P15 – Backup và Restore Virtual Machines (Hướng dẫn Full Step-by-Step) Bảo vệ dữ liệu là một trong những trách nhiệm quan trọng nhất của bất kỳ System Administrator nào.Trong Proxmox VE, việc xây dựng chiến...

P14 – Hướng Dẫn Remove Cluster Group An Toàn trên Proxmox (Step-by-Step)

Proxmox VE 9 P14: Hướng Dẫn Remove Cluster Group An Toàn trên proxmox (Step-by-Step) 🚀 Proxmox VE 9 – Hướng Dẫn Remove Cluster Group (Step-by-Step) Trong một số tình huống thực tế, bạn có thể cần gỡ bỏ hoàn toàn cấu hình cluster trong Proxmox VE 9, đặc biệt khi:...