TSF – Giải pháp IT toàn diện cho doanh nghiệp SMB | HCM

P26 - Cấu Hình Thay thế Disk bị lỗi Với Ceph HA Proxmox

🚀 Proxmox – P26 Ceph HA Cluster: Thay Thế Ổ Đĩa Bị Lỗi Trên Proxmox (Full Demo)

🔎 Giới thiệu

Trong bài hướng dẫn này, chúng ta sẽ thực hiện quy trình thay thế một ổ đĩa (disk) bị lỗi trong cụm Proxmox 9 Ceph High Availability (HA) một cách an toàn mà không làm gián đoạn các máy ảo đang hoạt động. Lỗi ổ cứng là một trong những sự cố phần cứng phổ biến nhất trong môi trường production, và nếu xử lý không đúng quy trình có thể gây mất dữ liệu hoặc làm cluster mất ổn định.

Ceph được thiết kế với cơ chế replication và self-healing, cho phép tự động phân phối lại dữ liệu khi một OSD hoặc disk gặp sự cố. Tuy nhiên, quản trị viên cần thực hiện đúng các bước remove và replace để đảm bảo tính toàn vẹn dữ liệu.

Trong bài demo này, bạn sẽ học được:

  • Cách xác định OSD bị lỗi trong Ceph

  • Cách kiểm tra disk có thực sự hỏng hay không

  • Cách remove OSD khỏi cluster đúng chuẩn

  • Cách thay disk và tạo OSD mới

  • Cách Ceph tự động rebalance và khôi phục redundancy

  • Best practice khi vận hành Ceph HA trên Proxmox PVE 9

Phù hợp cho quản trị viên hệ thống đang vận hành cluster production và cả anh em xây dựng home lab chuyên sâu về Proxmox & Ceph HA.


🧪 4. Giả Lập 1 Disk Bị Lỗi Trên Node

Trong tình huống này, chúng ta mô phỏng một ổ đĩa bị hỏng trên node pve03zfs.


⚠️ 4.1. Dấu hiệu nhận biết

Giả lập: node pve03zfs bị hỏng 1 ổ cứng.

Bạn sẽ thấy:

  • Ceph báo OSD ở trạng thái down hoặc out

  • Pool vẫn còn dữ liệu, nhưng thiếu 1 bản sao

  • Ceph bắt đầu tự động phân phối lại dữ liệu

Cluster chuyển sang trạng thái degraded nhưng vẫn hoạt động nếu replication factor đủ.


🛠 4.2. Quy trình xử lý sự cố


🔹 Step 1: Xác định OSD bị lỗi

Sử dụng command hoặc GUI để xác định OSD lỗi.

Kiểm tra trạng thái cluster:

 
ceph status

Kiểm tra OSD tree:

 
ceph osd tree

Kiểm tra serial và mapping của disk:

 
ls -l /dev/disk/by-id/

Ví dụ:

  • Disk lỗi: osd.5

  • Mất disk: sdc


🔹 Step 2: Kiểm tra disk có thực sự hỏng không

⚠️ Bước này chỉ áp dụng trong môi trường server vật lý.
Lab chạy VM có thể không phát hiện lỗi phần cứng thực tế.

SSH vào node chứa OSD lỗi (ví dụ: pve03zfs).

Kiểm tra disk còn tồn tại không:

 
lsblk

Kiểm tra SMART:

 
smartctl -a /dev/sdc

Diễn giải kết quả:

  • Không thấy disk → hỏng hoàn toàn

  • SMART báo lỗi → lỗi phần cứng

  • Disk chuyển read-only → hỏng nghiêm trọng

Nếu xác nhận disk hỏng → bắt buộc phải thay thế.


🔹 Step 3: Remove OSD bị lỗi khỏi cluster

Đánh dấu OSD là down:

 
ceph osd down osd.5

Đánh dấu OSD là out:

 
ceph osd out osd.5

Remove khỏi CRUSH map:

 
ceph osd crush remove osd.5

Xóa keyring và entry:

 
ceph auth del osd.5 ceph osd rm osd.5

Sau bước này, Ceph sẽ tự động:

  • Rebalance Placement Groups (PG)

  • Tạo lại replica trên các OSD khỏe mạnh

  • Dần dần đưa cluster về trạng thái ổn định

Đây chính là cơ chế self-healing của Ceph trong Proxmox HA.


🔹 Step 4: Thay thế ổ cứng mới

Tắt server chứa ổ cứng lỗi.

Tiến hành thay disk mới.

Sau đó kiểm tra cấu hình:

 
nano /etc/pve/qemu-server/102.conf serial=DISK07

Đảm bảo hệ thống nhận diện disk mới chính xác trước khi tiếp tục.


🔹 Step 5: Tạo OSD mới trên ổ đĩa mới

Truy cập:

GUI → Ceph → OSD

Tạo OSD mới trên disk vừa thay.

Sau khi tạo xong, Ceph sẽ tự động:

  • Phân phối lại dữ liệu

  • Tái tạo replica theo replication factor

  • Khôi phục đầy đủ redundancy

Không cần thực hiện rebalance thủ công.


⚖️ Quá Trình Phục Hồi & Rebalance

Sau khi thêm OSD mới, theo dõi trạng thái cluster:

 
ceph status

Ban đầu có thể thấy:

  • Trạng thái degraded

  • Active + remapped

  • Recovering PGs

Theo thời gian, Ceph sẽ:

  • Phân đoạn lại dữ liệu

  • Ghi replica mới

  • Đưa cluster về trạng thái HEALTH_OK

Kết quả cuối cùng:

  • OSD lỗi được thay thế

  • Dữ liệu được replicate đầy đủ

  • Cluster trở lại trạng thái ổn định

⏳ Thời gian phục hồi phụ thuộc vào:

  • Hiệu năng ổ đĩa

  • Băng thông mạng

  • Tổng dung lượng dữ liệu

  • Replication factor

Vì đây là môi trường lab sử dụng VM, tốc độ re-segmentation có thể khác so với server production thực tế.

Khi quá trình hoàn tất, trạng thái màu xanh trong Proxmox GUI sẽ được khôi phục hoàn toàn.


✅ Best Practice Khi Thay Disk Trong Ceph HA

Để đảm bảo hệ thống Proxmox Ceph luôn ổn định:

✔ Xác nhận disk hỏng trước khi remove OSD
✔ Luôn mark OSD down & out trước khi xóa
✔ Theo dõi ceph status liên tục
✔ Duy trì replication factor tối thiểu 3
✔ Thay phần cứng sớm để tránh double failure


🏁 Kết luận

Quy trình thay thế disk trong Proxmox 9 Ceph HA Cluster cần thực hiện theo đúng thứ tự:

  1. Xác định OSD lỗi

  2. Kiểm tra tình trạng phần cứng

  3. Mark OSD down & out

  4. Remove khỏi CRUSH và auth

  5. Thay disk mới

  6. Tạo OSD mới

  7. Theo dõi quá trình rebalance

Nếu thực hiện đúng quy trình, bạn sẽ đảm bảo:

  • Không downtime VM (nếu replication đủ)

  • Toàn vẹn dữ liệu

  • Duy trì High Availability

  • Hạ tầng production ổn định và bền vững

Ceph với cơ chế replication và self-healing là nền tảng lưu trữ phân tán mạnh mẽ cho môi trường ảo hóa Proxmox. Việc nắm vững quy trình thay disk sẽ giúp bạn tự tin xử lý sự cố phần cứng trong môi trường thực tế.

Tham khảo thêm bài viết cùng chủ đề

P15 – Sao lưu và Khôi phục Máy Ảo Trên Proxmox

P15 – Sao lưu và Khôi phục Máy Ảo Trên Proxmox 🚀 Proxmox VE P15 – Backup và Restore Virtual Machines (Hướng dẫn Full Step-by-Step) Bảo vệ dữ liệu là một trong những trách nhiệm quan trọng nhất của bất kỳ System Administrator nào.Trong Proxmox VE, việc xây dựng chiến...

Read More