張貼日期:2003/05/29
oz 檔案伺服系統故障處理說明(2003/05/29)
主旨:oz 檔案伺服系統故障處理說明。
說明:一、5月26日早上發現oz 檔案伺服系統的磁碟陣列故障後,
立即連絡設備維護廠商至現場檢修,由於問題無法立刻
排除,維護廠商將磁碟陣列帶回公司檢修。
二、由於無法確定所需的維修時間,為確保電子郵件服務的
進行,所以本組緊急調度設備,重新建置全新的檔案伺
服系統,並已於當日(26日)17:00上線,而故障當時暫
存在前端郵件伺服器的信件也於 27日16:00 前送達新的
系統信箱中。所以,目前使用者帳號中僅存自故障發生
後新的信件。在此感謝提供相關具體測試資料的使用者,
協助新系統的重建。
三、送修的磁碟陣列經維護廠商與設備原廠共同檢修並再三
交替測試,最後確認有三顆硬碟同時發生故障,資料無
法復原。該磁碟陣列基於容量與容錯之考量,所以採用
RAID 5的技術,單一時間可以承受一顆硬碟故障。在絕
大多數的情況下這樣的設計應該沒有問題,但這次的意
外竟然有三顆硬碟同時發生故障,導致資料無法復原,
這種情況廠商表示發生的機率極低,有可能是硬碟老化
所致。
四、對於發生資料無法復原的事情,本組對使用者深表歉意。
由於 oz 帳號的資料量日益龐大,使用磁帶機備份的方式
已不敷使用。經過評估考量, oz 檔案伺服系統於2001年
2月起,採用磁碟陣列做為檔案的儲存與備份系統,希望
能兼顧效能與穩定,不料還是發生了這種出乎意料的不幸
事故。在未來本組將逐年編列經費朝向異地備援的目標規
劃,也希望使用者資料能自行下載備份,以避免非預期的
憾事發生。
--
計算機與通訊中心 網路系統組