張貼日期:2003/05/29
oz 檔案伺服系統故障處理說明(2003/05/29)
主旨:oz 檔案伺服系統故障處理說明。 說明:一、5月26日早上發現oz 檔案伺服系統的磁碟陣列故障後, 立即連絡設備維護廠商至現場檢修,由於問題無法立刻 排除,維護廠商將磁碟陣列帶回公司檢修。 二、由於無法確定所需的維修時間,為確保電子郵件服務的 進行,所以本組緊急調度設備,重新建置全新的檔案伺 服系統,並已於當日(26日)17:00上線,而故障當時暫 存在前端郵件伺服器的信件也於 27日16:00 前送達新的 系統信箱中。所以,目前使用者帳號中僅存自故障發生 後新的信件。在此感謝提供相關具體測試資料的使用者, 協助新系統的重建。 三、送修的磁碟陣列經維護廠商與設備原廠共同檢修並再三 交替測試,最後確認有三顆硬碟同時發生故障,資料無 法復原。該磁碟陣列基於容量與容錯之考量,所以採用 RAID 5的技術,單一時間可以承受一顆硬碟故障。在絕 大多數的情況下這樣的設計應該沒有問題,但這次的意 外竟然有三顆硬碟同時發生故障,導致資料無法復原, 這種情況廠商表示發生的機率極低,有可能是硬碟老化 所致。 四、對於發生資料無法復原的事情,本組對使用者深表歉意。 由於 oz 帳號的資料量日益龐大,使用磁帶機備份的方式 已不敷使用。經過評估考量, oz 檔案伺服系統於2001年 2月起,採用磁碟陣列做為檔案的儲存與備份系統,希望 能兼顧效能與穩定,不料還是發生了這種出乎意料的不幸 事故。在未來本組將逐年編列經費朝向異地備援的目標規 劃,也希望使用者資料能自行下載備份,以避免非預期的 憾事發生。 -- 計算機與通訊中心 網路系統組