張貼日期:2003/05/29

oz 檔案伺服系統故障處理說明(2003/05/29)

主旨:oz 檔案伺服系統故障處理說明。

說明:一、5月26日早上發現oz 檔案伺服系統的磁碟陣列故障後,
          立即連絡設備維護廠商至現場檢修,由於問題無法立刻
          排除,維護廠商將磁碟陣列帶回公司檢修。

      二、由於無法確定所需的維修時間,為確保電子郵件服務的
          進行,所以本組緊急調度設備,重新建置全新的檔案伺
          服系統,並已於當日(26日)17:00上線,而故障當時暫
          存在前端郵件伺服器的信件也於 27日16:00 前送達新的
          系統信箱中。所以,目前使用者帳號中僅存自故障發生
          後新的信件。在此感謝提供相關具體測試資料的使用者,
          協助新系統的重建。

      三、送修的磁碟陣列經維護廠商與設備原廠共同檢修並再三
          交替測試,最後確認有三顆硬碟同時發生故障,資料無
          法復原。該磁碟陣列基於容量與容錯之考量,所以採用 
          RAID 5的技術,單一時間可以承受一顆硬碟故障。在絕
          大多數的情況下這樣的設計應該沒有問題,但這次的意
          外竟然有三顆硬碟同時發生故障,導致資料無法復原,
          這種情況廠商表示發生的機率極低,有可能是硬碟老化
          所致。

      四、對於發生資料無法復原的事情,本組對使用者深表歉意。
          由於 oz 帳號的資料量日益龐大,使用磁帶機備份的方式
          已不敷使用。經過評估考量, oz 檔案伺服系統於2001年
          2月起,採用磁碟陣列做為檔案的儲存與備份系統,希望
          能兼顧效能與穩定,不料還是發生了這種出乎意料的不幸
          事故。在未來本組將逐年編列經費朝向異地備援的目標規
          劃,也希望使用者資料能自行下載備份,以避免非預期的
          憾事發生。

-- 
計算機與通訊中心  網路系統組