作為IT人,親朋戚友的電腦維護多會落在IT人 -- 即自己身上,其中最怕的莫過於資料出事。就在前幾天,親戚的外置硬碟出事了。
是我的錯! 十多年前送了一部桌面PC給親戚,因為親戚有不少相片影片,所以就買了一部W廠的1TB外置硬碟,還建議親戚把不常用的資料轉移過去,幾年後因爆滿所以再買一隻。舊的那一隻就這樣放著很少使用。早前因為朋友的硬碟出事幫忙救回資料(又是W廠),於是叫親戚啟動一下那一隻被遺忘的外置硬碟,順便也檢查一下,誰知一接上電腦就沒反應(慌了)。。。只能拿過來詳細檢查一番。
我竟然冇建議半年檢查一次! 我竟然忘記建議做備份!罪過,罪過!
Windows 10 下無反應,NAS OK?
不知是不是Windows 10太優秀(是真的優秀,我猜它背地裡做了不少檢查),出問題的硬碟一接上去就卡死,檔案管理員,磁碟管理員,就連SMART軟體也是卡死的(斷開就回復正常)。情況跟親戚家一樣。再查看Windows 事件紀錄便發現硬碟有壞磁區。
沒法子唯有使用NAS的外置儲存裝置連接,Yo! 竟然運作正常!? 可惜 QNAP NAS沒有提供給外置儲存裝置的SMART檢查,所以不知道問題出在那裡。既然可以讀取硬碟當然立即備份吧。
心急就出事
備份看來正常但就是慢,計算了抄寫速度後,估計1TB要花連續8日時間(正常情況下的桌上機用硬盤,經SATA2 或 USB3 傳送約100-120MB/s,USB2只有30-40MB/s)。看看手上有一部eSATA硬碟盒而NAS又可接eSATA,不如拆開MyBook直接經eSATA抄寫,只花不到1天豈不是更快? 心動不如立刻動!結果...當然悲劇了。
可能因為MyBook本身提供硬體加密(在USB-SATA的小板子),我直接接入後完全掛不上、看不到檔案、目錄。從NAS中跑個 TestDisk工具也看不到任何分割區(心想真的GG了)。
好吧,rollback - 接回USB-SATA板子,TestDisk工具看到分割區了,看似正常。再到NAS控制台但今次出現錯誤不能使用。再用 TestDisk工具嘗試讀取檔案,跟上一次不同根目錄亂了,備份分割表異常。
最後的急救手段
經過不斷嘗試,最後只能在NAS中用TestDisk工具(Photo Recovery工具)抽取檔案,成功抽取不足800GB檔案,不知道有多少檔案失去。抽取出來的檔案也沒有原本的目錄和檔名,但總比什麼都沒有的好吧。
最終用了4至5天時間取出檔案(起初計算時為11天,可能壞區集中在前頭導致不斷重讀減慢)。
事後檢討
完成急救後為了找出原因所以在NAS格式化硬盤以便可以在Windows下進行檢查(結果也真的可以在Windows下使用,不卡了)。
先來用SMART軟體(Acronis Drive Monitor 和 CrystalDiskInfo)檢查:
使用 Data lifeguard diagnostic 工具執行SMART self test。可惜結果FAIL:
從網上得知這個情況屬有壞軌問題,不建議繼續使用。
要說死因嘛,就是死區啦,死區(應該叫壞區 / bad sector 呢)! 明明就安裝了W廠的管理軟體怎麼來個突然死亡(給她一個嬲嬲)。
據我估計,就算原本不換連接方法結果也可能差不遠,或者MFT區域本身就有問題啦,抄寫一段時間後都會失敗... OK,當成安慰一下自己吧。
盡人事
通常我會盡力嘗試看看裏有沒有什麼可以「活用」它以免浪費。其實這段時間我也有一隻同廠的1.5TB 出問題,情況十分相似。兩者都是 "Current Pending Sector Count " 值太高,SMART Test 也Fail。
為了試一下回復 "Current Pending Sector Count",所以用Data lifeguard diagnostic 工具執行一次Fill Zero / Erase。結果1.5TB的硬碟回復正常(當然不會再用來存重要資料),MyBook 1TB就不行了,可以正式 Certified。
有關 S.M.A.R.T. 的 Health status (健康情況)
S.M.A.R.T (我習慣用 SMART) 在WIKI中的定義是:
S.M.A.R.T.,全稱為「Self-Monitoring Analysis and Reporting Technology」,即「自我監測、分析及報告技術」,是一種自動的硬碟狀態檢測與預警系統和規範。通過在硬碟硬件內的檢測指令對硬碟的硬件如磁頭、盤片、馬達、電路的執行情況進行監控、記錄並與廠商所設定的預設安全值進行比較,若監控情況將或已超出預設安全值的安全範圍,就可以通過主機的監控硬件或軟件自動向用戶作出警告並進行輕微的自動修復,以提前保障硬碟數據的安全。除一些出廠時間極早的硬碟外,現在大部分硬碟均配備該項技術。
現在不少電腦、NAS也會自帶SMART警示系統,沒有的話下載一個免費軟件也可(我推薦 CrytstalDiskInfo 和 Acronis Drive Monitor),平常留意S.M.A.R.T. 的健康情況就可以及早應對(否則就像我一樣)。
但要留意一件事(或者說今次發現了),不同的軟件對Health status (健康情況)也有不同的計算方式,當中有某隻軟件會認為我出問題的硬碟為「健康」,所以大家盡可能了解不同的S.M.A.R.T.訊息,而非單靠Health status (健康情況)。
總結
其實硬碟有壞區(bad sector)是常見的,硬碟本身有方法記錄壞區並排除不使用。"Current Pending Sector Count"就是硬碟己得知有壞區並等待處理。如果處理後並排除掉,理論上是可以繼續使用。只不過出廠後出現壞區,很時就像細菌般不斷滋生,資料就可能消失了。所以SMART出現警告時,一般建議要盡快備份及更換硬碟。
本來,硬碟並非為長時間儲存而設計,就算本身沒有故障,硬碟裡的磁性儲存媒介會因時間而續漸衰減最終令資料流失。如果真的選擇用硬碟為長時間儲存,真的要做好預防措施(日後會寫一篇關於家用數據保存方案)。重要的資料要有備份!