24h購物| | PChome| 登入
2009-10-09 21:51:27| 人氣3,051| 回應0 | 上一篇 | 下一篇

Google:電腦記憶體比預期中更脆弱

推薦 0 收藏 0 轉貼0 訂閱站台

你曾經納悶你的電腦為何又當機了嗎?罪魁禍首可能是你的記憶體。Google的實地研究發現,記憶體出錯的比率遠高於之前的估計。

利用各地資料中心的數十萬台電腦,Google得以收集關於主機實際運作情況的豐富資料。而該公司發現,記憶體出錯的比率高得驚人。

由多倫多大學教授Bianca Schroeder與Google員工Eduardo Pinheiro和Wolf-Dietrich Weber共同執筆的研究報告指出:「我們發現不同DIMMs(雙直列記憶體模組)的記憶體錯誤的發生率和出錯的範圍,都比之前的報告高許多。…記憶體錯 誤並非罕見的情況。」

若某個記憶體模組曾經在最近一個月發生可復原性的錯誤,則發生無法復原的記憶體錯誤機率會跟著上升,有些情況會高達431%。

究竟有多少錯誤?平均來說,Google的伺服器每年約有三分之一會發生可復原性的記憶體錯誤,而無法復原的錯誤發生率約為百分之一,而這種情況通常會造成當機。

一年四千次

聽起來不像很嚴重的問題,但請注意:每一個記憶體模組,平均每年發生近4,000次可復原性錯誤。而不同於你的PC,Google的伺服器使用錯誤矯正碼 (ECC),可準確地挑撿出那些錯誤。Envisioneering Group分析師Peter Glaskowsky表示,那代表在Google主機上的可復原性錯誤,在你的電腦上極可能是無法復原的錯誤。

該報告指出,ECC可偵測記憶體儲存的錯誤,而Google也使用一些高階的錯誤校正技術,稱為chipkill。該研究測量大多數Google的伺服器,收集近兩年半的資料,是第一個規模如此龐大的研究。

之前的研究,如300台電腦叢集的資料,顯示記憶體模組的可復原性錯誤率是每10億小時200次到5,000次。但Google發現的比率是每10億小時2.5萬次至7.5萬次。

Glaskowsky表示,雖然記憶體錯誤可造成嚴重問題,它們在PC的嚴重性遠低於在伺服器。那是因為伺服器儲存大量資料在記憶體,僅偶爾將資料寫入相對安全的硬碟。而大多數的PC記憶體只存有應用軟體,或作業系統檔案,或是一些被瀏覽但並未編輯過的內容。

Glaskowsky說:「多數的消費者PC不會在記憶體內操作大量資料。許多情況只是用來瀏覽。」

但這項研究的結果,已促使Google重新思考其軟體途徑。Google Chrome程式設計師John Abd-El-Malek認為,該瀏覽器的資料庫碼可分拆成獨立於其他瀏覽器程式碼的程序,以減少損壞問題。

他寫道:「即使當中只有小部分有害,散佈到數百萬使用者的電腦,即構成很大的損害。」他並未說服至少某些同事,但一位質疑者,Scott Hess回應:「我可以理解(這種作法)對於最小化SQLite儲存在記憶體的資料,如何產生助益,不論SQLite存在何處。」

其他迷思的破解

該報告也挑戰其他若干有關記憶體的既有觀念:

‧ 溫度沒有太大影響。

高溫通常造成更高的錯誤率,但Google資料中心的溫度差異,「對記憶體錯誤發生率,只有微小的影響。」然而,與溫度息息相關的系統利用率,確實會造成更多錯誤。

「硬錯誤」較「軟錯誤」更普遍

硬錯誤,也就是無法修復的硬體瑕疵,比短暫的軟錯誤更常見。作者寫道,這項發現有趣的地方,「在於之前的研究一直假設軟錯誤是DRAM錯誤的主要形式」。

‧ 新世代的記憶體模組,如DDR2,不比舊型的產品差。

有人擔心較新的記憶體模組,將電子元件緊密封裝,會造成更高的錯誤率。作者寫道:「事實上,用在三個最新平台的DIMMs,可復原性錯誤率反而低於另兩個較舊的平台,僅管其DIMM容量普遍較高。…這顯示技術的改進能夠跟上DIMM擴充的敵對趨勢。」

研究人員得到這個結論的部分原因,是證據顯示,從一個記憶模組的某項錯誤,可以預知另一項錯誤的發生(不論可復原或不可復原)。更糟的是,錯誤率會隨著時間 上升:「我們看到時間對錯誤率的一種驚人的強烈、初期效應。實際運作的主機,在上線僅僅10到18個月後,便出現可復原錯誤率上升的老化現象。」

Google 會替換經常出錯的記憶體模組,但一般電腦使用者沒有EEC為他們抓錯。在古早的個人運算時代和1990年代,記憶體的不可靠程度,曾讓大家必須進行可靠度 測試。但那些測試可能要重出江湖了,或者內建到作業系統軟體。Glaskowsky說:「如果錯誤率夠高,可能會有人主張重新採行記憶體測試。」

台長: 〥芹蟹麵〥
人氣(3,051) | 回應(0)| 推薦 (0)| 收藏 (0)| 轉寄
全站分類: 數位資訊(科技、網路、通訊、家電)

是 (若未登入"個人新聞台帳號"則看不到回覆唷!)
* 請輸入識別碼:
請輸入圖片中算式的結果(可能為0) 
(有*為必填)
TOP
詳全文