91亚洲国产成人久久精品网站精品国产乱码久久夜夜嗨|中文字幕精品一区二区年下载91麻豆自拍视频|国产成人久久一区二区不卡精品久久久久久人妻蜜桃|欧美国产精品久久久久久免费色综合久久久综合|果冻传媒一二三产区|麻豆果冻传媒|夜噜噜久久国产欧美日韩精品|欧美日韩在线精品一区二区|91亚洲精品中文字幕|国产精品亚洲片在线观看不卡,粉嫩高清一区二区三区精品视频av中文字幕亚洲最新 ,色老板中文字幕,欧美午夜精品人妻久久久久久

網(wǎng)站首頁

您現(xiàn)在的位置是:首頁 > 服務(wù)支持 > 公司新聞

公司新聞

如何減少數(shù)據(jù)中心中最嚴(yán)重硬件故障,?

一舟線纜2023-10-25公司新聞
硬件故障在大型數(shù)據(jù)中心和云服務(wù)基礎(chǔ)設(shè)施中非常普遍,這些故障可能導(dǎo)致違反服務(wù)水平協(xié)議(SLA)并造成巨大經(jīng)濟損失,。內(nèi)存故障是當(dāng)今數(shù)據(jù)中心中最嚴(yán)重的硬件故障之一,,眾所周知,它

硬件故障在大型數(shù)據(jù)中心和云服務(wù)基礎(chǔ)設(shè)施中非常普遍,,這些故障可能導(dǎo)致違反服務(wù)水平協(xié)議(SLA)并造成巨大經(jīng)濟損失,。

內(nèi)存故障是當(dāng)今數(shù)據(jù)中心中最嚴(yán)重的硬件故障之一,眾所周知,,它嚴(yán)重影響了系統(tǒng)的可靠性、可用性和可維護性(RAS),。這些故障可能是由超出正常使用范圍的多種因素引起的,,包括制造缺陷以及極端的環(huán)境或操作條件。

雖然普遍接受的技術(shù),,例如,,糾錯碼(ECC)和可糾正錯誤,基于閾值的預(yù)測性故障分析(PFA))可克服雙列直插式內(nèi)存模塊(DIMM)的一些可糾正錯誤,,但它們具有成本,、可靠性、覆蓋范圍和性能方面的影響,。

可糾正錯誤數(shù)量的激增可能導(dǎo)致服務(wù)器性能下降,,甚至導(dǎo)致拒絕服務(wù)。此外,,ECC和基于閾值的可糾正錯誤的PFA不能幫助克服無法糾正的錯誤,,如災(zāi)難性故障通常導(dǎo)致崩潰,。

對于嚴(yán)重依賴服務(wù)器可靠性、可用性和可維護性的組織,,英特爾內(nèi)存故障預(yù)測(Intel MFP)是理想的解決方案,。對于當(dāng)今的數(shù)據(jù)中心而言,提前預(yù)測未來的內(nèi)存故障已變得至關(guān)重要,。通過分析歷史數(shù)據(jù)以預(yù)測潛在的災(zāi)難性事件,,英特爾®MFP可以在內(nèi)存故障事件發(fā)生之前對其進行預(yù)測。

該解決方案具有多項創(chuàng)新和原始功能,。它基于歷史數(shù)據(jù)來預(yù)測行,、列和單元格中的微型故障,并使用低開銷的在線學(xué)習(xí)方法來提高其預(yù)測精度并避免干擾關(guān)鍵的計算任務(wù),。

這也使Intel MFP能夠為主動內(nèi)存故障管理生成估計的內(nèi)存運行狀況評分,,從而使用戶能夠采取相應(yīng)的措施。英特爾MFP與供應(yīng)商無關(guān),,并且可以與其他數(shù)據(jù)中心管理解決方案(包括英特爾數(shù)據(jù)中心管理器(Intel DCM))一起使用,。

將與內(nèi)存故障相關(guān)的服務(wù)器崩潰減少40%

在騰訊的一個案例研究中,英特爾MFP算法的初步協(xié)作測試顯示出快速的結(jié)果,,并將內(nèi)存故障和系統(tǒng)停機時間減少了五倍,。合作伙伴還通過在操作系統(tǒng)級別明智地避免出現(xiàn)內(nèi)存故障,直到更換了該內(nèi)存模塊為止,,從而擴展了此支持,。

在與美團的類似案例研究中,該公司發(fā)現(xiàn)由于內(nèi)存錯誤導(dǎo)致的服務(wù)器崩潰減少了40%,。該公司通過將Intel MFP集成到其現(xiàn)有數(shù)據(jù)中心管理解決方案中,,監(jiān)控了服務(wù)器內(nèi)存模塊的運行狀況。通過分析以前由其數(shù)據(jù)中心管理軟件收集的數(shù)據(jù),,他們能夠為每個DRAM模塊生成預(yù)測分?jǐn)?shù),,然后采取適當(dāng)?shù)拇胧﹣砭S護其SLA并最大化服務(wù)正常運行時間。

借助新功能,,英特爾與全球領(lǐng)先的AMI合作,,通過其BIOS、BMC和安全解決方案為全球互聯(lián)數(shù)字基礎(chǔ)架構(gòu)提供電源,、管理和保護,,并決心將這種支持?jǐn)U展到整個行業(yè)。

因為捕獲和分析內(nèi)存錯誤需要UEFI和BMC固件之間緊密的聯(lián)系,,所以AMI致力于使Intel MFP易于被現(xiàn)有和將來的服務(wù)器平臺采用,。

捕獲錯誤后,它們將由BIOS記錄,,然后某些元數(shù)據(jù)信息將傳遞到BMC固件,。然后,,BMC固件將獲取此元數(shù)據(jù),并通過Intel MFP引擎運行,,以計算內(nèi)存模塊的運行狀況得分,。當(dāng)檢測到新的錯誤時,AMI解決方案將跟蹤每個內(nèi)存模塊的運行狀況評分,,并公開結(jié)果供系統(tǒng)管理員進行分析,。

AMI的默認(rèn)實現(xiàn)在BUI的Web UI中提供當(dāng)前的內(nèi)存模塊運行狀況得分信息,并通過遵循DMTF Redfish標(biāo)準(zhǔn)的RESTful API公開相同的內(nèi)存運行狀況得分信息,。

RESTful API可輕松與現(xiàn)有數(shù)據(jù)中心管理軟件集成,。但是,對于那些不太愿意與自己的軟件集成的數(shù)據(jù)中心,,AMI提供了一個稱為AMI Composer的數(shù)據(jù)管理工具,,該工具開發(fā)為完全符合Intel Rack Scale Design和DMTF Redfish標(biāo)準(zhǔn),它將匯總所有信息并通過一個基于Web的儀表板,。

為數(shù)據(jù)中心和云服務(wù)提供商帶來的直接好處

當(dāng)然,,在創(chuàng)建機器學(xué)習(xí)算法時,它實際上永遠不會完成,。當(dāng)前的Intel MFP模型支持在具有Intel Xeon可擴展處理器的平臺上運行的DDR4內(nèi)存模塊,,并且Intel繼續(xù)收集有關(guān)內(nèi)存錯誤和內(nèi)存模塊故障的更多信息,以改進模型,。

此外,,當(dāng)新的內(nèi)存模塊類型引入行業(yè)或?qū)ΜF(xiàn)有技術(shù)進行改進時,英特爾®MFP將為它們提供支持,。

最重要的是,,將對所有更新進行適當(dāng)?shù)姆治鲆园贛FP模型中,以便在英特爾更新MFP模型時,,AMI將為提供給行業(yè)合作伙伴的現(xiàn)有技術(shù)提供易于實現(xiàn)的更新,。

對于數(shù)據(jù)中心和云服務(wù)提供商而言,在Aptio V UEFI固件和MegaRAC BMC固件中添加Intel MFP支持的好處顯而易見,。改進了數(shù)據(jù)中心SLA。通過主動的內(nèi)存運行狀況評估和增強的內(nèi)存頁面脫機策略,,可以降低DIMM故障率,。

而且,最重要的是,,更高的DIMM性能和可靠性可優(yōu)化工作負(fù)載和虛擬機(VM)遷移決策,,從而提高效率和靈活性,同時降低總擁有成本,。

對于希望在配備AMI Aptio V UEFI BIOS和MegaRAC BMC固件的系統(tǒng)上利用英特爾MFP的公司,,建議他們要求其系統(tǒng)制造商將AMI連同用于MegaRAC BMC固件的帶有Intel MFP選件包的AMI和具有英特爾內(nèi)存故障預(yù)測功能的AMI一起包括在內(nèi),。適用于Aptio UEFI固件的eModule。

資訊評論