數(shù)據(jù)中心存儲TCO模型
概述
總擁有成本 (TCO) 提供了一種通過計算與購買和運(yùn)行 IT 設(shè)備相關(guān)的所有成本來了解客戶如何做出購買決策的方法。不同客戶的業(yè)務(wù)目標(biāo)和購買標(biāo)準(zhǔn)差異很大,因此,一刀切的總體擁有成本模型并不足以滿足所有存儲工作負(fù)載。我們通過檢查存儲的資本支出 (CapEx) 以及典型數(shù)據(jù)中心機(jī)架中通常主導(dǎo) IT 預(yù)算的所有其他內(nèi)容,以及由電源、冷卻和設(shè)備故障成本主導(dǎo)的模型運(yùn)營支出 (OpEx),定義了非常適合存儲的 TCO 模型。這對于對比專門面向持久存儲的產(chǎn)品和解決方案非常有用。
總體擁有成本模型有哪些內(nèi)容
數(shù)據(jù)中心的總擁有成本分為資本支出 (CapEx) 和運(yùn)營支出 (OpEx)。資本支出通常受數(shù)據(jù)中心內(nèi)的限制,可能包括硬件采購(計算,網(wǎng)絡(luò)和存儲)的價格,要管理的IT設(shè)備,軟件和操作系統(tǒng)以及安裝費(fèi)用。數(shù)據(jù)中心本身的資本支出(包括建筑、房產(chǎn)、政府、稅收、其他費(fèi)用)和業(yè)務(wù)增長因公司而異。當(dāng)前的 TCO 模型將數(shù)據(jù)中心資本支出作為以“機(jī)柜費(fèi)用/年”(Rack Cost per Year)的一項固定支出。運(yùn)營支出包括能耗、設(shè)備折舊、維護(hù)、維修、IT 軟件許可和數(shù)據(jù)中心員工成本。
有效容量(Effective capacity)被標(biāo)記為 “TBe”(terabytes effective)。這是復(fù)制、容量利用率和數(shù)據(jù)縮減(壓縮、重復(fù)數(shù)據(jù)刪除等)后的實際可用存儲空間。由于原始存儲的整個資本支出成倍增加,這對總體擁有成本產(chǎn)生了巨大影響。企業(yè)存儲、全閃存陣列和其他公司在考慮存儲的成本/TB(cost / TB) 時,通常會公布有效容量。
總體擁有成本 TCO 指標(biāo)
在對存儲的總體擁有成本進(jìn)行建模時,有許多指標(biāo)可能很重要,包括總體系統(tǒng)級性能、耐用性和總?cè)萘俊4四P椭饕P(guān)注 TCO $ / TBe / 機(jī)架 /月的 TCO。大型和小型數(shù)據(jù)中心都以此作為參考,以比較當(dāng)前部署與未來部署,這些部署僅針對存儲持久存儲進(jìn)行了優(yōu)化。TCO 由每個 TBe 的資本支出組成,該資本支出采用所有 IT 硬件和機(jī)架的總成本,并將它們與存儲的總成本相加,并在有效容量總量中攤銷這些成本。運(yùn)營支出由電源、冷卻和驅(qū)動器故障組成,并且在每個機(jī)架的有效容量范圍內(nèi)攤銷類似。此模型不包括軟件許可成本,但如果需要,可以輕松將其添加到機(jī)架配置成本中的任何靜態(tài)字段中。
對機(jī)架配置進(jìn)行建模
模型中的機(jī)架輸入有兩列,分別表示一個 HDD 配置和一個 SSD 配置,以便進(jìn)行有用的比較。每個 JBOD 的驅(qū)動器總數(shù)、每個服務(wù)器的驅(qū)動器總數(shù)以及每個機(jī)架的 JBOD 和服務(wù)器決定了每個機(jī)架的總?cè)萘浚?TB 或 PB 原始容量表示。此機(jī)架將機(jī)架中用于 TCO 計算的非存儲組件的總空間和總功率相加。由于數(shù)據(jù)中心機(jī)架具有各種功率、重量和空間配置,因此模型中不應(yīng)用任意約束。對于該型號的標(biāo)準(zhǔn)用戶,可以假設(shè)標(biāo)準(zhǔn)機(jī)架具有42U的空間和大約12kW的功率。
驅(qū)動器
該模型分為硬盤驅(qū)動器 (HDD) 驅(qū)動器和固態(tài)驅(qū)動器 (SSD) 輸入。這些對應(yīng)于每個設(shè)置的機(jī)架配置。驅(qū)動器的容量、活動和空閑功率規(guī)格(與占空比一起用于估計總功耗)、年故障率(以 % 為單位)(型號驅(qū)動器故障和更換成本)以及以平均價格 (ASP) 為單位的成本(需要匹配)需要輸入。
工作負(fù)載
驅(qū)動器性能對TCO的影響
SSD當(dāng)然比HDD快得多,因此在嘗試實現(xiàn)特定的SLA或IOPS數(shù)量時,查看應(yīng)用程序性能驅(qū)動的TCO模型很可能會偏向于SSD。TCO 模型中可對輸出產(chǎn)生重大影響的工作負(fù)載輸入包括容量利用率因子、錯誤編碼因子、多工作負(fù)載復(fù)制因子和數(shù)據(jù)縮減技術(shù)。
性能乘數(shù)(Performance multiplier)是 SSD 相對于 HDD 在性能或 QoS 方面的優(yōu)勢,表示為達(dá)到特定 IOPS、QoS 或帶寬所需的 HDD 乘數(shù),并且是表達(dá)設(shè)備之間應(yīng)用程序性能差異的更簡單方法。當(dāng)更頻繁地訪問數(shù)據(jù)時,所需的 IOPS/TB 量會增加。復(fù)制架構(gòu)(下面介紹)也可能影響性能,因此請注意不要雙倍下降,因為這是模型中的乘數(shù)。
容量利用率(Capacity Utilization)是指在總可用容量中所用的總存儲設(shè)備中所占的百分比。通常,由于已滿時對性能的影響,驅(qū)動器會留下一些可用空間,并確保為傳入數(shù)據(jù)提供足夠的可用容量。
錯誤編碼/復(fù)制(Error encoding / replication)考慮了復(fù)制和數(shù)據(jù)保護(hù)模式,如RAID或糾刪碼。例如,鏡像數(shù)據(jù)將產(chǎn)生系數(shù) 2,三重復(fù)制將產(chǎn)生 3。SSD通常比HDD具有優(yōu)勢,因為它具有可靠性,重建性能和耐用性,可以降低開銷并具有相同或更好的數(shù)據(jù)持久性。包含一個參考選項卡,用于顯示 RAID 5、RAID 6 和糾刪碼的常見開銷。
數(shù)據(jù)縮減率(Data Reduction Ratio)是按百分比的縮減率,是存儲的主機(jī)數(shù)據(jù)與所需物理存儲的比率。例如,50% 的比率相當(dāng)于 2:1 的數(shù)據(jù)縮減比例。由于數(shù)據(jù)縮減允許用戶存儲比物理硬件上更多的數(shù)據(jù),因此最終的有效容量會增加。壓縮、重復(fù)數(shù)據(jù)刪除等技術(shù)可以大大減少滿足"可用容量"要求所需的原始容量。與HDD相比,SSD在使用現(xiàn)代算法進(jìn)行壓縮方面具有優(yōu)勢,并且由于性能更高(IOPS和帶寬)而減輕了負(fù)載。這在很大程度上取決于數(shù)據(jù)的性能和訪問頻率,以及壓縮發(fā)生的位置(超出此模型的范圍)。雖然壓縮率取決于算法,而不是存儲設(shè)備類型,但壓縮和解壓縮速度將受到磁盤訪問速度 (IOPS) 的限制。對于全閃存陣列的行業(yè)領(lǐng)導(dǎo)者來說,數(shù)據(jù)縮減是他們在定制軟件中的附加值,他們經(jīng)常引用全閃存來實現(xiàn)高水平的DRR,同時提供高性能。
另一個例子是VMware vSAN,其中壓縮和重復(fù)數(shù)據(jù)刪除僅在全閃存配置中提供。現(xiàn)代壓縮算法,例如,來自Facebook的ZStandard,可以實現(xiàn)比HDD讀/寫快得多的壓縮和解壓縮速度,從而允許在SSD上實時使用算法。它還為閃存提供了好處,通過字典文件具有小文件可壓縮性,可顯著提高數(shù)據(jù)庫壓縮性能。PCIe 加速器、FPGA、卸載和英特爾®快速輔助技術(shù)通常用于執(zhí)行實時加密、壓縮和重復(fù)數(shù)據(jù)刪除,由于需要實時要求和高吞吐量,高性能 NVMe 固態(tài)盤具有巨大的優(yōu)勢。
占空比(Duty Cycle)是驅(qū)動器在部署期間處于活動狀態(tài)的時間百分比。這僅用于有源和空閑功率假設(shè)。在頻繁訪問的熱存儲或溫存儲中,延遲很重要,設(shè)備永遠(yuǎn)不會降速或進(jìn)入接近零的空閑電源狀態(tài)。在訪問頻率低得多的較冷或歸檔存儲中,可以使用較低的空閑電源設(shè)置。
運(yùn)營支出
功耗(Power)是數(shù)據(jù)中心運(yùn)營支出的最大驅(qū)動因素之一。電源也是機(jī)架設(shè)計和管理方式的主要制約因素。模型中電源的運(yùn)營支出是通過對機(jī)架中 IT 設(shè)備(服務(wù)器、交換機(jī)、JBOD 等)的功耗和存儲的總功耗求和來計算的。存儲的功耗使用占空比進(jìn)行建模,該占空比指示設(shè)備處于空閑狀態(tài)與活動狀態(tài)的頻率,并估計部署期間消耗的總能量。計算總耗電量后,能耗(以千瓦時為單位)和成本將使用以美元/千瓦時為單位的固定常數(shù)計算,并計算數(shù)據(jù)中心 PUE。PUE被定義為數(shù)據(jù)中心總能耗與同一時期計算,測量或評估的信息技術(shù)設(shè)備能耗的比率。在效率較低的數(shù)據(jù)中心中,與PUE非常低且通常從可再生能源消耗大量能源的超大規(guī)模數(shù)據(jù)中心相比,通常使用較大的PUE。
冷卻成本(Cooling costs)—— 典型的數(shù)據(jù)中心在冷卻成本上花費(fèi)了大量的運(yùn)營支出。該模型只是假設(shè)冷卻成本內(nèi)置于IT設(shè)備(風(fēng)扇,液體冷卻等)中,而不是從數(shù)據(jù)中心級別查看它。如果給定機(jī)架電源的冷卻成本是已知且固定的,則可以將其添加到機(jī)架部分中,以在給定的存儲容量上攤銷固定數(shù)據(jù)中心成本。
部署大量存儲時,驅(qū)動器故障(Drive failures)是不可避免的。設(shè)備制造商通常以MTBF(平均故障間隔時間)或AFR(年度故障率)列出其故障率。這些在數(shù)學(xué)上是相關(guān)的,用MTBF = 1 / AFR * 365 * 24表示。眾所周知,SSD的故障率低于HDD,因為它們沒有移動部件,并且不易受到機(jī)械磨損。SSD故障是眾所周知的,并且具有與HDD完全不同的故障機(jī)制。HDD故障通常超過供應(yīng)商列出的故障,獨(dú)立研究表明,在過去7年的部署中,平均AFR為1.58%。在非理想條件下,在高溫、潮濕或超過硬盤額定工作負(fù)載(類似于固態(tài)硬盤的耐久性)時,硬盤故障接近 4% AFR。
該模型計算來自機(jī)架輸入的驅(qū)動器總數(shù),并找到我乘以部署項的驅(qū)動器小時數(shù)總數(shù)。然后,將其除以以小時為單位的 MTBF,以估計部署期限內(nèi)的設(shè)備故障數(shù)。提供固定的更換成本,以派遣技術(shù)人員維修故障設(shè)備。假定企業(yè)級硬盤和固態(tài)硬盤享有 5 年保修,因此不承擔(dān)實際存儲的硬盤更換成本。

- 上一篇
數(shù)據(jù)中心的AI:永不停歇
根據(jù)中國信息通信研究院(CAICT)的數(shù)據(jù)顯示,中國的數(shù)據(jù)中心產(chǎn)業(yè)在2010至2020這十年間高速發(fā)展。并且中國的互聯(lián)網(wǎng)數(shù)據(jù)中心(IDC)市場連續(xù)三年保持30%以上的年復(fù)合增長率,于2020
- 下一篇
一舟考察丨一舟股份出訪西電杭州研究院調(diào)研交流
導(dǎo) 讀:6月2日,浙江一舟電子科技股份有限公司(以下簡稱:一舟股份)總裁王迺寧一行到訪西安電子科技大學(xué)杭州研究院(以下簡稱:研究院)調(diào)研交流。研究院黨委書記鄧軍,院領(lǐng)導(dǎo)田紅心、王興
資訊推薦
- 數(shù)據(jù)中心主機(jī)房的加濕量和除濕量如何計算
- 數(shù)據(jù)中心基礎(chǔ)設(shè)施是應(yīng)該縱向擴(kuò)展還是橫向擴(kuò)展?
- 貴州省某公安局?jǐn)?shù)據(jù)中心機(jī)房
- 臺州市教育局?jǐn)?shù)據(jù)中心
- 數(shù)據(jù)中心失火引發(fā)災(zāi)難性后果 機(jī)房消防難題如何解?
- 陜西數(shù)據(jù)中心開展安全生產(chǎn)月系列活動
- 江淮大數(shù)據(jù)中心總門戶上線試運(yùn)行
- 數(shù)據(jù)中心UPS供電系統(tǒng)運(yùn)維常見的人為故障類型
- 海水與湖水降溫成為數(shù)據(jù)中心降低能耗重點(diǎn)發(fā)展方向
- 人民云網(wǎng)數(shù)據(jù)中心專家:提高應(yīng)對網(wǎng)絡(luò)惡意攻擊能力