數(shù)據(jù)中心存儲TCO模型
概述
總擁有成本 (TCO) 提供了一種通過計算與購買和運行 IT 設備相關的所有成本來了解客戶如何做出購買決策的方法。不同客戶的業(yè)務目標和購買標準差異很大,因此,一刀切的總體擁有成本模型并不足以滿足所有存儲工作負載。我們通過檢查存儲的資本支出 (CapEx) 以及典型數(shù)據(jù)中心機架中通常主導 IT 預算的所有其他內(nèi)容,以及由電源、冷卻和設備故障成本主導的模型運營支出 (OpEx),定義了非常適合存儲的 TCO 模型。這對于對比專門面向持久存儲的產(chǎn)品和解決方案非常有用。
總體擁有成本模型有哪些內(nèi)容
數(shù)據(jù)中心的總擁有成本分為資本支出 (CapEx) 和運營支出 (OpEx)。資本支出通常受數(shù)據(jù)中心內(nèi)的限制,可能包括硬件采購(計算,網(wǎng)絡和存儲)的價格,要管理的IT設備,軟件和操作系統(tǒng)以及安裝費用。數(shù)據(jù)中心本身的資本支出(包括建筑、房產(chǎn)、政府、稅收、其他費用)和業(yè)務增長因公司而異。當前的 TCO 模型將數(shù)據(jù)中心資本支出作為以“機柜費用/年”(Rack Cost per Year)的一項固定支出。運營支出包括能耗、設備折舊、維護、維修、IT 軟件許可和數(shù)據(jù)中心員工成本。
有效容量(Effective capacity)被標記為 “TBe”(terabytes effective)。這是復制、容量利用率和數(shù)據(jù)縮減(壓縮、重復數(shù)據(jù)刪除等)后的實際可用存儲空間。由于原始存儲的整個資本支出成倍增加,這對總體擁有成本產(chǎn)生了巨大影響。企業(yè)存儲、全閃存陣列和其他公司在考慮存儲的成本/TB(cost / TB) 時,通常會公布有效容量。
總體擁有成本 TCO 指標
在對存儲的總體擁有成本進行建模時,有許多指標可能很重要,包括總體系統(tǒng)級性能、耐用性和總容量。此模型主要關注 TCO $ / TBe / 機架 /月的 TCO。大型和小型數(shù)據(jù)中心都以此作為參考,以比較當前部署與未來部署,這些部署僅針對存儲持久存儲進行了優(yōu)化。TCO 由每個 TBe 的資本支出組成,該資本支出采用所有 IT 硬件和機架的總成本,并將它們與存儲的總成本相加,并在有效容量總量中攤銷這些成本。運營支出由電源、冷卻和驅(qū)動器故障組成,并且在每個機架的有效容量范圍內(nèi)攤銷類似。此模型不包括軟件許可成本,但如果需要,可以輕松將其添加到機架配置成本中的任何靜態(tài)字段中。
對機架配置進行建模
模型中的機架輸入有兩列,分別表示一個 HDD 配置和一個 SSD 配置,以便進行有用的比較。每個 JBOD 的驅(qū)動器總數(shù)、每個服務器的驅(qū)動器總數(shù)以及每個機架的 JBOD 和服務器決定了每個機架的總容量,以 TB 或 PB 原始容量表示。此機架將機架中用于 TCO 計算的非存儲組件的總空間和總功率相加。由于數(shù)據(jù)中心機架具有各種功率、重量和空間配置,因此模型中不應用任意約束。對于該型號的標準用戶,可以假設標準機架具有42U的空間和大約12kW的功率。
驅(qū)動器
該模型分為硬盤驅(qū)動器 (HDD) 驅(qū)動器和固態(tài)驅(qū)動器 (SSD) 輸入。這些對應于每個設置的機架配置。驅(qū)動器的容量、活動和空閑功率規(guī)格(與占空比一起用于估計總功耗)、年故障率(以 % 為單位)(型號驅(qū)動器故障和更換成本)以及以平均價格 (ASP) 為單位的成本(需要匹配)需要輸入。
工作負載
驅(qū)動器性能對TCO的影響
SSD當然比HDD快得多,因此在嘗試實現(xiàn)特定的SLA或IOPS數(shù)量時,查看應用程序性能驅(qū)動的TCO模型很可能會偏向于SSD。TCO 模型中可對輸出產(chǎn)生重大影響的工作負載輸入包括容量利用率因子、錯誤編碼因子、多工作負載復制因子和數(shù)據(jù)縮減技術。
性能乘數(shù)(Performance multiplier)是 SSD 相對于 HDD 在性能或 QoS 方面的優(yōu)勢,表示為達到特定 IOPS、QoS 或帶寬所需的 HDD 乘數(shù),并且是表達設備之間應用程序性能差異的更簡單方法。當更頻繁地訪問數(shù)據(jù)時,所需的 IOPS/TB 量會增加。復制架構(下面介紹)也可能影響性能,因此請注意不要雙倍下降,因為這是模型中的乘數(shù)。
容量利用率(Capacity Utilization)是指在總可用容量中所用的總存儲設備中所占的百分比。通常,由于已滿時對性能的影響,驅(qū)動器會留下一些可用空間,并確保為傳入數(shù)據(jù)提供足夠的可用容量。
錯誤編碼/復制(Error encoding / replication)考慮了復制和數(shù)據(jù)保護模式,如RAID或糾刪碼。例如,鏡像數(shù)據(jù)將產(chǎn)生系數(shù) 2,三重復制將產(chǎn)生 3。SSD通常比HDD具有優(yōu)勢,因為它具有可靠性,重建性能和耐用性,可以降低開銷并具有相同或更好的數(shù)據(jù)持久性。包含一個參考選項卡,用于顯示 RAID 5、RAID 6 和糾刪碼的常見開銷。
數(shù)據(jù)縮減率(Data Reduction Ratio)是按百分比的縮減率,是存儲的主機數(shù)據(jù)與所需物理存儲的比率。例如,50% 的比率相當于 2:1 的數(shù)據(jù)縮減比例。由于數(shù)據(jù)縮減允許用戶存儲比物理硬件上更多的數(shù)據(jù),因此最終的有效容量會增加。壓縮、重復數(shù)據(jù)刪除等技術可以大大減少滿足"可用容量"要求所需的原始容量。與HDD相比,SSD在使用現(xiàn)代算法進行壓縮方面具有優(yōu)勢,并且由于性能更高(IOPS和帶寬)而減輕了負載。這在很大程度上取決于數(shù)據(jù)的性能和訪問頻率,以及壓縮發(fā)生的位置(超出此模型的范圍)。雖然壓縮率取決于算法,而不是存儲設備類型,但壓縮和解壓縮速度將受到磁盤訪問速度 (IOPS) 的限制。對于全閃存陣列的行業(yè)領導者來說,數(shù)據(jù)縮減是他們在定制軟件中的附加值,他們經(jīng)常引用全閃存來實現(xiàn)高水平的DRR,同時提供高性能。
另一個例子是VMware vSAN,其中壓縮和重復數(shù)據(jù)刪除僅在全閃存配置中提供。現(xiàn)代壓縮算法,例如,來自Facebook的ZStandard,可以實現(xiàn)比HDD讀/寫快得多的壓縮和解壓縮速度,從而允許在SSD上實時使用算法。它還為閃存提供了好處,通過字典文件具有小文件可壓縮性,可顯著提高數(shù)據(jù)庫壓縮性能。PCIe 加速器、FPGA、卸載和英特爾®快速輔助技術通常用于執(zhí)行實時加密、壓縮和重復數(shù)據(jù)刪除,由于需要實時要求和高吞吐量,高性能 NVMe 固態(tài)盤具有巨大的優(yōu)勢。
占空比(Duty Cycle)是驅(qū)動器在部署期間處于活動狀態(tài)的時間百分比。這僅用于有源和空閑功率假設。在頻繁訪問的熱存儲或溫存儲中,延遲很重要,設備永遠不會降速或進入接近零的空閑電源狀態(tài)。在訪問頻率低得多的較冷或歸檔存儲中,可以使用較低的空閑電源設置。
運營支出
功耗(Power)是數(shù)據(jù)中心運營支出的最大驅(qū)動因素之一。電源也是機架設計和管理方式的主要制約因素。模型中電源的運營支出是通過對機架中 IT 設備(服務器、交換機、JBOD 等)的功耗和存儲的總功耗求和來計算的。存儲的功耗使用占空比進行建模,該占空比指示設備處于空閑狀態(tài)與活動狀態(tài)的頻率,并估計部署期間消耗的總能量。計算總耗電量后,能耗(以千瓦時為單位)和成本將使用以美元/千瓦時為單位的固定常數(shù)計算,并計算數(shù)據(jù)中心 PUE。PUE被定義為數(shù)據(jù)中心總能耗與同一時期計算,測量或評估的信息技術設備能耗的比率。在效率較低的數(shù)據(jù)中心中,與PUE非常低且通常從可再生能源消耗大量能源的超大規(guī)模數(shù)據(jù)中心相比,通常使用較大的PUE。
冷卻成本(Cooling costs)—— 典型的數(shù)據(jù)中心在冷卻成本上花費了大量的運營支出。該模型只是假設冷卻成本內(nèi)置于IT設備(風扇,液體冷卻等)中,而不是從數(shù)據(jù)中心級別查看它。如果給定機架電源的冷卻成本是已知且固定的,則可以將其添加到機架部分中,以在給定的存儲容量上攤銷固定數(shù)據(jù)中心成本。
部署大量存儲時,驅(qū)動器故障(Drive failures)是不可避免的。設備制造商通常以MTBF(平均故障間隔時間)或AFR(年度故障率)列出其故障率。這些在數(shù)學上是相關的,用MTBF = 1 / AFR * 365 * 24表示。眾所周知,SSD的故障率低于HDD,因為它們沒有移動部件,并且不易受到機械磨損。SSD故障是眾所周知的,并且具有與HDD完全不同的故障機制。HDD故障通常超過供應商列出的故障,獨立研究表明,在過去7年的部署中,平均AFR為1.58%。在非理想條件下,在高溫、潮濕或超過硬盤額定工作負載(類似于固態(tài)硬盤的耐久性)時,硬盤故障接近 4% AFR。
該模型計算來自機架輸入的驅(qū)動器總數(shù),并找到我乘以部署項的驅(qū)動器小時數(shù)總數(shù)。然后,將其除以以小時為單位的 MTBF,以估計部署期限內(nèi)的設備故障數(shù)。提供固定的更換成本,以派遣技術人員維修故障設備。假定企業(yè)級硬盤和固態(tài)硬盤享有 5 年保修,因此不承擔實際存儲的硬盤更換成本。

- 上一篇
數(shù)據(jù)中心的AI:永不停歇
根據(jù)中國信息通信研究院(CAICT)的數(shù)據(jù)顯示,中國的數(shù)據(jù)中心產(chǎn)業(yè)在2010至2020這十年間高速發(fā)展。并且中國的互聯(lián)網(wǎng)數(shù)據(jù)中心(IDC)市場連續(xù)三年保持30%以上的年復合增長率,于2020
- 下一篇
一舟考察丨一舟股份出訪西電杭州研究院調(diào)研交流
導 讀:6月2日,浙江一舟電子科技股份有限公司(以下簡稱:一舟股份)總裁王迺寧一行到訪西安電子科技大學杭州研究院(以下簡稱:研究院)調(diào)研交流。研究院黨委書記鄧軍,院領導田紅心、王興
資訊推薦
- 數(shù)據(jù)中心主機房的加濕量和除濕量如何計算
- 數(shù)據(jù)中心基礎設施是應該縱向擴展還是橫向擴展?
- 貴州省某公安局數(shù)據(jù)中心機房
- 臺州市教育局數(shù)據(jù)中心
- 數(shù)據(jù)中心失火引發(fā)災難性后果 機房消防難題如何解?
- 陜西數(shù)據(jù)中心開展安全生產(chǎn)月系列活動
- 江淮大數(shù)據(jù)中心總門戶上線試運行
- 數(shù)據(jù)中心UPS供電系統(tǒng)運維常見的人為故障類型
- 海水與湖水降溫成為數(shù)據(jù)中心降低能耗重點發(fā)展方向
- 人民云網(wǎng)數(shù)據(jù)中心專家:提高應對網(wǎng)絡惡意攻擊能力