服務(wù)熱線
0755-83647532
發(fā)表日期:2016-07-29 文章編輯:管理員 閱讀次數(shù):
本文將以中國(guó)某個(gè)領(lǐng)先的網(wǎng)絡(luò)游戲開(kāi)發(fā)商和運(yùn)營(yíng)商為例,每月平均活躍登錄約1,000 萬(wàn)人次。傳統(tǒng)的商業(yè)存儲(chǔ)解決方案在維護(hù)成本和時(shí)間方面都不盡如人意。為了提供價(jià)格經(jīng)濟(jì)的高性能存儲(chǔ)解決方案,以滿足虛擬游戲主機(jī)以及測(cè)試、開(kāi)發(fā)和備份等各種內(nèi)部需求,該企業(yè)部署了基于Ceph 和英特爾® 平臺(tái)的橫向擴(kuò)展存儲(chǔ)解決方案。借助新一代英特爾® 至強(qiáng)™ 處理器E5-2600 產(chǎn)品家族和英特爾® 固態(tài)盤(pán)DC P3700/P3600 系列,基于Ceph 的軟件定義存儲(chǔ)解決方案可為從KVM 虛擬化、游戲網(wǎng)站托管、數(shù)據(jù)庫(kù)恢復(fù)到日志分析等多種服務(wù)提供高性能、高擴(kuò)展性和高可靠性的存儲(chǔ)平臺(tái)。
根據(jù)IDC的預(yù)測(cè),“從2013 年到2020 年,全球數(shù)據(jù)總量將增加10 倍,從4.4ZB 增加到44ZB” 。增加的大多數(shù)新數(shù)據(jù)來(lái)自非結(jié)構(gòu)化數(shù)據(jù)。傳統(tǒng)的企業(yè)存儲(chǔ)側(cè)重于結(jié)構(gòu)化數(shù)據(jù),通常通過(guò)添加更多的服務(wù)器和存儲(chǔ)來(lái)應(yīng)對(duì)數(shù)據(jù)爆炸式增長(zhǎng)。這些傳統(tǒng)的企業(yè)存儲(chǔ)解決方案通常為基于傳統(tǒng)NAS 的專有硬件,與橫向擴(kuò)展存儲(chǔ)解決方案所使用的商用硬件相比,不僅價(jià)格昂貴,而且也難以實(shí)現(xiàn)硬件再利用。除了一次性支出資本,為了滿足潛在的未來(lái)業(yè)務(wù)增長(zhǎng)需求,傳統(tǒng)的NAS 系統(tǒng)在最初會(huì)對(duì)系統(tǒng)進(jìn)行預(yù)留配置,這需要大量的前期投資,進(jìn)而造成系統(tǒng)存儲(chǔ)空間在未達(dá)到容量目標(biāo)是浪費(fèi)的。相反,軟件定義橫向擴(kuò)展存儲(chǔ)解決方案可通過(guò)添加新節(jié)點(diǎn)實(shí)現(xiàn)輕松擴(kuò)展。橫向擴(kuò)展存儲(chǔ)正在作為傳統(tǒng)企業(yè)存儲(chǔ)的替代方案而出現(xiàn)在很多應(yīng)用場(chǎng)景中。
• 資本支出:傳統(tǒng)企業(yè)存儲(chǔ)使用價(jià)格昂貴的專有硬件。這些硬件資源到期停止使用后,難以實(shí)現(xiàn)再利用。
• 運(yùn)營(yíng)支出:傳統(tǒng)企業(yè)存儲(chǔ)系統(tǒng)中的每個(gè)裝置需要單獨(dú)進(jìn)行管理,一旦存儲(chǔ)容量增加,運(yùn)營(yíng)成本將急劇增加。從維護(hù)角度來(lái)看,如果出現(xiàn)任何軟硬件故障,通常需要執(zhí)行規(guī)定的作業(yè)流程予以處理,運(yùn)營(yíng)支出較大。
• 可擴(kuò)展性:各個(gè)部門(mén)往往傾向于保留自己的存儲(chǔ)系統(tǒng),這會(huì)造成總存儲(chǔ)容量出現(xiàn)過(guò)度配置,而無(wú)法實(shí)現(xiàn)“按增長(zhǎng)付費(fèi)” 的理想模式。此外,傳統(tǒng)存儲(chǔ)系統(tǒng)擴(kuò)展難度較大,難以滿足業(yè)務(wù)需求。
Ceph 是一個(gè)可大規(guī)模擴(kuò)展的開(kāi)源軟件定義橫向擴(kuò)展存儲(chǔ)系統(tǒng), 它可在單一平臺(tái)上提供對(duì)象、塊和文件系統(tǒng)存儲(chǔ)。它在標(biāo)準(zhǔn)的大容量服務(wù)器上運(yùn)行,這有助于節(jié)省成本,同時(shí)提供出色的靈活性,支持按需擴(kuò)展容量。Ceph 日益受到公共云和私有云服務(wù)提供商的歡迎,在基于Openstack 的云服務(wù)中是最流行的塊存儲(chǔ)驅(qū)動(dòng)程序。下圖顯示的是Ceph 架構(gòu)。
為了應(yīng)對(duì)資本和運(yùn)營(yíng)支出挑戰(zhàn),該企業(yè)自2013年開(kāi)始調(diào)研Ceph,并在年底建立了研究和測(cè)試集群?;谛乱淮⑻貭?至強(qiáng)處理器E5-2600 產(chǎn)品家族和英特爾®固態(tài)盤(pán)DC P3600 系列,他們構(gòu)建了約200 個(gè)OSD 節(jié)點(diǎn)和400 TB 容量的Ceph 集群,為其研發(fā)部門(mén)以及包括KVM 虛擬化與游戲托管在內(nèi)的生產(chǎn)環(huán)境提供高性能、高擴(kuò)展性和高可靠性的存儲(chǔ)平臺(tái)。
高可用性和可靠性
作為國(guó)內(nèi)領(lǐng)先的網(wǎng)絡(luò)游戲開(kāi)發(fā)商和運(yùn)營(yíng)商,致力于為游戲玩家提供基于其專有游戲引擎和游戲開(kāi)發(fā)平臺(tái)的各種網(wǎng)絡(luò)游戲,這不僅必須做到更新頻率快,同時(shí)要求推出速度及時(shí)。這就需要使用具備較高可用性和可靠性的存儲(chǔ)基礎(chǔ)設(shè)施,以便存儲(chǔ)這些虛擬游戲主機(jī)和數(shù)據(jù)庫(kù)并歸檔關(guān)鍵日志。
Ceph 通過(guò)在整個(gè)集群存儲(chǔ)多份副本來(lái)確保數(shù)據(jù)的可用性,并且在出現(xiàn)數(shù)據(jù)損壞、硬盤(pán)故障或節(jié)點(diǎn)故障時(shí),可自動(dòng)恢復(fù)或遷移數(shù)據(jù)。例如,如果存儲(chǔ)了主副本的硬盤(pán)出現(xiàn)故障,Ceph 將自動(dòng)檢測(cè)出故障并標(biāo)記即將出現(xiàn)故障的OSD,然后根據(jù)一致性哈希算法計(jì)算出新的主要OSD,并暫時(shí)利用原有的輔助OSD 作為主要OSD 來(lái)回填這一新的OSD。恢復(fù)過(guò)程對(duì)系統(tǒng)性能的影響可通過(guò)各種可配置參數(shù)進(jìn)行調(diào)節(jié)。
為了更好地服務(wù)于其數(shù)百萬(wàn)用戶,網(wǎng)絡(luò)游戲通常分為不同的區(qū)域,并通過(guò)不同的游戲服務(wù)器提供卓越的服務(wù)。在傳統(tǒng)企業(yè)存儲(chǔ)中,這些游戲服務(wù)器上的數(shù)據(jù)庫(kù)需要備份到其他服務(wù)器上。一旦游戲服務(wù)器發(fā)生故障,無(wú)論是軟件問(wèn)題還是硬件問(wèn)題, 都需要遷移游戲、重新加載備份服務(wù)器上的備份數(shù)據(jù)庫(kù),并進(jìn)行手動(dòng)恢復(fù)??傮w遷移時(shí)間通常為5 到10 個(gè)小時(shí)?,F(xiàn)在,采用Ceph 來(lái)存儲(chǔ)這些虛擬服務(wù)器,恢復(fù)備份數(shù)據(jù)時(shí)間可縮短到5 至10 分鐘。
Ceph 性能測(cè)試
性能測(cè)試的目的是測(cè)試Ceph 可否應(yīng)用在一種重要的場(chǎng)景中:數(shù)據(jù)庫(kù)備份和恢復(fù)。
• 測(cè)試系統(tǒng)
測(cè)試系統(tǒng)由41 臺(tái)存儲(chǔ)服務(wù)器組成,每臺(tái)都配備了雙路英特爾 至強(qiáng)處理器E5-2600 產(chǎn)品家族、96GB 內(nèi)存和12 塊4T 硬盤(pán)。高性能集群配置了雙路英特爾至強(qiáng)處理器E5-2600 產(chǎn)品家族和96GB 內(nèi)存,并分別配備一塊1.2TB 英特爾固態(tài)盤(pán)DC P3600 系列,用于KVM 虛擬服務(wù)器托管。
• 數(shù)據(jù)庫(kù)備份和恢復(fù)性能調(diào)優(yōu)
在該企業(yè)生產(chǎn)環(huán)境中部署的首個(gè)Ceph 集群主要用于數(shù)據(jù)庫(kù)備份,游戲的美術(shù)素材和源代碼存儲(chǔ)上。它需要較高的備份和恢復(fù)性能,以縮短潛在的服務(wù)影響時(shí)間。首先,集群采用一塊RAID6 磁盤(pán)進(jìn)行構(gòu)建,用作單一的高可用性Ceph OSD 實(shí)例。這種配置展示了較好的備份速度(高達(dá)240MB/秒),但在執(zhí)行恢復(fù)時(shí),單線程讀取應(yīng)用程序的速度被限制在30MB/秒。這證明了不應(yīng)在Ceph 集群中使用RAID。然后,我們重新部署了Ceph 集群,并將每塊硬盤(pán)作為一個(gè)OSD 實(shí)例。備份速度提升到400MB/秒,而恢復(fù)速度仍然很慢(40MB/秒)。進(jìn)一步分析表明,作為分布式存儲(chǔ)系統(tǒng),所有順序I/O 將在OSD 端呈現(xiàn)隨機(jī)狀態(tài),所以我們需要提升OSD 端的I/O 請(qǐng)求大小,以提升恢復(fù)性能。所以我們?cè)黾恿薕SD 硬盤(pán)和KVM 虛擬磁盤(pán)的read_ahead_kb 大小,這樣,恢復(fù)速度提升到600MB/秒,性能提升20 倍。備份和恢復(fù)性能測(cè)試證明,經(jīng)過(guò)具體優(yōu)化,Ceph 可以在一些關(guān)鍵業(yè)務(wù)領(lǐng)域使用。
借助英特爾PCIe* 固態(tài)盤(pán)提升Ceph 的性能
• 借助英特爾PCIe* 固態(tài)盤(pán)啟動(dòng)虛擬服務(wù)器,將性能提升3 倍
該企業(yè)存儲(chǔ)集群的一個(gè)重要應(yīng)用場(chǎng)景是托管KVM 虛擬機(jī),同時(shí)作為Web 服務(wù)器和游戲服務(wù)器。不幸的是,如果不使用固態(tài)盤(pán)作為日志,在運(yùn)行40 多臺(tái)虛擬機(jī)的時(shí)候,測(cè)試發(fā)現(xiàn)刪除這些虛擬機(jī)中的大文件時(shí),集群性能將顯著下降,響應(yīng)時(shí)間大于5 秒。作為優(yōu)化,我們部署了一塊1.2TB 的英特爾固態(tài)盤(pán)DC P3600 系列,并在其上創(chuàng)建三個(gè)獨(dú)立的目錄,用于存放三個(gè)OSD 實(shí)例。憑借英特爾固態(tài)盤(pán)DC P3600 系列,現(xiàn)在即使刪除大文件,也可以支持120 臺(tái)虛擬服務(wù)器,延遲只有幾毫秒。使用這種配置,Ceph 集群性能和一個(gè)固態(tài)盤(pán)一個(gè)OSD 實(shí)例部署場(chǎng)景下由CRUSH 算法引起的空間不平衡問(wèn)題都能夠得到解決。
• 在Ceph 中采用PCIe* 固態(tài)盤(pán):日志和緩存
Ceph OSD 使用日志實(shí)現(xiàn)高速度和一致性。這些數(shù)據(jù)將首先通過(guò)直接IO 寫(xiě)入日志,然后同樣的數(shù)據(jù)將寫(xiě)入后端存儲(chǔ)— 文件存儲(chǔ)(FileStore),最后OSD 再確認(rèn)完成寫(xiě)入操作。這將確保向客戶端發(fā)送確認(rèn)信息時(shí),所有數(shù)據(jù)都將寫(xiě)入到永久性存儲(chǔ)。這種特性導(dǎo)致了一種常見(jiàn)的Ceph 集群部署模式:將日志存入快速驅(qū)動(dòng)器— 固態(tài)盤(pán),將文件存儲(chǔ)放入慢速驅(qū)動(dòng)器— 傳統(tǒng)硬盤(pán)。Ceph 日志針對(duì)所有日志寫(xiě)入執(zhí)行同步寫(xiě)入操作(O_ DSYNC),因此除了固態(tài)盤(pán)的IOPS,其持久性是另一個(gè)重要的考慮因素。基于PCIe* 的英特爾® 固態(tài)盤(pán)作為Ceph 日志磁盤(pán)展示了良好的性能和持久性。我們?cè)? 節(jié)點(diǎn)Ceph 集群上測(cè)試了4K 隨機(jī)寫(xiě)入性能,每個(gè)節(jié)點(diǎn)配置了14 塊4TB 硬盤(pán)。在沒(méi)有將固態(tài)盤(pán)用于日志的情況下,我們?cè)诿繅K硬盤(pán)上創(chuàng)建分區(qū)作為日志,4K 隨機(jī)寫(xiě)入吞吐量為1818 IOPS。然后,我們安裝了一塊英特爾固態(tài)盤(pán)DC P3600 系列作為這14 塊硬盤(pán)的日志,吞吐量提升到6063 IOPS,性能提升高達(dá)233%。在固態(tài)盤(pán)上使用緩存加速軟件來(lái)提升存儲(chǔ)性能是一種頗為流行的做法。英特爾固態(tài)盤(pán)DC P3700 系列可提供高達(dá)75,000 4K 隨機(jī)寫(xiě)入IOPS,同時(shí),英特爾固態(tài)盤(pán)DC P3700 系列在其生命周期內(nèi)支持每天高達(dá)17 次的寫(xiě)入耐用性,這幾乎是英特爾固態(tài)盤(pán)DC P3600 系列的6 倍,因此我們選擇了英特爾固態(tài)盤(pán)DC P3700 系列作為緩存和日志。我們采用fio,并用1.2 theta 的zipf 分布來(lái)模擬特定緩存命中率的工作負(fù)載,并在4 節(jié)點(diǎn)Ceph 集群上測(cè)試的flashcache 性能。每個(gè)節(jié)點(diǎn)配置了雙路英特爾至強(qiáng)處理器E5-2600 產(chǎn)品家族、32GB 內(nèi)存、10 塊1TB 硬盤(pán)以及一塊作為flashcache 的2TB 英特爾固態(tài)盤(pán)DC P3700 系列。在不使用flashcache 的情況下,4K 隨機(jī)讀寫(xiě)獲取的吞吐量為5875/6840 IOPS。采用英特爾固態(tài)盤(pán)DC P3700 系列作為flashcache,吞吐量將分別提升到17775 和21020 IOPS,性能均提高3.02 倍。
經(jīng)驗(yàn)表明,基于Ceph 的開(kāi)源存儲(chǔ)系統(tǒng)能夠憑借英特爾產(chǎn)品提升性能并降低成本,同時(shí)也證明了Ceph 是一款面向云服務(wù)的可行的存儲(chǔ)后端,案例研究證明采用基于PCIe* 的英特爾® 固態(tài)盤(pán)作為日志和緩存可以顯著地提升Ceph 集群的整體性能。
文章摘自英特爾固態(tài)盤(pán)
歡迎聯(lián)系寶通集團(tuán)咨詢英特爾固態(tài)盤(pán)產(chǎn)品信息
寶通集團(tuán)聯(lián)系方式
咨詢熱線:400-830-0107
寶通官網(wǎng):m.bjshst.cn
客戶垂詢郵箱:Customer@ex-channel.com
客戶垂詢QQ:1305742380
地址:深圳市福田區(qū)深南大道1006號(hào)國(guó)際創(chuàng)新中心C座11樓
郵編:518026