成立于2012年的北京金山云網(wǎng)絡(luò)技術(shù)有限公司*(以下簡(jiǎn)稱“金山云”),是國(guó)內(nèi)領(lǐng)先的云計(jì)算服務(wù)提供商,以業(yè)內(nèi)領(lǐng)先的用戶體驗(yàn)和服務(wù)端技術(shù),為用戶提供國(guó)內(nèi)領(lǐng)軍級(jí)云服務(wù)產(chǎn)品。目前,金山云擁有云服務(wù)器、海量云存儲(chǔ)、負(fù)載均衡、云關(guān)系型數(shù)據(jù)庫(kù)等多項(xiàng)核心業(yè)務(wù),幫助客戶實(shí)現(xiàn)動(dòng)態(tài)配置資源,應(yīng)對(duì)業(yè)務(wù)的劇烈變化,提升業(yè)務(wù)的穩(wěn)定性?,F(xiàn)在,金山云每天新增數(shù)據(jù)量達(dá)500T,總存儲(chǔ)規(guī)模超過400PB,海量分布式存儲(chǔ)技術(shù)已達(dá)世界領(lǐng)先水平。未來(lái),金山云將持續(xù)加大投入,力爭(zhēng)成為全球領(lǐng)先的云計(jì)算服務(wù)商。
面臨挑戰(zhàn)
• 平臺(tái)部署復(fù)雜度對(duì)效率產(chǎn)生影響:大數(shù)據(jù)時(shí)代的到來(lái),令企業(yè)用戶認(rèn)識(shí)到利用大數(shù)據(jù)幫助企業(yè)進(jìn)行經(jīng)營(yíng)決策的重要性,各企業(yè)紛紛著手部署自己的大數(shù)據(jù)分析平臺(tái)。但平臺(tái)部署的復(fù)雜度及維護(hù)難度卻成為企業(yè)用戶大數(shù)據(jù)發(fā)展的路障。
• 分析處理性能的要求提高:大數(shù)據(jù)處理分析的結(jié)果將對(duì)用戶的決策產(chǎn)生直接影響,因此,數(shù)據(jù)處理過程需要更加實(shí)時(shí)、穩(wěn)定和準(zhǔn)確,這些都對(duì)進(jìn)行大數(shù)據(jù)分析處理的動(dòng)力源平臺(tái)提出了更高的性能要求。
• 降低企業(yè)的TCO壓力:企業(yè)的業(yè)務(wù)變動(dòng)會(huì)帶來(lái)大數(shù)據(jù)處理資源需求的頻繁變動(dòng),無(wú)論對(duì)于自建系統(tǒng)還是云平臺(tái)都會(huì)造成成本壓力,同時(shí)也帶來(lái)資源浪費(fèi)。
解決方案
• 可以快速部署、彈性擴(kuò)展的金山云KMR產(chǎn)品:針對(duì)用戶需求,KMR提供多種節(jié)點(diǎn)配置,可彈性增加或減少節(jié)點(diǎn),應(yīng)對(duì)用戶多變的業(yè)務(wù)需求;同時(shí),分鐘級(jí)集群部署和擴(kuò)容能力,可以幫助用戶快速部署。
• 成熟生態(tài)圈為平臺(tái)提供延展性,降低運(yùn)營(yíng)成本:圍繞KMR,金山云還提供云存儲(chǔ)、云主機(jī)、關(guān)系型數(shù)據(jù)庫(kù)等一系列服務(wù),為用戶提供延伸服務(wù)。同時(shí),KMR通過與其他產(chǎn)品整合,也使用戶的運(yùn)營(yíng)成本更低,數(shù)據(jù)可靠性更高。
• 英特爾®架構(gòu)產(chǎn)品支持高性能云數(shù)據(jù)分析平臺(tái):通過引入英特爾®至強(qiáng)®處理器E5家族、英特爾®固態(tài)盤以及英特爾®萬(wàn)兆位以太網(wǎng)服務(wù)器適配器等產(chǎn)品,KMR產(chǎn)品在處理能力、穩(wěn)定性等多個(gè)性能指標(biāo)上都擁有卓越表現(xiàn)。
由英特爾®至強(qiáng)®處理器E5產(chǎn)品家族、英特爾®固態(tài)盤以及英特爾®萬(wàn)兆位以太網(wǎng)服務(wù)器適配器支持的金山云KMR解決方案,以其高性能、易部署、擴(kuò)展性強(qiáng)和生態(tài)鏈完整的特性來(lái)協(xié)助企業(yè)進(jìn)行大數(shù)據(jù)分析工作,為企業(yè)的經(jīng)營(yíng)和發(fā)展策略添磚加瓦。
影響
• KMR的優(yōu)異表現(xiàn)體現(xiàn)了英特爾技術(shù)對(duì)云平臺(tái)產(chǎn)品的良好支持:通過用戶實(shí)踐和綜合測(cè)評(píng),KMR的優(yōu)異表現(xiàn)都證明,英特爾的產(chǎn)品和技術(shù)可以讓數(shù)據(jù)中心/云計(jì)算平臺(tái)在高性能、可擴(kuò)展性等方面如虎添翼。
• 金山云良好的云生態(tài)建設(shè)思路為云平臺(tái)的發(fā)展提供實(shí)踐:金山云提供的多種云服務(wù)產(chǎn)品打造了成熟的云生態(tài)環(huán)境。KMR與這些服務(wù)進(jìn)行組合,形成端到端的數(shù)據(jù)分析處理解決方案。這種一攬子方案的模式不僅獲得了用戶的好評(píng),也為未來(lái)云平臺(tái)的發(fā)展提供了良好實(shí)踐。
大數(shù)據(jù)的價(jià)值逐漸凸顯,大數(shù)據(jù)的分析處理成為用戶關(guān)注的焦點(diǎn)。通過大數(shù)據(jù)處理與分析,用戶可以獲取有益信息,輔助經(jīng)營(yíng)決策。大數(shù)據(jù)處理分析工作對(duì)平臺(tái)的計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)性能有著很高的要求?,F(xiàn)在,利用Apache Hadoop*、Apache Spark *以及先進(jìn)的云平臺(tái)技術(shù)來(lái)執(zhí)行大數(shù)據(jù)處理與分析已成為業(yè)界的重要選擇。Apache Hadoop*是一個(gè)處理、存儲(chǔ)和分析海量分布式、非結(jié)構(gòu)化數(shù)據(jù)的開源框架。它可以使用簡(jiǎn)單的編程模型,跨計(jì)算集群對(duì)大數(shù)據(jù)進(jìn)行分布式處理。Hadoop的重要模塊MapReduce*善于從海量數(shù)據(jù)中對(duì)用戶所關(guān)心的內(nèi)容進(jìn)行提取和分析。Apache Spark*是另一種為大規(guī)模數(shù)據(jù)處理而設(shè)計(jì)的通用計(jì)算框架,通過使用內(nèi)存計(jì)算來(lái)提升性能。
利用云平臺(tái)進(jìn)行大數(shù)據(jù)處理時(shí),用戶面臨的重要挑戰(zhàn)是如何對(duì)平臺(tái)進(jìn)行部署、管理與擴(kuò)展,包括安裝和操作管理能力、動(dòng)態(tài)分配多任務(wù)負(fù)載下數(shù)據(jù)處理的能力以及多數(shù)據(jù)整體分析的能力。針對(duì)這一挑戰(zhàn),金山云推出托管Hadoop Kingsoft Map Reduce,以下簡(jiǎn)稱KMR,這是一種基于 Hadoop*、Spark* 等計(jì)算框架的集群托管服務(wù),可以方便用戶快速構(gòu)建數(shù)據(jù)分析集群、處理海量數(shù)據(jù)。同時(shí)也可配合金山云KS3、KTS、RDS等產(chǎn)品為用戶提供端到端的大數(shù)據(jù)解決方案。
完全托管,集群分鐘級(jí)快速部署
過去,企業(yè)通過自建平臺(tái)來(lái)進(jìn)行計(jì)算、存儲(chǔ)、數(shù)據(jù)處理等工作,這種方式會(huì)消耗大量資源在軟、硬件維護(hù)上。例如,部署一個(gè)典型的Hadoop平臺(tái),通常需要經(jīng)歷業(yè)務(wù)評(píng)估、設(shè)備選型采購(gòu)、硬件上架調(diào)試、操作系統(tǒng)和平臺(tái)軟件安裝調(diào)試等一系列復(fù)雜工作,花費(fèi)1-3個(gè)月的時(shí)間。同時(shí),企業(yè)在專業(yè)維護(hù)人員上的缺失也使自建平臺(tái)在安全性、系統(tǒng)穩(wěn)定性等方面的表現(xiàn)不盡如人意。因此,很多企業(yè)都逐漸將目光轉(zhuǎn)移到云平臺(tái)上。
盡管如此,向云平臺(tái)的轉(zhuǎn)移卻并不能完全消除用戶在部署上遇到的問題,面對(duì)不同的業(yè)務(wù)需求,用戶仍需要耗費(fèi)一定的資源去執(zhí)行部署和維護(hù)的工作。KMR的重要優(yōu)勢(shì),就是能最大程度地幫助用戶降低部署的復(fù)雜度和運(yùn)維的工作量。通過采用彈性計(jì)算服務(wù)(Kingsoft Elastic Compute,KEC)構(gòu)建集群,通常情況下只需幾分鐘即可自動(dòng)完成部署工作,用戶只需關(guān)心數(shù)據(jù)處理任務(wù)本身,而不需要關(guān)注硬件和底層系統(tǒng)的運(yùn)維工作。
以KMR在游戲廠商的實(shí)際部署為例,由于游戲行業(yè)具有極強(qiáng)的短期爆發(fā)能力,一款S級(jí)游戲短期內(nèi)就需要開放數(shù)百組游戲服務(wù)器,這些服務(wù)器每天會(huì)產(chǎn)生幾十甚至上百GB的日志需要集中存儲(chǔ)并滿足不定時(shí)查詢。最初,日志采用分區(qū)灌入My SQL數(shù)據(jù)庫(kù)并執(zhí)行定期查詢,然后匯總結(jié)果計(jì)算相關(guān)的KPI指標(biāo)。但運(yùn)行一段時(shí)間后發(fā)現(xiàn),數(shù)據(jù)存儲(chǔ)成本高,系統(tǒng)可用性得不到保障,需要手動(dòng)維護(hù)不同數(shù)據(jù)集之間的關(guān)系,查詢效率低下且靈活性受限。
在部署KMR之后,所有的日志數(shù)據(jù)都通過KMR統(tǒng)一存儲(chǔ)、統(tǒng)一處理,快速建立集群環(huán)境,并可根據(jù)游戲用戶規(guī)模在數(shù)分鐘內(nèi)進(jìn)行擴(kuò)容/縮容。同時(shí),利用金山云完善的云生態(tài)環(huán)境,數(shù)據(jù)可存儲(chǔ)在對(duì)象存儲(chǔ)KS3中,使用KMR直接查詢,除了節(jié)省了大量人力,提高了效率,并大幅降低了存儲(chǔ)成本。據(jù)測(cè)算,存儲(chǔ)成本可節(jié)省75%以上。
圖一 部署KMR以應(yīng)對(duì)游戲日志處理
性能優(yōu)化,大數(shù)據(jù)分析即時(shí)響應(yīng)
大數(shù)據(jù)分析處理的核心目的是為行為決策提供參考,因此時(shí)效性是評(píng)價(jià)其分析平臺(tái)能力好壞的重要指標(biāo)。在一些特殊場(chǎng)景中數(shù)據(jù)的處理分析速度帶來(lái)的影響更不容小覷。
例如在醫(yī)療行業(yè),數(shù)據(jù)分析已迅速成為分析健康危險(xiǎn)因素和改善病人護(hù)理的核心。各類病患的數(shù)據(jù),包括臨床、病史、用藥史以及DNA,需要依托于云計(jì)算才能夠被更快速、更高效和更準(zhǔn)確地進(jìn)行分析,幫助醫(yī)生對(duì)病患的病情進(jìn)行診斷,以對(duì)癥下藥從而達(dá)到最佳的治療效果。同時(shí),可以幫助醫(yī)院及醫(yī)生積累病例數(shù)據(jù),進(jìn)行科研分析提煉,并幫助新藥的開發(fā)。利用大數(shù)據(jù)分析,還能夠幫助醫(yī)療衛(wèi)生機(jī)構(gòu)對(duì)可能的疫情進(jìn)行預(yù)測(cè)和監(jiān)控,進(jìn)行全民健康管理;KMR領(lǐng)先的大數(shù)據(jù)分析能力,可以良好應(yīng)對(duì)醫(yī)院全面、復(fù)雜、多變的業(yè)務(wù)和科研場(chǎng)景,為臨床決策提供有力支持,提升醫(yī)院的運(yùn)營(yíng)效率、提升醫(yī)療衛(wèi)生系統(tǒng)對(duì)健康、疾控等方面的管理能力。
在某醫(yī)院的部署實(shí)踐中,醫(yī)院的總數(shù)據(jù)量已經(jīng)達(dá)到280TB,臨床數(shù)據(jù)中CDR(Clinical Document Repository),的數(shù)據(jù)庫(kù)記錄了10億條患者診療信息。通過KMR的部署,用戶可以以毫秒級(jí)的速度對(duì)信息進(jìn)行查詢,并在極短的時(shí)間內(nèi)獲得分析結(jié)果。KMR強(qiáng)勁的性能表現(xiàn)得到了英特爾.至強(qiáng).處理器E5系列、英特爾.SSD以及英特爾.萬(wàn)兆位以太網(wǎng)服務(wù)器適配器的支持。英特爾.至強(qiáng).處理器 E5-2600 v4基于14 納米處理技術(shù)構(gòu)建,提供每插槽高達(dá)22個(gè)內(nèi)核/44 條線程和每插槽高達(dá) 55 MB 最新級(jí)別高速緩存(LLC),以提高性能;同時(shí),提供英特爾. 事務(wù)性同步擴(kuò)展(英特爾. TSX)來(lái)提升并行工作負(fù)載性能。
同時(shí),英特爾固態(tài)盤以及英特爾萬(wàn)兆位以太網(wǎng)服務(wù)器適配器的引入,也令KMR性能表現(xiàn)卓越。適用PCIe* 的英特爾數(shù)據(jù)中心固態(tài)盤可以直接為英特爾至強(qiáng)處理器提供極致的數(shù)據(jù)吞吐量,在KMR中采用的高性能英特爾®以太網(wǎng)聚合網(wǎng)絡(luò)適配器X520-SR2,針對(duì)苛刻的數(shù)據(jù)中心/云環(huán)境提供了高度的靈活性以及可擴(kuò)展性。
在硬件產(chǎn)品以外,英特爾在各類大數(shù)據(jù)分析軟件庫(kù)上的貢獻(xiàn)也為金山云的性能加速提供了動(dòng)力。例如英特爾高性能數(shù)據(jù)分析加速庫(kù)(Intel® Data Analy ticsAcceleration Library,以下簡(jiǎn)稱Intel®DA AL),包含了基于英特爾平臺(tái)優(yōu)化的常用機(jī)器學(xué)習(xí)算法庫(kù)(如K-Means,LR,PC A等)。在英特爾工程師的協(xié)助下,金山云完成了Intel® DAAL庫(kù)的評(píng)測(cè)。DAALK-Means算法對(duì)應(yīng)傳統(tǒng)的Spark ML-Lib算法有近4.6倍性能提升。
通過一項(xiàng)對(duì)2億4千萬(wàn)條模擬樣本數(shù)據(jù)的測(cè)試表明,金山云在數(shù)據(jù)處理分析性能上優(yōu)于競(jìng)品:
圖二 金山云KMR模擬樣本數(shù)據(jù)對(duì)比測(cè)試
經(jīng)驗(yàn)
• 用戶選擇云服務(wù)來(lái)執(zhí)行大數(shù)據(jù)處理分析工作的最大初衷是獲得靈活、高效、易部署、易擴(kuò)展的特性以及TCO的降低,因此彈性可伸縮的云服務(wù)最受用戶青睞。
• 大數(shù)據(jù)分析并不僅僅只是對(duì)數(shù)據(jù)進(jìn)行處理和分析那么簡(jiǎn)單,相關(guān)的存儲(chǔ)、傳輸?shù)裙δ芡瑯又匾?。完整的生態(tài)鏈有助于基于云的大數(shù)據(jù)分析平臺(tái)更長(zhǎng)遠(yuǎn)和健康的發(fā)展。
• 實(shí)踐證明,英特爾.至強(qiáng).處理器E5產(chǎn)品家族、英特爾.固態(tài)盤以及英特爾.萬(wàn)兆位以太網(wǎng)服務(wù)器適配器有助于KMR性能提升,獲得更好用戶體驗(yàn),同時(shí),英特爾不斷引領(lǐng)著各項(xiàng)大數(shù)據(jù)開源技術(shù)正為大數(shù)據(jù)處理分析技術(shù)的發(fā)展提高源源不斷的動(dòng)力。
生態(tài)豐富,彈性服務(wù)有效降低TCO。
用戶數(shù)據(jù)從產(chǎn)生到最終體現(xiàn)價(jià)值,包含收集、存儲(chǔ)、分析處理和消費(fèi)等多個(gè)環(huán)節(jié),每個(gè)環(huán)節(jié)又有多種多樣的需求。除了KMR以外,大數(shù)據(jù)的處理與分析還需要多種云服務(wù)能力的配合。基于金山云豐富的生態(tài)環(huán)境和良好的開放性,KMR不僅提供了豐富的開源生態(tài)組件,還可以和其他云服務(wù)產(chǎn)品以及第三方的解決方案無(wú)縫集成,共同構(gòu)建端到端的大數(shù)據(jù)生態(tài)。
以存儲(chǔ)為例,KMR提供了金山云KS3 (標(biāo)準(zhǔn)存儲(chǔ)服務(wù))訪問接口。在進(jìn)行數(shù)據(jù)處理時(shí),通過內(nèi)部高速網(wǎng)絡(luò)直接訪問KS3的同時(shí),也可將原始數(shù)據(jù)將統(tǒng)一匯總到這里。KMR集群中運(yùn)行的 Map Reduce、Spark等作業(yè)就可以直接調(diào)用KS3中存儲(chǔ)的數(shù)據(jù)進(jìn)行計(jì)算,并把結(jié)果寫回到KS3。KS3提供了較低的使用成本和極高的數(shù)據(jù)可靠性,保證了在集群釋放時(shí)仍然可以持久地存儲(chǔ)原始數(shù)據(jù)和計(jì)算結(jié)果。
圖三 KMR支持豐富的開源生態(tài)組件
同時(shí),KMR對(duì)大量開源生態(tài)組件都具有較好支持,除集成了最基礎(chǔ)的Hadoop組件外,還集成了Spark, Hbase,Storm, Kafka等生態(tài)組件,以及Ambari, Ganglia等集群監(jiān)控管理工具,可以幫助用戶輕松構(gòu)建復(fù)雜的大數(shù)據(jù)分析系統(tǒng),滿足批量計(jì)算、流式處理、消息隊(duì)列、交互式查詢、NoSQL等多種業(yè)務(wù)場(chǎng)景的需求。
KMR集群的靈活配置也有助于用戶合理調(diào)整工作集群數(shù)量。通常,KMR集群由主節(jié)點(diǎn)(Master Node)和若干核心節(jié)點(diǎn)(Core Node)及任務(wù)節(jié)點(diǎn)(Task Node)組成。KMR提供了多種節(jié)點(diǎn)配置,用戶可在需要時(shí)動(dòng)態(tài)增加或者減少節(jié)點(diǎn)數(shù)量。這種強(qiáng)大的擴(kuò)展能力和彈性伸縮能力,消除了Hadoop安裝部署成本和管理復(fù)雜性,讓用戶可以更加專注數(shù)據(jù)分析處理本身
新興的電商網(wǎng)站往往擁有幾十個(gè)大類、數(shù)百萬(wàn)種商品,每天的增量數(shù)據(jù)高達(dá)數(shù)TB,遇到各種促銷期間,IT資源的需求更會(huì)陡增。這種潮汐型的需求,如果采用自建系統(tǒng)的方式,將耗費(fèi)大量資源在備用機(jī)上,造成大量資源浪費(fèi)。
采用KMR之后,電商網(wǎng)站通過直連專線的方式連接金山云數(shù)據(jù)中心,由KMR服務(wù)快速創(chuàng)建Storm和Kafka集群,搭建實(shí)時(shí)數(shù)據(jù)處理系統(tǒng),數(shù)據(jù)處理結(jié)果寫入MongoDB服務(wù);由KS3服務(wù)應(yīng)對(duì)海量存儲(chǔ)需求,獲得高性價(jià)比,高可靠性存儲(chǔ)服務(wù)。通過與金山云完整生態(tài)系統(tǒng)的融合,電商網(wǎng)站促銷期間IT系統(tǒng)的壓力得到了有效的緩解,系統(tǒng)維護(hù)工作和資源擁有成本(TCO)大幅減少,資源也可以根據(jù)業(yè)務(wù)需求進(jìn)行靈活的調(diào)整和配置。
展望未來(lái),新技術(shù)助推更優(yōu)服務(wù)
隨著虛擬化技術(shù)、超融合解決方案、軟件定義數(shù)據(jù)中心等云平臺(tái)相關(guān)技術(shù)的不斷發(fā)展,金山云將繼續(xù)優(yōu)化KMR產(chǎn)品,為用戶提供優(yōu)質(zhì)的云服務(wù)方案。作為大數(shù)據(jù)分析領(lǐng)域領(lǐng)跑者的英特爾,也將繼續(xù)助理金山云完善KMR產(chǎn)品,為用戶提供更優(yōu)質(zhì)服務(wù)。
現(xiàn)在,英特爾開源了基于Apache Spark *的分布式深度學(xué)習(xí)庫(kù)BigDL*,可以直接運(yùn)行在金山云一類的Hadoop/Spark集群上,并允許用戶編寫標(biāo)準(zhǔn)的Spark程序來(lái)進(jìn)行深度學(xué)習(xí)的訓(xùn)練與預(yù)測(cè)。實(shí)踐表明,BigDL的特性表現(xiàn)在:
• 深度學(xué)習(xí)能力:與Torch一樣,BigDL全面支持Tensor數(shù)值計(jì)算和高層次神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí);同時(shí),用戶還可以使用BigDL加載預(yù)先經(jīng)過培訓(xùn)的Caffe或Torch模型到Spark程序中。
• 高性能:BigDL在每個(gè)Spark 任務(wù)內(nèi)使用英特爾® MKL和多線程的編程。因此它比開源Caffe、Torch或單節(jié)點(diǎn)英特爾至強(qiáng)處理器上的TensorFlow性能都有數(shù)量級(jí)的提升。
• 高效擴(kuò)展:通過實(shí)施Spark上的同步 SGD和all-reduce通信,BigDL可有效進(jìn)行橫向擴(kuò)展,以匹配“大數(shù)據(jù)規(guī)模”的能力執(zhí)行數(shù)據(jù)分析。
圖四 基于Apache Spark *的BigDL*架構(gòu)
未來(lái),通過提供類似于BigDL的先進(jìn)技術(shù),英特爾可以幫助金山云的用戶在KMR及相關(guān)平臺(tái)上獲得數(shù)據(jù)存儲(chǔ)、預(yù)處理、分析和深度學(xué)習(xí)等一站式服務(wù),獲得更強(qiáng)勁的大數(shù)據(jù)分析和處理能力。
文章摘自英特爾精英匯
歡迎聯(lián)系寶通集團(tuán)咨詢英特爾相關(guān)產(chǎn)品信息
寶通集團(tuán)聯(lián)系方式
咨詢熱線:400-830-0107
寶通官網(wǎng):m.bjshst.cn
客戶垂詢郵箱:Customer@ex-channel.com
客戶垂詢QQ:1305742380
地址:深圳市福田區(qū)深南大道1006號(hào)國(guó)際創(chuàng)新中心C座11樓
郵編:518026