12月20日-21日,由中國信通院、中國通信標準化協(xié)會主辦,中國通信標準化協(xié)會大數(shù)據技術標準推進委員會承辦的“2023數(shù)據資產管理大會”在京召開。在會上,第七屆大數(shù)據“星河(Galaxy)”案例評選結果正式公布。中移在線服務有限公司(中移在線)與酷克數(shù)據聯(lián)合申報的《基于云原生化的數(shù)據倉庫平臺,實現(xiàn)數(shù)據算力交付效率全面提升》項目,憑借全棧自主可控、敏捷高效、安全穩(wěn)定的先進特性,成為業(yè)內首個容器化部署的大規(guī)模云原生數(shù)據倉庫,榮膺2023大數(shù)據“星河”數(shù)據庫優(yōu)秀案例獎。
大數(shù)據“星河(Galaxy)”案例征集活動主要面向甲方落地單位,旨在通過實地生產案例與場景,總結和推廣真實可用的大數(shù)據實踐與經驗,在國內大數(shù)據產業(yè)具有公認的行業(yè)標桿性和極高的認可度。
第七屆大數(shù)據“星河(Galaxy)”案例征集包括數(shù)據庫與其他五項大數(shù)據應用方向,覆蓋電信、金融、政務、能源、制造等行業(yè)。案例征集自9月啟動以來,受到了業(yè)界領先甲方單位與廠商的廣泛關注。經過形式審查和專家評審,共評選出數(shù)據庫優(yōu)秀案例26個。
項目背景
中移在線營服數(shù)據處理平臺建設初期采用了當時業(yè)界廣泛運用的“Hadoop+MPP數(shù)據庫”混搭架構作為數(shù)據倉庫。隨著數(shù)據量的不斷增長,平臺擴容和運維漫長繁瑣,無法滿足高時效性、高重要性應用的發(fā)展需求。
圍繞集團公司賦予的“全網集中服務的提供者、渠道運營的集中支撐者、業(yè)務的后臺集中處理者”的定位,中移在線向云原生技術積極布局。經過廣泛的市場調研和產品比較,最終以酷克數(shù)據的存算分離、彈性并行處理(EPP)數(shù)據庫產品——HashData云數(shù)倉為核心,實施Vertica全面替換,構建統(tǒng)一高效、敏捷智能、湖倉一體的數(shù)據體系,提供統(tǒng)一、多樣化、面向應用、面向主題的數(shù)據服務能力,為中移在線數(shù)字化轉型提供強大的數(shù)據能力底座。
首先,在本項目中,中移在線采用HashData EPP數(shù)據倉庫,與原有基礎云平臺、對象存儲集成,采用容器化部署方式建立起云原生數(shù)據倉庫。
傳統(tǒng)MPP架構的數(shù)據倉庫,由于數(shù)據量大,網絡、IO吞吐量高,無法采用容器化部署,難以實現(xiàn)資源利用的效率最大化。中移在線和酷克數(shù)據的技術團隊克服了網絡、存儲、調度、管理等方面遇到的諸多技術挑戰(zhàn),突破過往容器化僅用于無狀態(tài)應用場景或開發(fā)測試環(huán)境的限制,采用k8S+HashData 的技術路線,在國內率先建成實際生產環(huán)境下的容器化部署大規(guī)模云原生數(shù)據倉庫。
圖1:基于容器化部署的云原生數(shù)據倉庫解決方案
基于HashData存儲、計算、元數(shù)據三者分離的架構,借助更輕量級的容器虛擬化技術,進一步擴展了云原生數(shù)據倉庫平臺的彈性伸縮優(yōu)勢,以及高可用能力、自動化運維能力和資源敏捷交付能力,大幅提升了項目交付速度,降低了數(shù)據遷移和拓展難度,實現(xiàn)計算資源和交付效率的全面提升。
相比原有數(shù)據處理平臺,基于容器化部署的HashData云數(shù)倉,具備高可用、高并發(fā)能力,計算資源可水平無限擴展、支持秒級擴縮容等能力,并且在擴縮容期間不影響業(yè)務連續(xù)性,滿足不同場景業(yè)務數(shù)據計算、查詢需要,實現(xiàn)了計算資源快速部署、高效交付的建設目標。
同時,在項目實施過程中,中移在線在HashData云原生數(shù)據倉庫平臺計算引擎層構建起多種異構數(shù)據技術組件的生態(tài)兼容能力,采用融合分析技術,支持把核心倉庫區(qū)的數(shù)據與大數(shù)據區(qū)的數(shù)據進行關聯(lián)融合分析,減少數(shù)據搬遷,提升加工效率和數(shù)據資源利用率,滿足公司業(yè)務部門日益復雜的分析場景需求。最終,通過云原生數(shù)據倉庫與流處理系統(tǒng)、批處理系統(tǒng)、數(shù)據湖、對象存儲的集成,實現(xiàn)了數(shù)據高效匯聚,以及不同存儲之間數(shù)據低成本流動與透明訪問,助力數(shù)據高效融通、賦能生產運營。
此外,本次項目充分發(fā)揮了HashData豐富的接口能力與各種開發(fā)語言和上下游生態(tài)軟件兼容性強的特性,順利實現(xiàn)了云原生數(shù)據倉庫與現(xiàn)有報表指標工具、智能統(tǒng)計工具、數(shù)據洞察工具、自助分析工具、研發(fā)云平臺等系統(tǒng)的兼容適配,面向用戶提供高效的數(shù)據檢索與分析能力,提升用戶數(shù)據使用效率和體驗,提升用戶數(shù)據使用率。
在存量數(shù)據應用遷移方面,借助HashData云原生數(shù)據倉庫引擎用戶自定義函數(shù)、用戶自定義數(shù)據類型的特性,保持數(shù)據庫引擎間的兼容性;此外,通過HashData完善的遷移工具功能,優(yōu)化遷移方案,最大程度地實現(xiàn)了存量數(shù)據應用的“一鍵式”自動遷移及驗證操作,大幅縮減了遷移人力投入和整體項目周期,快速釋放新平臺業(yè)務價值。
圖2:Vertica存量應用工具化遷移方案
項目亮點
在本項目中,中移在線采用了HashData作為構建云原生數(shù)據倉庫平臺的核心引擎。依托HashData強大的數(shù)據查詢分析能力和云計算彈性伸縮能力,新平臺在技術架構、資源交付、業(yè)務賦能等方面實現(xiàn)了全方位提升:
· 數(shù)據倉庫系統(tǒng)架構創(chuàng)新
HashData云數(shù)倉解決了傳統(tǒng)數(shù)據倉庫在存算耦合、彈性伸縮、元數(shù)據管理等方面的弊端,各模塊之間完全解耦,并采用分布式部署,擺脫了傳統(tǒng)MPP數(shù)據庫的各種架構限制和制約,為客戶提供成熟穩(wěn)定的海量數(shù)據管理平臺,最大限度釋放數(shù)據價值。
· 數(shù)據倉庫容器化部署創(chuàng)新
中移在線在國內率先在實際生產環(huán)境實現(xiàn)了云數(shù)倉容器化大規(guī)模部署和應用。通過采用K8S+HashData技術路線,新平臺具備秒級快速擴縮容、讀寫分離、高可用、自動化運維、資源敏捷交付等能力,快速滿足業(yè)務發(fā)展需要,同時也進一步提升了資源利用率,賦能企業(yè)降本增效。
· 靈活高效的資源隔離能力創(chuàng)新
基于存算分離的架構,項目實現(xiàn)了基礎設施資源和應用解耦,可以根據計算集群的工作負載變化,靈活、動態(tài)調配計算集群資源。計算集群間性能相互隔離,資源和操作完全獨立,不會產生相互競爭 CPU、內存和IO的情況,從容應對紛繁復雜的數(shù)據應用場景。
· 應用驅動的自動緩存能力創(chuàng)新
HashData緩存采用LRU算法,實現(xiàn)了按需、自動化的緩存管理,提升了熱點數(shù)據訪問效率,讓底層存儲更高效滿足上層應用需求。
· 智能化自愈能力創(chuàng)新
HashData提供了管理組件實時監(jiān)控整個集群的運行狀態(tài),當感知到節(jié)點故障時將自動執(zhí)行不同策略下的恢復操作,實現(xiàn)故障自愈,保證整個數(shù)倉服務實現(xiàn)高可用,有效適應數(shù)倉平臺從決策管理輔助系統(tǒng)到業(yè)務運營關鍵支撐平臺的轉變,并滿足用戶對平臺全天候可用性的預期。
項目價值
基于容器化部署的云原生數(shù)據倉庫的建成,有效支撐了中移在線打造開放式數(shù)據生態(tài)體系,推動將數(shù)據變?yōu)橘Y產并服務于業(yè)務,以數(shù)據驅動業(yè)務增長,實現(xiàn)數(shù)據可見、可用、可經營,驅動業(yè)務創(chuàng)新和數(shù)據管理提速增效:
· 深化云原生技術應用,實現(xiàn)數(shù)據基礎平臺架構云化升級
本次云數(shù)倉平臺建設,是中移在線實現(xiàn)整個數(shù)據基礎平臺架構云化升級的重要一環(huán)。利用HashData云架構的可自由伸縮、靈活調配等優(yōu)勢,大幅提升計算資源快速部署、高效交付能力,支撐架構創(chuàng)新、數(shù)據生態(tài)、相互融合的特色數(shù)據體系,賦能公司未來業(yè)務高質量發(fā)展。
· 構建OneData數(shù)據平臺,實現(xiàn)真正意義上的企業(yè)級統(tǒng)一數(shù)據視圖
在本次云數(shù)倉平臺的建設中,將過往分散在四套獨立Vertica集群中的數(shù)據統(tǒng)一遷移至全轄共享的對象存儲,以更低成本、更高擴展性和可靠性,實現(xiàn)了全部數(shù)據資產的統(tǒng)一數(shù)據平臺納管,建立起真正意義上的企業(yè)級統(tǒng)一數(shù)據視圖,消除了數(shù)據孤島,避免了數(shù)據二義性對業(yè)務分析的影響,大幅降低了數(shù)據的使用與維護成本。
· 解耦數(shù)據應用與數(shù)據庫集群資源,實現(xiàn)資源管理與運維管理新范式
基于HashData的松耦合架構,創(chuàng)新性實現(xiàn)了數(shù)據應用與數(shù)據庫集群資源的解耦,建立起統(tǒng)一的數(shù)據分析算力資源池,實現(xiàn)資源細粒度的管理與調度,支持離線計算與在線計算任務混部,達到峰谷互補的效果,大幅提升服務器資源利用率。
· 建立湖倉一體數(shù)據體系,實現(xiàn)不同組件間數(shù)據高效融通與共享協(xié)作
本次項目建立起了以HashData云數(shù)倉為核心的湖倉一體數(shù)據體系。通過外部表和連接器這兩類組件,實現(xiàn)了面向異構計算工作資源負載下的統(tǒng)一多維度查詢分析服務架構,支持在多種計算引擎間共用計算和存儲資源,避免了大批量數(shù)據的搬遷,有效降低了整體數(shù)據鏈路的成本、代價和復雜性,提升加工效率和數(shù)據資源利用率,滿足公司業(yè)務部門日益復雜的分析場景需求。
圖3:中移在線云原生化數(shù)據倉庫平臺湖倉一體系統(tǒng)集成解決方案示意圖
· 完善遷移工具功能,實現(xiàn)存量應用“一鍵式”快速高效平滑遷移
在存量數(shù)據應用遷移方面,通過HashData完善的遷移工具,最大程度實現(xiàn)了存量數(shù)據應用的“一鍵式”自動遷移及驗證操作,在較短時間內完成了約600T存量數(shù)據、10萬個表、2000多個ETL腳本遷移與轉換工作,節(jié)省了大量人力成本。
同時,在經濟效益方面,使用HashData云數(shù)倉比在原有Vertica平臺基礎上擴容升級節(jié)省超過千萬元;采用存算分離架構以及容器化部署技術方案,硬件資源節(jié)省達到30%。
本次項目中,中移在線不僅完成了對傳統(tǒng)技術棧的替代,更重要的是在數(shù)據倉庫平臺架構方面實現(xiàn)了技術創(chuàng)新?;谌萜骰脑圃鷶?shù)據倉庫平臺,采用全棧信創(chuàng)架構技術棧,支持一云多芯(x86/C86/ARM)、一庫雙棧(通用/信創(chuàng)),在實現(xiàn)公司數(shù)字資產管理和運營全棧自主可控的同時,也實現(xiàn)了數(shù)據線全面技術升級。
云原生數(shù)據倉庫平臺從硬件、操作系統(tǒng)、數(shù)據庫三個維度以信創(chuàng)供應鏈為基礎搭建技術架構,具備高可用、易拓展等特點,結合容器化技術,構建基礎算力與存儲資源可統(tǒng)一管理、動態(tài)調配、敏捷交付,且無對外服務故障“斷點”的大數(shù)據服務體系。
本次項目全棧自主可控,兼顧安全穩(wěn)定與敏捷高效,實現(xiàn)了數(shù)據算力交付效率全面提升,為中移在線全面提升業(yè)務處理的數(shù)智化水平奠定了堅實基礎,為業(yè)務效率與技術融合創(chuàng)新提供了有力支撐。
未來,中移在線和酷克數(shù)據將積極響應國家和行業(yè)號召,圍繞“數(shù)字經濟、信創(chuàng)工程、創(chuàng)新驅動”的發(fā)展戰(zhàn)略,積極推進技術架構轉型升級,賦能數(shù)據高效融通,為提升線上營服能力、營銷轉化能力構筑強大數(shù)據融通計算底座。
關于酷克數(shù)據
酷克數(shù)據是中國領先具備自主可控研發(fā)能力的數(shù)據倉庫軟件廠商,核心團隊主要由來自Pivotal、Teradata、IBM、Yahoo!、Oracle和華為等公司資深的云計算、分布式數(shù)據庫和大數(shù)據專家組成。憑借深厚的技術積累以及極具前瞻性的產品理念,HashData數(shù)據倉庫已廣泛應用于金融、電信運營商、能源、政府、交通物流和互聯(lián)網等多個行業(yè)領先客戶。
關于中移在線
中移在線服務有限公司是中國移動在數(shù)字化時代全新設立的全資專業(yè)子公司,致力于以更高的服務效能,更優(yōu)的服務質量,做數(shù)字服務的提供者和創(chuàng)新者,成為客戶滿意、社會信賴的卓越服務品質創(chuàng)造者。
相關稿件