“科學研究正變成一個又一個大數據問題?!碧斓瞎た乜偣こ處熍e例說,“千人基因組計劃”每月產生1萬億條堿基序列信息,我國30多個在軌民用航天平臺每年有超過3PB遙感衛星數據,FAST 射電望遠鏡的數據產出速度是6000億條記錄/年,大型強子對撞機實驗每年產生15PB原始數據……“未來,基于對科學大數據的處理和分析將成為發現新知識的基本特征。”
其實,去年8月底,國務院就發布了《促進大數據發展行動綱要》,明確提出要發展科學大數據,以實現科學數據的開放共享和應用服務。今年7月,《十三五國家科技創新規劃》進一步明確了多個重點領域的大數據發展規劃,比如在人工智能方面,要“重點發展大數據驅動的類人智能技術方法”;在材料基因工程方面,要研發“材料大數據”等四大關鍵技術;在先進高效生物技術方面,要加快推進“生物大數據”等生命科學前沿關鍵技術突破;在生態環保方面,要開發“生態環境大數據”應用技術;在精準醫學方面,要建立“國家生物醫學大數據共享平臺”;在空天探測開發和利用方面,開展“多源多尺度時空大數據分析與地球系統模擬”等核心關鍵技術研究及示范應用。
科學大數據的海量、多源、異構、高維等特征,向傳統HPC系統發起了全新的挑戰。“多數科研項目的數據量非常巨大并快速變化,而且往往是分布、異構的,傳統的數據管理模式已不能滿足需要;此外對科學大數據的‘計算’包括了從數據獲取、管理到分析、可視化的全過程,傳統的高性能計算亟需將服務向外延拓展?!苯忉屨f。
作為誕生于科研國家隊、多年服務于科研領域的HPC領軍企業,曙光敏銳地洞察到科學大數據的未來前景及其對“計算-存儲-分析”架構提出的更高要求,率先將“大力發展科學大數據”列入公司“數據中國加速計劃”戰略,為科學大數據引擎的進一步開發和水平提高提供了有力的保障。