彈性高性能計算E-HPC 隨時可以構(gòu)筑在阿里云上的珠穆朗瑪

2020-10-21 20:10:55

“我們以前把彈性計算比喻成‘構(gòu)筑一個青藏高原’,其實它是一個算力的高原,旨在為全社會提供更好的算力基礎。經(jīng)過近幾年的發(fā)展,我們能夠賦能客戶去構(gòu)筑自己的一個‘珠穆朗瑪峰’。”近日,在2020年全國高性能計算學術(shù)年會(HPC CHINA)期間,阿里巴巴集團研究員、阿里云智能彈性計算負責人張獻濤(花名“旭卿”)在接受環(huán)球網(wǎng)報道記者采訪時表示,“當彈性計算遇到高性能計算,阿里云高性能計算平臺滿足了客戶對于算力的要求,利用這個平臺的優(yōu)勢,客戶就可以把自己的應用搬上‘珠穆朗瑪峰’。”

高性能計算的“青藏高原”

2017年9月,阿里云宣布推出全新一代異構(gòu)計算加速平臺,在業(yè)界第一次覆蓋了包括AMD、NVidia的GPU和Intel、XILINX的FPGA在內(nèi)的所有6款主流異構(gòu)實例。彼時,阿里云高性能計算研發(fā)負責人何萬青曾指出,“如果把傳統(tǒng)超算中心比作‘珠穆朗瑪峰’,那么阿里云的E-HPC則是將高性能計算做更普惠的覆蓋,成為高性能計算的‘青藏高原’。 在青藏高原上看,世界之巔珠穆朗瑪,相對而言是4千多米,通過神龍超級計算集群,你隨時可以構(gòu)筑在阿里云上的珠穆朗瑪。”

2020年阿里云彈性計算產(chǎn)品年度發(fā)布會上,阿里云宣布推出第三代神龍云服務器,即第三代彈性裸金屬服務器(ECS Bare Metal Instance),它是基于阿里云完全自主研發(fā)的下一代虛擬化技術(shù)而打造的新型計算類服務器產(chǎn)品,兼具虛擬機的彈性和物理機的性能及功能特性。與上一代虛擬化技術(shù)相比,它不僅保留了普通云服務器的彈性體驗,而且保留了物理機的性能與特性,全面支持嵌套虛擬化技術(shù)。

在張獻濤看來,企業(yè)用戶需要更強的計算性能、更快的網(wǎng)絡接入、更高的存儲讀寫能力,意味著存儲的IOPS要高、網(wǎng)絡的PPS要高、網(wǎng)絡的帶寬存儲能力要高,而解決這些問題的根本則在于——變革虛擬化技術(shù)。“傳統(tǒng)服務器主要依賴堆硬件提升性能,而阿里云自研的神龍架構(gòu),基于硬件云原生理念,創(chuàng)新性打破了虛擬化技術(shù)與CPU、內(nèi)存、網(wǎng)卡等硬件的天然鴻溝,可發(fā)揮出比傳統(tǒng)物理機更強的性能。”張獻濤說到。

基于第三代神龍云服務器的阿里云第六代增強型實例,全系搭配ESSD系列云盤,存儲轉(zhuǎn)發(fā)能力最多提升四倍;支持10Gbps突發(fā)內(nèi)網(wǎng)帶寬,單卷延時大幅下降;性能等級按需配置,在線無損變配;同時ESSD使用門檻大幅下降50%,性價比大幅提升。此外,阿里云ECS的單實例穩(wěn)定性從原來的99.95%提升到99.975%,跨AZ多實例穩(wěn)定性從原來的99.99%提升到99.995%,均為全球最高水準。

依托神龍架構(gòu)的創(chuàng)新突破,超算中心可以在云上瞬間生成,只需在彈性裸金屬上用高速的ROCE/IB網(wǎng)絡進行互聯(lián),再連接VPC、云盤、以及云上的其他產(chǎn)品,構(gòu)建整個HPC軟件棧加上連接云端并行文件系統(tǒng),用戶就可以得到一個能媲美或超越超算中心的云超算中心,具備相當高的并行效率,并且具備云的彈性。

助力行業(yè)攀登性能“高峰”

據(jù)介紹,《流浪地球》制作方MORE VFX(墨鏡天合)已將算力需求最大的渲染環(huán)節(jié)遷上阿里云。傳統(tǒng)的后期處理,對計算力的需求會隨項目而變,低谷期利用率不高、高峰期資源無保障,且排隊嚴重。為了解決這一問題,MORE VFX通過專線上云,利用阿里云高性能計算E-HP服務,在云端完成渲染,一天可以處理原本一周的量,大大縮短了渲染等待時間。

采訪中,阿里云智能高性能計算負責人何萬青告訴記者,MORE VFX后期特效量極大,且對于計算力的需求隨項目而變。其自有本地農(nóng)場數(shù)百臺多核服務器在低谷期利用率不高,在高峰期任務排隊又嚴重,這就需要借助外部渲染農(nóng)場服務器才能完成任務。而農(nóng)場服務器老舊,性能不高;只能依靠硬盤寄送方式,資產(chǎn)安全性差;同時資源缺乏彈性。這些問題困擾著MORE XFV,最終選擇了渲染上云利用阿里云高性能計算服務(E-HPC)平臺,在云端完成渲染任務。

值得關(guān)注的是,在渲染任務上云過程中,結(jié)合后期制作公司的業(yè)務流程需求,阿里云團隊提供了混合云渲染方案,同時通過為MORE VFX定制文件異步緩存能力,有效降低了超大規(guī)模集群渲染時對專線帶寬的壓力。另外,通過阿里云高性能計算緩存層的橫向、縱向擴展能力,能夠平滑分解渲染節(jié)點對緩存層的吞吐和IO壓力,從而提供極強的資源彈性。

據(jù)報道,通過阿里云高性能計算集成的行業(yè)通用軟件deadline、計費和報表功能,渲染集群可以根據(jù)任務排隊情況自動伸縮,使得運維極其簡單,大大節(jié)省了MORE VFX IT部門的工作量。

目前,阿里云高性能計算已覆蓋工業(yè)制造、生命科學、油氣勘探和影視特效等多個行業(yè),除了流浪地球制作方MOREVFX等頂級視效企業(yè)之外,還服務了吉利和上汽等知名車企,并在新冠疫情期間公益支持了全球健康藥物研發(fā)中心(GHDDI)、中山大學等全球十多家醫(yī)療與科研機構(gòu)進行新冠相關(guān)研發(fā)工作。

值得一提的是,今年8月份,Gartner發(fā)布的最新云廠商產(chǎn)品評估報告顯示,阿里云在計算大類中,以92.3%的高得分率拿下全球第一,并且刷新了該項目的歷史最佳成績;在存儲和IaaS基礎能力大類中,阿里云也位列全球第二。

標簽: 彈性高性能計算E-HPC

關(guān)閉
新聞速遞