焦點(diǎn)要聞:先進(jìn)芯片不等于先進(jìn)算力 騰訊講解云上訓(xùn)練大模型必要性

2023-04-14 12:57:49

如火如荼的國(guó)內(nèi)大模型創(chuàng)業(yè)潮中,高端芯片的短缺引發(fā)的算力壓力一直是行業(yè)擔(dān)憂的關(guān)鍵點(diǎn)。4月14日,騰訊宣布兩大事宜——首發(fā)英偉達(dá)H800,以及發(fā)布高性能計(jì)算集群,緩解大模型趨勢(shì)下的算力壓力。

所謂“高性能計(jì)算集群”,主要采用騰訊云星星海自研服務(wù)器,搭載英偉達(dá)最新代次H800 GPU,服務(wù)器之間采用3.2T超高互聯(lián)帶寬,為大模型訓(xùn)練、自動(dòng)駕駛、科學(xué)計(jì)算等提供高性能、高帶寬和低延遲的集群算力。


(資料圖片)

大模型帶動(dòng)算力需求激增

算力問(wèn)題之所以成為行業(yè)頭疼的難題,是因?yàn)楫?dāng)前大模型進(jìn)入萬(wàn)億參數(shù)時(shí)代,單體服務(wù)器算力有限,需要將大量服務(wù)器通過(guò)高性能網(wǎng)絡(luò)相連,打造大規(guī)模算力集群。

此前接受采訪時(shí),騰訊云異構(gòu)計(jì)算產(chǎn)品總監(jiān)宋丹丹對(duì)第一財(cái)經(jīng)記者表示,大模型是目前需求比較旺盛的業(yè)務(wù),行業(yè)對(duì)算力的要求分為訓(xùn)練和推理兩個(gè)階段。訓(xùn)練需要短時(shí)間內(nèi)并行算力非常全,算力非常大,且要在短時(shí)間內(nèi)能夠做到交付,所以對(duì)于算力的量級(jí)、穩(wěn)定性、性能,以及彈性擴(kuò)縮容的能力有比較高的要求。進(jìn)入推理階段,大模型對(duì)于單位算力的性價(jià)比、成本以及算力所處的位置與端應(yīng)用的服務(wù)是否能夠快速連接的要求較高。

目前來(lái)看,宋丹丹認(rèn)為大模型所處的階段還處于訓(xùn)練需求的爆發(fā)期,行業(yè)需要的還是一個(gè)海量的可擴(kuò)縮容的高性能算力,并且這些算力能夠穩(wěn)定交付、穩(wěn)定計(jì)算。因?yàn)橹虚g打斷一下,整個(gè)訓(xùn)練過(guò)程就會(huì)暫停,所以對(duì)于算力的穩(wěn)定性要求很高。

對(duì)于目前行業(yè)對(duì)算力需求的變化,宋丹丹表示,一些新入場(chǎng)的業(yè)務(wù)確實(shí)有了新的增量,如之前的異構(gòu)計(jì)算面向的領(lǐng)域主要是三大方向:一個(gè)是科學(xué)計(jì)算,如天氣、地理測(cè)繪、醫(yī)藥研發(fā);其次是渲染視覺(jué)類的,比如XR、VR的視覺(jué)服務(wù)、渲染,包括影視渲染、動(dòng)畫渲染、二維3D渲染等;第三類就是AI的SaaS和PaaS的應(yīng)用服務(wù)。

現(xiàn)在的算力增量在騰訊云看來(lái),可以籠統(tǒng)地可以劃歸到之前的AI傳統(tǒng)服務(wù)里,只不過(guò)它的需求從原來(lái)的推理向和渲染更多地走向了訓(xùn)練向,更多的客戶開始自己訓(xùn)練AI模型,這是目前市場(chǎng)的變化。

先進(jìn)芯片不完全等于先進(jìn)算力

算力需求暴增的當(dāng)下,行業(yè)普遍將芯片,尤其高端芯片的短缺視為重要限制,但在騰訊云看來(lái),當(dāng)前大熱的人工智能大模型需要海量數(shù)據(jù)和強(qiáng)大的算力來(lái)支撐訓(xùn)練和推理過(guò)程,其中數(shù)據(jù)主要由服務(wù)器和光模塊存儲(chǔ)、運(yùn)輸,算力支撐則依賴各類芯片。

但用上了先進(jìn)芯片并不代表就擁有了先進(jìn)算力,原因在于高性能計(jì)算存在“木桶效應(yīng)”,一旦計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)任一環(huán)節(jié)出現(xiàn)瓶頸,就會(huì)導(dǎo)致運(yùn)算速度嚴(yán)重下降。

比如目前GPU并行是大模型訓(xùn)練的必備技術(shù),不同于傳統(tǒng)并行以加快計(jì)算速度為目的,大模型的并行計(jì)算往往還要考慮怎樣將龐大的參數(shù)有機(jī)地分布到多張GPU卡中,并保持不同GPU卡之間有效的通信,整體配合完成大模型的訓(xùn)練部署。

即使是目前業(yè)界已有的GPU分布式訓(xùn)練方案,也嚴(yán)重依賴于服務(wù)器之間的通信、拓?fù)?、模型并行、流水并行等底層?wèn)題的解決情況。如果只有分布式訓(xùn)練框架,甚至都無(wú)法正常啟動(dòng)訓(xùn)練過(guò)程。這也是為什么當(dāng)時(shí) GPT-3 已經(jīng)發(fā)布一年,卻只有少數(shù)企業(yè)可以復(fù)現(xiàn) GPT-3。

因此,先進(jìn)算力的背后是先進(jìn)芯片、先進(jìn)網(wǎng)絡(luò)、先進(jìn)存儲(chǔ)等一系列的支撐,缺一不可。此次騰訊自研的星脈網(wǎng)絡(luò),為新一代集群帶來(lái)3.2T的超高通信帶寬。騰訊方面的實(shí)測(cè)結(jié)果顯示,搭載同樣的GPU卡,3.2T星脈網(wǎng)絡(luò)相較前代網(wǎng)絡(luò),能讓集群整體算力提升20%,使得超大算力集群仍然能保持優(yōu)質(zhì)的通信開銷比和吞吐性能。并提供單集群高達(dá)十萬(wàn)卡級(jí)別的組網(wǎng)規(guī)模,支持更大規(guī)模的大模型訓(xùn)練及推理。

另外,騰訊云自研的文件存儲(chǔ)、對(duì)象存儲(chǔ)架構(gòu),具備TB級(jí)吞吐能力和千萬(wàn)級(jí)IOPS,充分滿足大模型訓(xùn)練的大數(shù)據(jù)量存儲(chǔ)要求。

芯片方面,此前,騰訊多款自研芯片已經(jīng)量產(chǎn)。其中,用于AI推理的紫霄芯片、用于視頻轉(zhuǎn)碼的滄海芯片已在騰訊內(nèi)部交付使用。至于此次首發(fā)的英偉達(dá)H800芯片儲(chǔ)備數(shù)量問(wèn)題,截至發(fā)稿,騰訊方面暫未回應(yīng)。

(文章來(lái)源:第一財(cái)經(jīng))

標(biāo)簽:

關(guān)閉
新聞速遞