【世界獨(dú)家】對(duì)于大模型的思考,可以再“非線性”一點(diǎn)

2023-07-07 15:18:59

科幻作家江波曾說(shuō),人們總是用線性方式思考問(wèn)題。比如當(dāng)改良蒸汽機(jī)出現(xiàn)后,人們就會(huì)期望得到更大、更實(shí)用的機(jī)器,但現(xiàn)實(shí)比小說(shuō)更科幻的是,技術(shù)突破常常以“非線性”方式來(lái)到人們身邊。

從某種角度來(lái)說(shuō),今年引爆世界的大語(yǔ)言模型就是以“非線性”方式一下子進(jìn)入了人類視野,以至于今年的世界人工智能大會(huì)上,幾乎所有關(guān)于人工智能(AI)的討論都繞不開(kāi)這個(gè)選項(xiàng)。在昨天舉行的世界人工智能大會(huì)科學(xué)前沿全體會(huì)議上,對(duì)于大模型以及有望到來(lái)的通用人工智能(AGI),與會(huì)專家提醒,在考慮它們對(duì)人類社會(huì)帶來(lái)的影響方面,不妨讓思維“非線性”一點(diǎn)。


【資料圖】

大模型或許會(huì)改變城市格局

大模型的浪潮才剛剛開(kāi)始,一個(gè)無(wú)法忽視的問(wèn)題是,這是一個(gè)需要投入巨大資源、消耗巨大算力的賽道。在全球進(jìn)入“雙碳”時(shí)代的背景下,模型在算力層面對(duì)能源和環(huán)境的影響尤為值得關(guān)注。

由此,2017年圖靈獎(jiǎng)得主,美國(guó)藝術(shù)與科學(xué)院(AAAS)、國(guó)家科學(xué)院(NAS)、國(guó)家工程院(NAE)院士大衛(wèi)·帕特森在會(huì)上提出一個(gè)“好問(wèn)題”:如果人們制造計(jì)算機(jī)的能耗大于計(jì)算的能耗,人們還需要耗費(fèi)大量資源去建造更快的計(jì)算機(jī)嗎?

要回答這個(gè)問(wèn)題,當(dāng)務(wù)之急是要計(jì)算出計(jì)算機(jī)在工作時(shí)需要消耗多少能量,包括計(jì)算本身消耗的能量以及配電、冷卻方面的能量消耗。不少科學(xué)家做了相關(guān)實(shí)驗(yàn),發(fā)現(xiàn)訓(xùn)練不同深度學(xué)習(xí)語(yǔ)言模型的二氧化碳當(dāng)量從0.012至284噸不等。比如在不做超參數(shù)調(diào)整的情況下,訓(xùn)練一個(gè)基于Bert的模型的碳排放相當(dāng)于一次環(huán)美飛行的碳排量。帕特森自己的研究顯示,多數(shù)公司在運(yùn)行深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型時(shí)所消耗的能源和算力要多于模型訓(xùn)練階段。

當(dāng)大算力成為一種競(jìng)爭(zhēng)力,按照“非線性”思考方式,帕特森提醒那些氣候涼爽的高原以及擁有豐富水利資源的區(qū)域?qū)⒂瓉?lái)新的發(fā)展機(jī)遇。由于計(jì)算這件事在不同區(qū)域所產(chǎn)生的碳足跡不同,擁有“算力友好型”稟賦的區(qū)域可以借此獲得發(fā)展機(jī)會(huì),甚至改變現(xiàn)有的城市格局。

與其“卷”紅海,不如尋求新突破

模型架構(gòu)好比建筑框架,從設(shè)計(jì)之初就是為了貼合應(yīng)用需求。復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院教授邱錫鵬認(rèn)為,大模型越是發(fā)展,現(xiàn)在的Transformer模型架構(gòu)的不適應(yīng)就越發(fā)突出。比如現(xiàn)行架構(gòu)是沒(méi)有記憶的,處理長(zhǎng)輸入需要非常高的計(jì)算量。因此,最好的方式并非在現(xiàn)行架構(gòu)中繼續(xù)“卷”下去,而是為大模型量體裁衣設(shè)計(jì)新的架構(gòu)。

事實(shí)上,芯片架構(gòu)也需要?jiǎng)?chuàng)新。當(dāng)下市場(chǎng)主流芯片架構(gòu)有英特爾公司的X86和ARM公司的ARM,前者善于處理大數(shù)據(jù),后者處理快數(shù)據(jù)為主,兩者分別支撐起個(gè)人電腦及移動(dòng)互聯(lián)網(wǎng)(手機(jī))時(shí)代的主流芯片架構(gòu)。

相比之下,帕特森更推崇開(kāi)源架構(gòu)RISC-V。正是因?yàn)殚_(kāi)創(chuàng)了一種系統(tǒng)、定量的方法來(lái)設(shè)計(jì)和評(píng)價(jià)計(jì)算機(jī)體系結(jié)構(gòu),并對(duì)RISC微處理器行業(yè)產(chǎn)生了持久影響,他被授予2017年圖靈獎(jiǎng)。據(jù)介紹,RISC-V的平均指令數(shù)只有X86和ARM的1/10,且架構(gòu)可以隨意更改,可滿足從智能手表、智能汽車到5G基站、服務(wù)器的各種不同性能需求。更重要的是,RISC-V不隸屬于任何一家公司,任何企業(yè)、團(tuán)隊(duì)和個(gè)人都可以免費(fèi)用它來(lái)設(shè)計(jì)芯片。

此外,大模型雖然帶火了GPU(圖形處理器),但正如它的名字,GPU是為了圖像處理而發(fā)明的,而且恰巧碰上了機(jī)器學(xué)習(xí)的發(fā)展浪潮。在邱錫鵬看來(lái),與其用線性思維去“卷”GPU,不如開(kāi)發(fā)更適合人工智能的硬件,或許會(huì)有新的突破。

用電影闡述AI,更要試用AI

AI能幫電影人解決什么問(wèn)題?《流浪地球》系列科幻影片導(dǎo)演郭帆說(shuō),《流浪地球2》劇組整體有3萬(wàn)人,最多一場(chǎng)戲時(shí)2000多人在現(xiàn)場(chǎng),現(xiàn)行條件下沒(méi)有一個(gè)劇組能協(xié)調(diào)好這么多人。他期望AI能給出解決方案,比如未來(lái)只需要少量人員來(lái)現(xiàn)場(chǎng),其他人通過(guò)AI協(xié)同,可以在不同地點(diǎn)共同完成一件事。

作為一個(gè)用電影闡述AI的新生代導(dǎo)演,郭帆用實(shí)際行動(dòng)證明自己對(duì)AI有著很深的思考。他表示,未來(lái)半年內(nèi),他們將嘗試在劇本、拍攝、后期、宣傳、發(fā)行等20多個(gè)電影工業(yè)化環(huán)節(jié)上“試用AI”。

用線性思維來(lái)看,郭帆稱得上是做到了擁抱新技術(shù)的最佳電影人,但他帶給人們的驚喜不止于此?!拔覀冞€要考慮到觀影模式的變化,如果未來(lái)人們是戴著頭顯看電影的,我們能否拿出足夠優(yōu)秀的作品。”他說(shuō)。

好在清華大學(xué)智能產(chǎn)業(yè)研究院院長(zhǎng)、中國(guó)工程院外籍院士張亞勤的回答稍稍給郭帆吃下一顆定心丸。他表示,從《阿凡達(dá)》《泰坦尼克號(hào)》的制作經(jīng)驗(yàn)來(lái)看,雖然計(jì)算機(jī)技術(shù)發(fā)揮了越來(lái)越大的作用,但真正拿出創(chuàng)意的仍然是人。因此不管電影形態(tài)如何變化,作為工具的大模型只會(huì)變得更順手,它能夠讓更多人更快地將創(chuàng)意變成現(xiàn)實(shí)。

標(biāo)簽:

關(guān)閉
新聞速遞