環(huán)球微頭條丨ChatGPT沒有“黑科技”,機(jī)制創(chuàng)新值得借鑒

2023-04-08 21:07:08
中國科學(xué)報 發(fā)布時間:2023/4/8 20:29:29
選擇字號:
中科院計(jì)算所研究員包云崗:
ChatGPT沒有“黑科技”,機(jī)制創(chuàng)新值得借鑒

 

 在與新必應(yīng)(New Bing,集成了大語言模型GPT-4能力的搜索引擎)“深聊”之后,中國科學(xué)院計(jì)算技術(shù)研究所副所長、研究員包云崗發(fā)現(xiàn)了一點(diǎn)“規(guī)律”:對于一些需要精準(zhǔn)答案的場景,GPT-4開始變得不可靠。

“與New Bing討論一些社會人文話題,它回答得頭頭是道;讓它列一個信息技術(shù)發(fā)展報告大綱,看起來很有層次;讓它望文作圖、再賦詩一首,表現(xiàn)也還不錯。直到開始討論一道數(shù)學(xué)題,它似乎有‘情緒’了——試了兩次都沒答對,最終它不想再繼續(xù)對話?!卑茘徴f道。

他不灰心,繼續(xù)第三次嘗試,但New Bing仍然沒有給出正確答案。

“但依然有驚喜——New Bing的三次回答,使用了三種不同的思路,這說明它背后的GPT-4所采用基于人工反饋的強(qiáng)化學(xué)習(xí)(RLHF)確實(shí)在發(fā)揮作用?!卑茘徴f。

包云崗 受訪者供圖  ?


AI模型的挑戰(zhàn):“污點(diǎn)知識”難清理

包云崗觀察到,雖然GPT-4存在不錯的推導(dǎo)能力,但是它的知識體系中存在一定比例的“污點(diǎn)知識”(低級錯誤或謬誤等知識),在這些“污點(diǎn)知識”干擾下,GPT-4的每一次嘗試都無法完成正確的推導(dǎo)過程。

比如,在他讓New Bing解答一道數(shù)學(xué)題時,后者連續(xù)掉到兩個低級錯誤的“坑”里,以至于得不出正確答案。

他不無擔(dān)憂地談到,也許這些“污點(diǎn)知識”在整個GPT-4大模型中的比例不高,甚至這些“污點(diǎn)”對于一些應(yīng)用場景(比如生成一個團(tuán)建活動方案或一個報告提綱等)也并不重要,但是對于一些需要精準(zhǔn)答案的場景,“確實(shí)不可接受”。

并且,他提到,從基于人工反饋的強(qiáng)化學(xué)習(xí)機(jī)制的角度來看,這種“污點(diǎn)知識”的引入?yún)s很容易,甚至可以被刻意注入,但清除起來卻是非常耗時耗力。

“除非再引入某種機(jī)制能針對每一次人工反饋進(jìn)行甄別,但這種機(jī)制又將會依賴可信的基準(zhǔn)數(shù)據(jù)(ground truth),那可信的基準(zhǔn)數(shù)據(jù)又從哪里來?是否需要人工進(jìn)行校審?”包云崗說,如此將會帶來一系列問題。因此,他認(rèn)為,如何清理ChatGPT系列大模型中現(xiàn)有的“污點(diǎn)知識”,將會是未來所面臨的挑戰(zhàn)之一。

ChatGPT有未公布的“黑科技”?

ChatGPT發(fā)布后,多家企業(yè)和機(jī)構(gòu)都想快速復(fù)制一個ChatGPT出來,包括谷歌的Bard以及國內(nèi)的幾個大模型,但在效果上都還有明顯的差距。因此,很多人認(rèn)為ChatGPT的“出品方”O(jiān)penAI一定掌握了某種“黑科技”沒有對外公布。

包云崗不這么看,他認(rèn)為ChatGPT的震撼效果來自于大量“點(diǎn)技術(shù)”的積累,而不是得益于某種“黑科技”。

“我在中國科學(xué)院大學(xué)教本科生操作系統(tǒng),在課堂上我一直強(qiáng)調(diào)要用系統(tǒng)思維去審視世界。因此,在我眼中,ChatGPT是一種龐大的系統(tǒng)。”包云崗說,“系統(tǒng)=模塊+流程”,ChatGPT系統(tǒng)內(nèi)部一定有很多個模塊構(gòu)成,這些模塊之間存在復(fù)雜的連接關(guān)系、交互流程,從而構(gòu)成一個網(wǎng)絡(luò)。而根據(jù)“梅特卡夫定律”——當(dāng)一個網(wǎng)絡(luò)內(nèi)的節(jié)點(diǎn)數(shù)越多,那么整個網(wǎng)絡(luò)的價值也就越大。因此,通過不斷積累,讓一個系統(tǒng)集成越來越多的點(diǎn)技術(shù),那么該系統(tǒng)的價值就會越來越大。

梅特卡夫定律以計(jì)算機(jī)網(wǎng)絡(luò)先驅(qū)、新晉2022年度圖靈獎得主羅伯特·梅特卡夫的姓氏命名,是一個關(guān)于網(wǎng)絡(luò)的價值和網(wǎng)絡(luò)技術(shù)的發(fā)展的定律,其最初描述是“一個網(wǎng)絡(luò)的價值等于該網(wǎng)絡(luò)內(nèi)的節(jié)點(diǎn)數(shù)的平方,而且該網(wǎng)絡(luò)的價值與聯(lián)網(wǎng)的用戶數(shù)的平方成正比”??傊粋€網(wǎng)絡(luò)的用戶數(shù)目越多,那么整個網(wǎng)絡(luò)的價值也就越大。一個復(fù)雜系統(tǒng)也是由成百上千個緊密耦合、相互關(guān)聯(lián)的點(diǎn)技術(shù)構(gòu)成一個技術(shù)網(wǎng)絡(luò)。因此根據(jù)梅特卡夫定律,系統(tǒng)價值或壁壘將會隨著集成的點(diǎn)技術(shù)數(shù)量增加而不斷提高。

“當(dāng)然,網(wǎng)絡(luò)越復(fù)雜,集成的難度也就越大。但是,一旦通過技術(shù)攻關(guān)成功實(shí)現(xiàn)新算法或新功能的集成,構(gòu)成一個更大的技術(shù)網(wǎng)絡(luò),那么壁壘也就更高。”包云崗說,因此,從系統(tǒng)角度來看,ChatGPT的壁壘就是通過積累大量點(diǎn)技術(shù)而形成的。

這一看法與OpenAI聯(lián)合創(chuàng)始人Sam Altman的表述一致。Sam Altman在一次節(jié)目訪談中提到:“GPT-4是靠發(fā)現(xiàn)大量的小創(chuàng)新、再把它們相乘(finding a lot of small wins and multiply them together),從外界看,好像是我們做了一件事實(shí)現(xiàn)了從GPT-3、GPT-3.5到GPT-4,但其實(shí)這是幾百件復(fù)雜的事情(相乘)?!?/p>

包云崗說,基于這樣的共識,或許大家可以對國內(nèi)的大模型“多一份信心和期望”:“以百度文心一言為例,我們不期望它一下子就能趕上GPT-4,但只要百度能扎扎實(shí)實(shí)地持續(xù)迭代優(yōu)化,不斷去解決數(shù)百個甚至數(shù)千個問題,那么相信它的效果就會越來越好?!?/p>

中國為何未研制出ChatGPT?

引申到“ChatGPT為何沒能誕生在中國”的話題,包云崗認(rèn)為沒必要太過糾結(jié):“斯坦福大學(xué)、麻省理工學(xué)院等知名大學(xué)、谷歌等科技巨頭也沒能研制出 ChatGPT?!本科涓?,背后原因很多——比如需要有遠(yuǎn)見的領(lǐng)導(dǎo)者、優(yōu)秀的技術(shù)團(tuán)隊(duì)、雄厚的資金等等。除此之外,OpenAI的機(jī)制創(chuàng)新也在其中起著關(guān)鍵作用。

“基于人工智能生成內(nèi)容(AIGC)的通用人工智能是一個充滿無限想象的目標(biāo),但反過來也是一個不知道何時能實(shí)現(xiàn)的目標(biāo)。一個理性的大廠或者初創(chuàng)企業(yè),幾乎不會以這樣的目標(biāo)作為公司使命,但很適合非盈利機(jī)構(gòu)(NPO)?!卑茘徴f,OpenAI開始以NPO 的方式成立,致力于AI技術(shù)研究和協(xié)作,推動AI技術(shù)造福人類,因此OpenAI能創(chuàng)造出ChatGPT并不偶然。

一般而言,NPO會通過接受捐贈方式獲得資金來源,比如OpenAI最初就獲得了埃隆·馬斯克1億美元的捐助。然而,捐贈模式很難維持需要大量資金的研發(fā)運(yùn)行,“自我造血能力”始終是NPO模式要面臨的難題。包云崗說,他們在成立和運(yùn)行北京開源芯片研究院的過程中就遇到這個問題,他也在思考如何破題。

OpenAI是如何破局的?在“燒”完前期捐資后,OpenAI提出了一種創(chuàng)新機(jī)制——在傳統(tǒng)NPO模式基礎(chǔ)上增設(shè)一種有限盈利模式。這種新模式跟傳統(tǒng)捐贈最大的區(qū)別在于,捐贈完全讓渡了所有權(quán)益,而通過有限盈利模式的投入可以轉(zhuǎn)變?yōu)楣蓹?quán),具有保值和增值特點(diǎn)。因此,“NPO模式+有限盈利模式”一定程度上解決了上述矛盾,通過NPO模式維護(hù)其長期主義目標(biāo),通過有限盈利模式保障長期運(yùn)行經(jīng)費(fèi)。

“當(dāng)然,這種模式也有人并不認(rèn)可,比如馬斯克認(rèn)為這種模式破壞了NPO模式的初衷。但如果沒有這種機(jī)制上的突破,也許OpenAI早就已經(jīng)倒閉,也更不用說ChatGPT的誕生。”包云崗說。

 
版權(quán)聲明:凡本網(wǎng)注明“來源:中國科學(xué)報、科學(xué)網(wǎng)、科學(xué)新聞雜志”的所有作品,網(wǎng)站轉(zhuǎn)載,請?jiān)谡纳戏阶⒚鱽碓春妥髡?,且不得對?nèi)容作實(shí)質(zhì)性改動;微信公眾號、頭條號等新媒體平臺,轉(zhuǎn)載請聯(lián)系授權(quán)。郵箱:shouquan@stimes.cn。
<script src="/html/js/share.js" type="text/javascript"></script>
 
 打印  發(fā)E-mail給: 
    
 


【資料圖】

在與新必應(yīng)(New Bing,集成了大語言模型GPT-4能力的搜索引擎)“深聊”之后,中國科學(xué)院計(jì)算技術(shù)研究所副所長、研究員包云崗發(fā)現(xiàn)了一點(diǎn)“規(guī)律”:對于一些需要精準(zhǔn)答案的場景,GPT-4開始變得不可靠。

“與New Bing討論一些社會人文話題,它回答得頭頭是道;讓它列一個信息技術(shù)發(fā)展報告大綱,看起來很有層次;讓它望文作圖、再賦詩一首,表現(xiàn)也還不錯。直到開始討論一道數(shù)學(xué)題,它似乎有‘情緒’了——試了兩次都沒答對,最終它不想再繼續(xù)對話?!卑茘徴f道。

他不灰心,繼續(xù)第三次嘗試,但New Bing仍然沒有給出正確答案。

“但依然有驚喜——New Bing的三次回答,使用了三種不同的思路,這說明它背后的GPT-4所采用基于人工反饋的強(qiáng)化學(xué)習(xí)(RLHF)確實(shí)在發(fā)揮作用?!卑茘徴f。

標(biāo)簽:

關(guān)閉
新聞速遞