吊打ChatGPT!GPT-4在多項(xiàng)考試中超過(guò)人類平均水平

2023-03-16 20:59:31


【資料圖】

編譯 | 高騰
2023年3月14日,GPT-4正式發(fā)布。數(shù)據(jù)顯示,它在各種專業(yè)和學(xué)術(shù)基準(zhǔn)上和人類相當(dāng),優(yōu)秀到令人難以置信!
根據(jù)產(chǎn)品白皮書,GPT-4在人類的多項(xiàng)考試中表現(xiàn)出色,包括美國(guó)律師考試(Bar)、美國(guó)法學(xué)院入學(xué)考試(LSATs)、SAT的閱讀和數(shù)學(xué)考試、GRE等。
例如,GPT-4在Bar考試?yán)飺魯×?0%的人類,在SAT閱讀考試中擊敗了93%人類,在SAT數(shù)學(xué)考試?yán)飺魯×?9%人類。
更令人驚訝的是,它的分?jǐn)?shù)幾乎是其前代GPT-3的兩倍。
OpenAI在其網(wǎng)頁(yè)上這樣總結(jié):“雖然在許多現(xiàn)實(shí)世界場(chǎng)景中的GPT-4能力還不及人類,但在各種專業(yè)和學(xué)術(shù)問(wèn)題上和人類表現(xiàn)出相同的水平。”
OpenAI開(kāi)發(fā)了一系列大型語(yǔ)言模型(LLM,large language model)。不久前火遍全球的ChatGPT用的語(yǔ)言模型是 GPT-3.5。雖然ChatGPT與GPT-4在隨意的談話中看起來(lái)很相似,但OpenAI 表示,在內(nèi)部評(píng)估中,GPT-4 產(chǎn)生正確回應(yīng)的可能性要比 GPT-3.5 高出 40%。
而且,GPT-4還是多模態(tài)的,不但可以接受文本輸入,還可接受圖像輸入。
在GPT4的發(fā)布會(huì)上,OpenAI的總裁和聯(lián)合創(chuàng)始人Greg Brockman就展示了一段它所擁有的強(qiáng)大編程能力:
首先在紙上簡(jiǎn)單畫一個(gè)非常粗糙的草稿圖;然后拍照上傳給GPT-4,告訴它要做一個(gè)網(wǎng)站,讓它生成網(wǎng)站代碼;大約10秒鐘后,GPT-4給出了完整的網(wǎng)站代碼。
這效果應(yīng)該會(huì)讓眾多網(wǎng)站開(kāi)發(fā)者感到巨大的壓力和職業(yè)危機(jī)。
雖然OpenAI發(fā)布上述統(tǒng)計(jì)數(shù)據(jù)確實(shí)令人驚嘆,但該公司也承認(rèn),GPT-4仍然存在與其前身相同的缺陷。
OpenAI在其網(wǎng)站上指出:GPT-4仍存在與早期GPT模型相似的局限性,它并不是“完全可靠的”,最新版本的GPT仍會(huì)“幻覺(jué)”事實(shí)并出現(xiàn)推斷錯(cuò)誤。
“在使用LLM輸出時(shí)應(yīng)格外小心,特別是在容易出錯(cuò)的語(yǔ)境下,具體的使用規(guī)則應(yīng)根據(jù)具體需求來(lái)確定,例如人工審查、加強(qiáng)背景理解甚至完全避免高風(fēng)險(xiǎn)使用等規(guī)則。”OpenAI方面稱。
尤其值得關(guān)注的是,OpenAI正在加快更新迭代速度——GPT-3于2020年夏季發(fā)布;GPT 3.5于去年12月1日推出,并給世界帶來(lái)了ChatGPT;而現(xiàn)在,僅僅3個(gè)月左右,GPT-4就面世了。
雖然人們還在分析GPT-4的全部能力,但目前可以明確的一點(diǎn)是,AI領(lǐng)域有著不斷增長(zhǎng)的發(fā)展動(dòng)力和廣闊的市場(chǎng)前景。
如果有人想要體驗(yàn)GPT-4,除了申請(qǐng)付費(fèi)版應(yīng)用,也可以免費(fèi)體驗(yàn)。因?yàn)槲④浺呀?jīng)確認(rèn),新版本Bing正在GPT-4上運(yùn)行。如果在過(guò)去幾周內(nèi)你使用過(guò)新的Bing預(yù)覽版,那么你已經(jīng)體驗(yàn)過(guò)這個(gè)強(qiáng)大模型的早期版本。
原文鏈接:
https://futurism.com/the-byte/gpt-4-exam-scores
GPT-4白皮書:
https://cdn.openai.com/papers/gpt-4.pdf

標(biāo)簽:

關(guān)閉
新聞速遞