馬修軍談視覺語言通用模型與具身智能

2023-07-08 22:15:47

2023世界人工智能大會“科技與人文——共筑無障礙智能社會”論壇8日在上海世博中心召開。

北京大學智能學院、跨媒體通用人工智能全國重點實驗室研究員,超級自動化聯(lián)合實驗室主任馬修軍博士在論壇上作題為《跨越AIGC大模型的鴻溝:視覺語言大模型推動泛在的具身智能》的主旨演講,從多模態(tài)通用模型角度,洞觀AIGC(生成式人工智能)的下一熱點——具身智能的發(fā)展以及大模型創(chuàng)新鏈與產(chǎn)業(yè)鏈深度融合。

人工智能已經(jīng)邁入AIGC時代,全球產(chǎn)業(yè)界都在競爭具有泛化能力的語言大模型,大模型產(chǎn)業(yè)鏈與生態(tài)鏈日益完善,國際巨頭不斷推高大語音模型能力,國內(nèi)百度、華為,騰訊、阿里等也在加速布局語言大模型。


(資料圖片僅供參考)

馬修軍介紹道,當前,基于語言大模型的工具鏈和生態(tài)不斷涌現(xiàn),大模型應用重點轉(zhuǎn)向行動導向,調(diào)用和操作外部系統(tǒng)和工具,即大模型從知識、推理轉(zhuǎn)向行動驅(qū)動。“但語言大模型的普及仍存在三大鴻溝:一是幻覺問題,二是記憶和個性化問題,三是多模態(tài)與物理世界交互問題。”他認為,AIGC大模型下一個熱點是多模態(tài)和具身智能。

所謂“具身智能”,是指能夠理解、推理并與物理世界交互的通用智能體,具有多模態(tài)感知認知能力和自主多任務機制。視覺語言大模型是多模態(tài)通用模型的核心。

視覺也是一種語言,語言的載體是文字。“中國象形文字天然具有多模態(tài)表征和明文通信的編碼能力,看一個字就知道什么意思。借助象形文字的編碼思想,我們可以為人工智能表征世界設(shè)計一種多模態(tài)特征編碼,進而發(fā)展多模態(tài)通用語言大模型?!瘪R修軍說。

據(jù)介紹,視覺語言大模型基于對現(xiàn)實世界表征預測的類象形文字的特征編碼,使得人工智能擁有了自己的文字,可以理解像素、聽懂語音序列并感知世界,真正擁有具身智能的核心能力,并且這種多模態(tài)文字編碼可用于具身智能之間的通訊交互,構(gòu)建一個泛在的機器智能社會。

馬修軍認為,多模態(tài)通用模型與具身智能是未來產(chǎn)業(yè)發(fā)展的基石,需要貫通學研產(chǎn)用全鏈條,推動大模型創(chuàng)新鏈與產(chǎn)業(yè)鏈深度融合。通信運營商算網(wǎng)融合,需要為多模態(tài)具身智能的通信重塑再造一種新型基礎(chǔ)設(shè)施,包括面向機器通信的編碼、消息格式及網(wǎng)元算力等。例如,面向機器的視覺編碼VCM與5G消息以及大模型的融合創(chuàng)新。

“在AIGC時代,全球產(chǎn)業(yè)界都在競爭通用人工智能的基礎(chǔ)模型,這是人工智能產(chǎn)業(yè)的皇冠,是未來智能社會的底座,并且它的演進速度非??臁!瘪R修軍表示,以大模型為基座的人工智能通用能力不會曇花一現(xiàn),多模態(tài)通用模型與具身智能將重塑未來社會的產(chǎn)業(yè)鏈和產(chǎn)業(yè)生態(tài),產(chǎn)生像互聯(lián)網(wǎng)一樣的影響力。

據(jù)悉,本次論壇由世界人工智能大會組委會辦公室指導,中國新聞社上海分社、上海市楊浦區(qū)人民政府聯(lián)合主辦,上海中新傳媒文化咨詢有限公司、上海市楊浦區(qū)科委承辦,上海市現(xiàn)代服務業(yè)聯(lián)合會、上海市海外經(jīng)濟技術(shù)促進會、上海市長寧區(qū)北新涇街道辦事處、上海新之海數(shù)據(jù)信息有限公司協(xié)辦,中新社國際傳播集團上海分公司、上海市人工智能行業(yè)協(xié)會支持。(完)

(文章來源:中國新聞網(wǎng))

標簽:

關(guān)閉
新聞速遞