国产厨房乱子伦真人露脸视频,国产日韩免费久久久久精品影

馬修軍談視覺語言通用模型與具身智能

2023-07-08 22:15:47

2023世界人工智能大會“科技與人文——共筑無障礙智能社會”論壇8日在上海世博中心召開。

北京大學智能學院、跨媒體通用人工智能全國重點實驗室研究員，超級自動化聯(lián)合實驗室主任馬修軍博士在論壇上作題為《跨越AIGC大模型的鴻溝：視覺語言大模型推動泛在的具身智能》的主旨演講，從多模態(tài)通用模型角度，洞觀AIGC(生成式人工智能)的下一熱點——具身智能的發(fā)展以及大模型創(chuàng)新鏈與產(chǎn)業(yè)鏈深度融合。

人工智能已經(jīng)邁入AIGC時代，全球產(chǎn)業(yè)界都在競爭具有泛化能力的語言大模型，大模型產(chǎn)業(yè)鏈與生態(tài)鏈日益完善，國際巨頭不斷推高大語音模型能力，國內(nèi)百度、華為，騰訊、阿里等也在加速布局語言大模型。

(資料圖片僅供參考)

馬修軍介紹道，當前，基于語言大模型的工具鏈和生態(tài)不斷涌現(xiàn)，大模型應用重點轉(zhuǎn)向行動導向，調(diào)用和操作外部系統(tǒng)和工具，即大模型從知識、推理轉(zhuǎn)向行動驅(qū)動。“但語言大模型的普及仍存在三大鴻溝：一是幻覺問題，二是記憶和個性化問題，三是多模態(tài)與物理世界交互問題。”他認為，AIGC大模型下一個熱點是多模態(tài)和具身智能。

所謂“具身智能”，是指能夠理解、推理并與物理世界交互的通用智能體，具有多模態(tài)感知認知能力和自主多任務機制。視覺語言大模型是多模態(tài)通用模型的核心。

視覺也是一種語言，語言的載體是文字。“中國象形文字天然具有多模態(tài)表征和明文通信的編碼能力，看一個字就知道什么意思。借助象形文字的編碼思想，我們可以為人工智能表征世界設(shè)計一種多模態(tài)特征編碼，進而發(fā)展多模態(tài)通用語言大模型?！瘪R修軍說。

據(jù)介紹，視覺語言大模型基于對現(xiàn)實世界表征預測的類象形文字的特征編碼，使得人工智能擁有了自己的文字，可以理解像素、聽懂語音序列并感知世界，真正擁有具身智能的核心能力，并且這種多模態(tài)文字編碼可用于具身智能之間的通訊交互，構(gòu)建一個泛在的機器智能社會。

馬修軍認為，多模態(tài)通用模型與具身智能是未來產(chǎn)業(yè)發(fā)展的基石，需要貫通學研產(chǎn)用全鏈條，推動大模型創(chuàng)新鏈與產(chǎn)業(yè)鏈深度融合。通信運營商算網(wǎng)融合，需要為多模態(tài)具身智能的通信重塑再造一種新型基礎(chǔ)設(shè)施，包括面向機器通信的編碼、消息格式及網(wǎng)元算力等。例如，面向機器的視覺編碼VCM與5G消息以及大模型的融合創(chuàng)新。

“在AIGC時代，全球產(chǎn)業(yè)界都在競爭通用人工智能的基礎(chǔ)模型，這是人工智能產(chǎn)業(yè)的皇冠，是未來智能社會的底座，并且它的演進速度非?？臁！瘪R修軍表示，以大模型為基座的人工智能通用能力不會曇花一現(xiàn)，多模態(tài)通用模型與具身智能將重塑未來社會的產(chǎn)業(yè)鏈和產(chǎn)業(yè)生態(tài)，產(chǎn)生像互聯(lián)網(wǎng)一樣的影響力。

據(jù)悉，本次論壇由世界人工智能大會組委會辦公室指導，中國新聞社上海分社、上海市楊浦區(qū)人民政府聯(lián)合主辦，上海中新傳媒文化咨詢有限公司、上海市楊浦區(qū)科委承辦，上海市現(xiàn)代服務業(yè)聯(lián)合會、上海市海外經(jīng)濟技術(shù)促進會、上海市長寧區(qū)北新涇街道辦事處、上海新之海數(shù)據(jù)信息有限公司協(xié)辦，中新社國際傳播集團上海分公司、上海市人工智能行業(yè)協(xié)會支持。(完)

（文章來源：中國新聞網(wǎng)）

標簽：

關(guān)閉

馬修軍談視覺語言通用模型與具身智能

相關(guān)推薦

精彩組圖

精彩放送

馬修軍談視覺語言通用模型與具身智能

四所高校接力！成都大運會火炬?zhèn)鬟f成都站第二個傳遞日開啟

大運村商業(yè)休閑區(qū)有哪些亮點？記者帶你搶先體驗

哈爾濱獲得2025年第九屆亞洲冬季運動會舉辦權(quán)

提供“互聯(lián)網(wǎng)+就業(yè)”不斷線服務 護航畢業(yè)生求職之路

相關(guān)推薦

精彩組圖

精彩放送

大運村商業(yè)休閑區(qū)有哪些亮點？記者帶你搶先體驗

提供“互聯(lián)網(wǎng)+就業(yè)”不斷線服務護航畢業(yè)生求職之路