AV无码久久久久久不卡,国产黄色视频免费观看

視覺知識和多重知識AI發(fā)展

2021-08-18 16:06:06

“一個(gè)小孩子還不會說話時(shí)，看到杯子就知道抓過來喝水。這說明他已學(xué)到很多視覺知識。”在日前舉辦的2021中國·寧波新一代人工智能學(xué)術(shù)峰會上，中國工程院院士、中國工程院原常務(wù)副院長潘云鶴解釋道。

以往的認(rèn)知心理學(xué)研究認(rèn)為，人類記憶的視覺知識要遠(yuǎn)多于言語知識。為此，潘云鶴系統(tǒng)提出了“視覺知識”概念。

這些年，圖像識別技術(shù)的突破提高了計(jì)算機(jī)對人臉、文字、指紋、醫(yī)學(xué)圖片等識別的準(zhǔn)確率，進(jìn)而推動智能汽車、安全監(jiān)控、機(jī)器人、無人機(jī)、智能制造等快速發(fā)展，形成人工智能(AI)對經(jīng)濟(jì)社會發(fā)展的推動。

“但以往AI研究的一大弱點(diǎn)是對視覺知識研究不足，視覺知識研究與應(yīng)用是AI邁向2.0的關(guān)鍵。”潘云鶴說。

在潘云鶴看來，視覺知識至少有五個(gè)基本問題，分別是視覺知識表達(dá)、視覺識別、視覺形象變化模擬、視覺知識學(xué)習(xí)和多重知識表達(dá)。其中，視覺知識表達(dá)和多重知識表達(dá)是關(guān)鍵所在。

對于第一個(gè)問題視覺知識表達(dá)，潘云鶴認(rèn)為，認(rèn)知心理學(xué)實(shí)驗(yàn)表明，視覺知識具有不同于言語知識的特征，包括能表達(dá)對象的空間形狀、大小、色彩、紋理和空間關(guān)系，能表達(dá)對象的動作、速度及時(shí)間關(guān)系，能進(jìn)行對象的時(shí)空變換、操作與推理等。

“計(jì)算機(jī)圖像學(xué)是表達(dá)幾何，而非表達(dá)視覺概念。”潘云鶴強(qiáng)調(diào)。他進(jìn)一步解釋，視覺概念由典型和范疇構(gòu)成，還有層次結(jié)構(gòu)和動作結(jié)構(gòu);視覺命題表達(dá)視覺概念的空間關(guān)系和時(shí)間關(guān)系，前者表達(dá)為場景結(jié)構(gòu)，后者表達(dá)為動態(tài)結(jié)構(gòu);最后形成由一組視覺命題構(gòu)成的視覺述事。

對于第二個(gè)問題視覺識別，潘云鶴介紹，從AI早期開始，模式識別便作為一個(gè)重要研究領(lǐng)域，其中圖像和視頻識別是發(fā)展最快的方向。

使用基于數(shù)字圖像處理技術(shù)的圖像識別技術(shù)，是一種從局部特征綜合為整體的方法。近年來，深度學(xué)習(xí)提供了另一種方法，即用大量標(biāo)識的圖像訓(xùn)練出深度神經(jīng)網(wǎng)絡(luò)模型(DNN)用以圖像識別，該方法已獲廣泛應(yīng)用。他表示，DNN的優(yōu)點(diǎn)是可以從標(biāo)識的樣本數(shù)據(jù)中通過學(xué)習(xí)而自動獲得知識，也可以用于非符號數(shù)據(jù)的識別，如圖像與語音識別;但其缺點(diǎn)也同樣明顯，如不可解釋、不可推理，需要大量被標(biāo)識的數(shù)據(jù)來訓(xùn)練網(wǎng)絡(luò)等。

值得注意的是，人類進(jìn)行視覺識別的方法，與DNN的方法不盡相同。它不僅分析視網(wǎng)膜傳入的短期記憶中的數(shù)據(jù)，而且動用了長期記憶中的視覺知識。正因?yàn)槿绱?，人類的視覺識別往往只需少量的數(shù)據(jù)，且可以解釋、推理。

“因此，視覺識別不但要使用數(shù)據(jù)，而且要使用視覺知識，是視覺識別重要的研究方向。”潘云鶴說。

潘云鶴提出第三個(gè)問題是視覺形象變化模擬。形象變化是人類在設(shè)計(jì)創(chuàng)意和問題求解時(shí)重要的智能行為。而模擬形象變化，需要操作視覺形象的物理變化、生物變化、想象變化等。以想象變化為例，即在創(chuàng)意與設(shè)計(jì)新產(chǎn)品中的各種想象性操作，如阿凡達(dá)、獅子王、小飛象等。

實(shí)際上，視覺形象變化模擬在CAD、仿真模擬、計(jì)算機(jī)動畫、兒童教育和數(shù)字媒體創(chuàng)意等領(lǐng)域的應(yīng)用十分廣泛。按照數(shù)字媒體的不同，可分為從字符生成視覺形象、從一種視覺形象變換為另一種形象、從視覺形象生成文本等。

潘云鶴判斷，計(jì)算機(jī)圖像學(xué)已儲備了很多基礎(chǔ)技術(shù)，但有待和AI打通。“做好了，有望形成新一代設(shè)計(jì)軟件的基礎(chǔ)。”

第四個(gè)問題是視覺知識學(xué)習(xí)。事實(shí)上，計(jì)算機(jī)視覺研究已注意到形體重構(gòu)的重要性，并積累了很多成果，如3D掃描重構(gòu)形體、多相機(jī)重構(gòu)形體、基于video重構(gòu)形體等。但視覺知識學(xué)習(xí)要將目標(biāo)從形狀重構(gòu)轉(zhuǎn)換為視覺知識概念和命題的重建，則需要對現(xiàn)有計(jì)算機(jī)視覺技術(shù)進(jìn)一步研究。

“在此基礎(chǔ)上，有望發(fā)展出視覺知識的自動學(xué)習(xí)，當(dāng)前的場景圖是此方向前進(jìn)的一步。”潘云鶴表示，為此，當(dāng)今AI、計(jì)算機(jī)圖像學(xué)和計(jì)算機(jī)視覺三個(gè)領(lǐng)域的研究者特別需要聯(lián)手，進(jìn)一步研究視覺知識的自動學(xué)習(xí)。

最后一個(gè)問題是多重知識表達(dá)。研究發(fā)現(xiàn)，人腦中的知識是多重表達(dá)的。在潘云鶴看來，在AI 2.0中的知識也應(yīng)有多重表達(dá)，如知識的言語表達(dá)、知識的深度神經(jīng)學(xué)習(xí)網(wǎng)絡(luò)表達(dá)、知識的形象表達(dá)。

他強(qiáng)調(diào)，AI 2.0要使多種知識表達(dá)相通使用，就是多重知識表達(dá)，而它將形成跨媒體智能和大數(shù)據(jù)智能的技術(shù)基礎(chǔ)。

潘云鶴分析，從視覺知識的五大問題來看，視覺形象變化模擬、視覺識別、視覺知識學(xué)習(xí)的解決有較好的基礎(chǔ)，但視覺知識表達(dá)、多重知識表達(dá)尚需大力攻關(guān)。“這是一塊荒蕪而肥沃的‘北大荒’，也是一塊充滿希望且值得探索的‘無人區(qū)’。”

標(biāo)簽：發(fā)展視覺知識 AI

關(guān)閉

視覺知識和多重知識AI發(fā)展

相關(guān)推薦

精彩組圖

精彩放送

視覺知識和多重知識AI發(fā)展

學(xué)習(xí)理財(cái)?shù)氖謾C(jī)軟件哪個(gè)好？理財(cái)課程該學(xué)哪個(gè)平臺?。?/a>

電子科技大學(xué)武剛：元宇宙對無線通信技術(shù)需求分析

巴帝電信宣布在印度推出5G服務(wù)用戶數(shù)100萬

美光：采用全球最先進(jìn)1β工藝的DRAM內(nèi)存芯片做好量產(chǎn)準(zhǔn)備

相關(guān)推薦

精彩組圖

精彩放送

學(xué)習(xí)理財(cái)?shù)氖謾C(jī)軟件哪個(gè)好？理財(cái)課程該學(xué)哪個(gè)平臺?。?/a>