世界新消息丨ICES J MAR SCI | 新型AI算法提升海洋浮游生物圖像機(jī)器識(shí)別性能

2022-11-11 16:00:10

北京時(shí)間11月10日,中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院集成所光電工程技術(shù)中心李劍平博士團(tuán)隊(duì)在海洋數(shù)據(jù)機(jī)器學(xué)習(xí)算法研究中取得新成果,提出了一種基于對(duì)比學(xué)習(xí)的浮游生物圖像識(shí)別檢索框架,在解決實(shí)際海洋數(shù)據(jù)中的不均衡分布、數(shù)據(jù)漂移、開(kāi)集識(shí)別問(wèn)題中展現(xiàn)出了優(yōu)異性能。


【資料圖】

論文以Contrastive Learning-based Image Retrieval for Automatic Recognition of in situ Marine Plankton Images為題,發(fā)表在國(guó)際海洋考察理事會(huì)海洋科學(xué)期刊ICES Journal of Marine Science上。中國(guó)科學(xué)院大學(xué)碩士楊振宇為第一作者,李劍平博士為論文通信作者,深圳先進(jìn)院為第一單位。來(lái)自廈門(mén)大學(xué)、哈爾濱工業(yè)大學(xué)(深圳)的數(shù)據(jù)科學(xué)家參與本課題的合作研究。

文章上線截圖

原文鏈接:https://doi.org/10.1093/icesjms/fsac198

經(jīng)過(guò)了30多年來(lái)的發(fā)展,海洋水下成像儀器為海洋浮游生物原位觀測(cè)帶來(lái)了海量圖像數(shù)據(jù),刺激了計(jì)算機(jī)圖像自動(dòng)識(shí)別技術(shù)的長(zhǎng)足發(fā)展。然而,訓(xùn)練機(jī)器對(duì)來(lái)自實(shí)際中復(fù)雜海洋環(huán)境下的圖像數(shù)據(jù)進(jìn)行準(zhǔn)確識(shí)別始終是一項(xiàng)極具挑戰(zhàn)的任務(wù)?,F(xiàn)有浮游生物圖像機(jī)器學(xué)習(xí)分類算法雖然在某些閉合數(shù)據(jù)集上取得了良好表現(xiàn),但是當(dāng)應(yīng)用于來(lái)自不同時(shí)空的實(shí)際數(shù)據(jù)時(shí),往往會(huì)出現(xiàn)性能不穩(wěn)定甚至驟降的問(wèn)題,不能滿足海洋觀測(cè)的實(shí)時(shí)準(zhǔn)確要求。

通過(guò)深入調(diào)研,李劍平團(tuán)隊(duì)發(fā)現(xiàn)現(xiàn)有算法幾乎全部將浮游生物識(shí)別問(wèn)題處理成了一個(gè)對(duì)“N+1類”目標(biāo)圖像的分類問(wèn)題(即N類感興趣目標(biāo)和1類所有不感興趣目標(biāo))。然而,與其他領(lǐng)域中圖像識(shí)別任務(wù)不同的是,在真實(shí)海洋環(huán)境中采集的數(shù)據(jù)必將面臨成像質(zhì)量惡化、數(shù)據(jù)分布不均、數(shù)據(jù)分布漂移和分布外樣本出現(xiàn)等問(wèn)題的挑戰(zhàn)。因此,在閉合數(shù)據(jù)集上訓(xùn)練優(yōu)化的機(jī)器學(xué)習(xí)算法在應(yīng)用時(shí),由于待識(shí)別數(shù)據(jù)集不滿足與訓(xùn)練數(shù)據(jù)集的獨(dú)立同分布條件,導(dǎo)致識(shí)別性能極易下降,只能通過(guò)費(fèi)時(shí)費(fèi)力的數(shù)據(jù)重新標(biāo)注和模型重新訓(xùn)練來(lái)恢復(fù)其性能,顯然這樣就造成了機(jī)器學(xué)習(xí)算法的高昂的部署成本,難以在實(shí)際中應(yīng)用。

李劍平團(tuán)隊(duì)提出的浮游生物原位圖像檢索識(shí)別框架IsPlanktonIR示意

針對(duì)這一瓶頸,李劍平團(tuán)隊(duì)設(shè)計(jì)并訓(xùn)練了一種基于對(duì)比學(xué)習(xí)的浮游生物圖像檢索框架IsPlanktonIR,以圖像相似度比對(duì)的方式,通過(guò)圖像檢索靈活地解決浮游生物的原位圖像識(shí)別問(wèn)題,實(shí)現(xiàn)浮游生物圖像的自動(dòng)識(shí)別。

在該框架里,研究團(tuán)隊(duì)首先選取SEResNext作為浮游生物圖像特征提取器,利用有監(jiān)督的對(duì)比學(xué)習(xí)對(duì)其訓(xùn)練,使其獲得較強(qiáng)的特征提取能力。識(shí)別圖像時(shí),通過(guò)比較待識(shí)別圖像和一個(gè)檢索庫(kù)中圖像特征的相似性,實(shí)現(xiàn)對(duì)其具體類別判定或?qū)Ψ植纪鈽颖镜陌l(fā)現(xiàn)與拒識(shí)。

此外,IsPlanktonIR框架還提供了人機(jī)交互接口,以供使用者方便地檢查校驗(yàn)識(shí)別結(jié)果,擴(kuò)充檢索庫(kù),不斷完善增強(qiáng)識(shí)別性能。

訓(xùn)練浮游生物圖像檢索框架中特征提取器的代表圖像數(shù)據(jù)

為了實(shí)現(xiàn)該識(shí)別框架的算法訓(xùn)練和效果驗(yàn)證,團(tuán)隊(duì)利用獨(dú)立研發(fā)的海洋浮游生物原位光學(xué)成像儀在深圳大亞灣和海南昌江海域采集的圖像構(gòu)建了一個(gè)實(shí)驗(yàn)數(shù)據(jù)集。利用該數(shù)據(jù)集,團(tuán)隊(duì)使用部分類別圖像對(duì)模型進(jìn)行了訓(xùn)練,構(gòu)造了多種不同組合的檢測(cè)數(shù)據(jù)集,以檢驗(yàn)該框架在真實(shí)海洋環(huán)境中應(yīng)對(duì)必將發(fā)生的數(shù)據(jù)不均衡、數(shù)據(jù)分布漂移、分布外樣本出現(xiàn)情況下的性能表現(xiàn)。

實(shí)驗(yàn)結(jié)果表明,IsPlanktonIR算法框架在應(yīng)對(duì)同時(shí)存在上述問(wèn)題的測(cè)試集上均表現(xiàn)出了優(yōu)異的性能。尤其是當(dāng)測(cè)試中遇到新類別圖像出現(xiàn)時(shí),只需向檢索庫(kù)中添加部分新的人工標(biāo)注樣本,即可使框架實(shí)時(shí)擁有對(duì)新類別圖像的正確識(shí)別能力。

此外,團(tuán)隊(duì)還對(duì)該框架與經(jīng)典的浮游生物圖像分類算法和最新的異常值檢測(cè)算法的性能在相同的測(cè)試集上進(jìn)行了比較。結(jié)果表明,IsPlanktonIR不僅在二者不可處理的開(kāi)集識(shí)別問(wèn)題上取得了很好的效果,在這兩類算法擅長(zhǎng)處理的閉集分類問(wèn)題上也取得了可比擬、甚至部分超越的性能指標(biāo)。IsPlanktonIR的識(shí)別結(jié)果穩(wěn)健性也大大增強(qiáng),展示出了在實(shí)際海洋觀測(cè)應(yīng)用中的可靠性和靈活性。

在不同條件下的測(cè)試實(shí)驗(yàn)中IsPlanktonIR識(shí)別框架和對(duì)照算法的性能表現(xiàn)對(duì)比

此外,為了提高框架的圖像檢索效率,減小存儲(chǔ)和計(jì)算開(kāi)銷,李劍平團(tuán)隊(duì)還提出了一種壓縮精簡(jiǎn)的算法,將浮游生物圖像檢索庫(kù)進(jìn)一步稀疏化,在幾乎不降低識(shí)別準(zhǔn)確率的前提下將檢索庫(kù)的大小縮小了一半,保障了基于圖像檢索的圖像識(shí)別框架在大規(guī)模數(shù)據(jù)下的檢索速度,以滿足海洋觀測(cè)的高實(shí)時(shí)性要求。

IsPlanktonIR框架的發(fā)展為真實(shí)海水環(huán)境下的浮游生物原位長(zhǎng)期觀測(cè)提供了一套更加有效、穩(wěn)健、靈活、便捷的算法方案,更加貼近海洋觀測(cè)的實(shí)際需求,將有助于促進(jìn)人工智能在海洋生物觀測(cè)識(shí)別任務(wù)的落地應(yīng)用。

該論文研究得到了中國(guó)科學(xué)院國(guó)際合作重點(diǎn)項(xiàng)目和深圳市科技創(chuàng)新計(jì)劃基礎(chǔ)研究重點(diǎn)項(xiàng)目的支持。

標(biāo)簽: 機(jī)器學(xué)習(xí)算法 水下成像 浮游生物 圖像識(shí)別

關(guān)閉
新聞速遞