當(dāng)前滾動(dòng):《自然》子刊:中國(guó)團(tuán)隊(duì)首創(chuàng)新算法,讓細(xì)胞與計(jì)算機(jī)直接“對(duì)話”

2022-09-29 20:50:14

科技日?qǐng)?bào)記者 張佳星

細(xì)胞內(nèi)有數(shù)以億計(jì)的堿基、表達(dá)程序以及運(yùn)行策略,而且各不相同。單細(xì)胞測(cè)序技術(shù)可解讀單個(gè)細(xì)胞里的這些信息,但人工干預(yù)多、過(guò)度依賴人為選定的標(biāo)記基因使得單細(xì)胞測(cè)序技術(shù)對(duì)細(xì)胞的注釋穩(wěn)定性較低??梢岳斫鉃椋活惣?xì)胞用不同的模型解析,結(jié)果不同,對(duì)一些特殊細(xì)胞“公說(shuō)公有理婆說(shuō)婆有理”的分析結(jié)果往往難以得到廣泛認(rèn)可。

解決上述問(wèn)題的關(guān)鍵是減少人工干預(yù)。9月27日,《自然》子刊《自然機(jī)器智能》刊載了我國(guó)團(tuán)隊(duì)首創(chuàng)的單細(xì)胞轉(zhuǎn)錄組細(xì)胞類型注釋算法。該算法可以將細(xì)胞中的信息轉(zhuǎn)變?yōu)橛?jì)算機(jī)能夠理解和學(xué)習(xí)的“語(yǔ)言”,讓計(jì)算機(jī)和細(xì)胞直接“對(duì)話”,減少人為因素影響。


(資料圖)

細(xì)分細(xì)胞亞型,準(zhǔn)確度提升7%

據(jù)算法研發(fā)團(tuán)隊(duì)騰訊人工智能實(shí)驗(yàn)室方面介紹,新算法,即scBERT模型,對(duì)最難分類的外周血單核細(xì)胞進(jìn)行了分類,結(jié)果顯示人工智能能夠做到精準(zhǔn)標(biāo)注、注釋極其難區(qū)分的兩類細(xì)胞,例如能夠準(zhǔn)確區(qū)分CD8+細(xì)胞毒性T細(xì)胞和CD8/CD45RA+T細(xì)胞。研發(fā)團(tuán)隊(duì)成員告訴科技日?qǐng)?bào)記者,“在極具挑戰(zhàn)的外周血細(xì)胞亞型細(xì)分任務(wù)上,新算法相較現(xiàn)有最優(yōu)方法的70%準(zhǔn)確度再提升了7%。”

此外,團(tuán)隊(duì)還在已有的單細(xì)胞數(shù)據(jù)集中,將新算法的性能與其他算法進(jìn)行了對(duì)比,這些數(shù)據(jù)集涵蓋17個(gè)主要器官或組織、包含50多個(gè)細(xì)胞類型、超過(guò)50萬(wàn)個(gè)細(xì)胞。論文中顯示,對(duì)于每個(gè)數(shù)據(jù)集,團(tuán)隊(duì)均采用了五倍交叉驗(yàn)證策略,以避免隨機(jī)結(jié)果對(duì)結(jié)論的影響。結(jié)果顯示,新算法對(duì)大多數(shù)數(shù)據(jù)集的分析結(jié)果在精確度和綜合得分方面均表現(xiàn)優(yōu)異。

研發(fā)人員表示,針對(duì)不同的單細(xì)胞分析任務(wù)和數(shù)據(jù)集解析任務(wù),都會(huì)有不同的算法成為最佳算法,也就是說(shuō)有的算法擅長(zhǎng)某幾類任務(wù),有的算法擅長(zhǎng)另幾類任務(wù),無(wú)法通用,而基于scBERT模型的新算法則表現(xiàn)了很強(qiáng)的通用性,在全部的數(shù)據(jù)集解析任務(wù)中均被列為最佳算法。

跨界使用“工具”,讓機(jī)器讀懂細(xì)胞語(yǔ)言

那么,新算法為什么能讓機(jī)器通過(guò)學(xué)習(xí)讀懂細(xì)胞中的復(fù)制、翻譯、轉(zhuǎn)錄的語(yǔ)言呢?

相關(guān)研發(fā)人員解釋,“我們首次將‘transformer’運(yùn)用到單細(xì)胞轉(zhuǎn)錄組測(cè)序數(shù)據(jù)分析領(lǐng)域。 transformer這種架構(gòu)從發(fā)明以來(lái)一直被用在自然語(yǔ)言處理領(lǐng)域,用于進(jìn)行諸如機(jī)器翻譯類的工作,成為比較通用的一個(gè)框架組件,但我們將它運(yùn)用到了細(xì)胞注釋領(lǐng)域。”

得益于對(duì)計(jì)算機(jī)處理人類語(yǔ)言和單細(xì)胞信息之間的共性理解,團(tuán)隊(duì)將已經(jīng)成熟的人工智能架構(gòu)進(jìn)行創(chuàng)新性地“跨界”使用,大大提升了細(xì)粒度單細(xì)胞分子圖譜的構(gòu)建效率。

“跨界工具”讓新模型賦予計(jì)算機(jī)讀懂細(xì)胞活動(dòng)的基礎(chǔ),但要想讀得準(zhǔn)、讀得透、讀得精,還需要基于大規(guī)模的語(yǔ)言預(yù)訓(xùn)練。

論文顯示,為了解決來(lái)自不同項(xiàng)目、測(cè)序平臺(tái)的數(shù)據(jù)難以互通有無(wú)的難題,“scBERT” 模型在預(yù)訓(xùn)練數(shù)據(jù)上沒(méi)有做任何的降維或篩選處理,最大程度上保留數(shù)據(jù)本身的特性和信息,并學(xué)習(xí)了包含不同實(shí)驗(yàn)來(lái)源、批次和組織類型的單細(xì)胞數(shù)據(jù),以保證模型理解“通用”的知識(shí),不僅捕獲單個(gè)基因的表達(dá)信息還理解基因間的協(xié)作。

據(jù)介紹,該技術(shù)可以給生物體中每個(gè)細(xì)胞都印上專屬“身份證”,“單細(xì)胞身份證”的應(yīng)用不僅可以助力疾病致病機(jī)制分析、藥物靶點(diǎn)發(fā)現(xiàn)等基礎(chǔ)研究,也可以在臨床上高精度地“刻畫(huà)”腫瘤微環(huán)境,推動(dòng)精準(zhǔn)治療的進(jìn)一步完善。

標(biāo)簽: 自然子刊

關(guān)閉
新聞速遞