大模型落地需要“記憶力”,這家公司想為向量數(shù)據(jù)庫(kù)正名 | 把脈大模型

2023-08-07 11:23:36

現(xiàn)實(shí)生活中若兩人進(jìn)行對(duì)話,大致需要三步流程:一方首先拋出話題作引子;另一方會(huì)先調(diào)動(dòng)記憶判斷自己是否了解這個(gè)話題,然后再分析給出應(yīng)該做出何種回答。如此循環(huán)往復(fù)直到互動(dòng)結(jié)束,而此次對(duì)話又會(huì)作為一種新的“記憶”被雙方吸收。

為讓計(jì)算機(jī)完成這樣的互動(dòng)過(guò)程,并持續(xù)在一對(duì)一或一對(duì)多的情況下變成日常,AI科學(xué)家提出了CVP結(jié)構(gòu),即“ChatGPT(以ChatGPT為代表的大模型)+Vector Database(向量數(shù)據(jù)庫(kù))+Prompt(提示詞)”,分別承擔(dān)計(jì)算機(jī)分析、記憶、引子的功能。


(相關(guān)資料圖)

向量數(shù)據(jù)庫(kù)作為計(jì)算機(jī)記憶體一般的存在,正吸引著大批投資人和創(chuàng)業(yè)者的關(guān)注。向量數(shù)據(jù)庫(kù)創(chuàng)業(yè)公司Zilliz的創(chuàng)始人兼CEO謝超告訴界面新聞,大模型落地,從數(shù)據(jù)的角度要面對(duì)的重要現(xiàn)實(shí)就是計(jì)算同存儲(chǔ)的分離,即大模型屬于廠商,而數(shù)據(jù)屬于用戶?!皣?guó)內(nèi)幾乎所有主流的大模型廠商上半年上門(mén)找我們聊合作,都迫切想知道一件事——大模型如何跟向量數(shù)據(jù)庫(kù)配套使用,或者說(shuō)計(jì)算和存儲(chǔ)如何結(jié)合并實(shí)現(xiàn)低成本的重復(fù)使用?!?/p>

向量數(shù)據(jù)庫(kù)是一種專(zhuān)門(mén)處理(主要包括存儲(chǔ)和檢索)非結(jié)構(gòu)化數(shù)據(jù)的新型數(shù)據(jù)庫(kù)。傳統(tǒng)的數(shù)據(jù)庫(kù)主要處理由行、列二維表格方式存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù),這類(lèi)數(shù)據(jù)具有標(biāo)準(zhǔn)化的格式,較為容易做量化分析。而非結(jié)構(gòu)化數(shù)據(jù)是指那些高維度、難以量化的抽象數(shù)據(jù),通常需要特定的數(shù)據(jù)結(jié)構(gòu)來(lái)組織,且不易分析?,F(xiàn)實(shí)生活中,非結(jié)構(gòu)化數(shù)據(jù)以各種形式出現(xiàn),包括文本、圖像、音視頻以及未來(lái)多模態(tài)呈現(xiàn)更為復(fù)雜多元的表情、體態(tài)等數(shù)據(jù)。

結(jié)構(gòu)化數(shù)據(jù),一本書(shū)的信息按照ISBN碼、年份、署名、作者就可轉(zhuǎn)化為二維表格

非結(jié)構(gòu)化數(shù)據(jù),一個(gè)完整句子需要結(jié)合上下文語(yǔ)境,按語(yǔ)義分割將每個(gè)單詞轉(zhuǎn)化為三維乃至更高維的向量矩陣

以O(shè)penAI背后的GPT模型預(yù)訓(xùn)練所用的數(shù)據(jù)為例,GPT-3.5的“知識(shí)庫(kù)”共包含3000億單詞的數(shù)據(jù),匯聚了來(lái)自開(kāi)源語(yǔ)料庫(kù)、維基百科、各類(lèi)圖書(shū)與新聞報(bào)道、Reddit與Twitter平臺(tái)文章等大量互聯(lián)網(wǎng)文本數(shù)據(jù)。GPT-4在此基礎(chǔ)上體量更大,且為了支持多模態(tài)專(zhuān)門(mén)收集各類(lèi)圖像、視頻素材,這其中非結(jié)構(gòu)化數(shù)據(jù)應(yīng)占有極大比重。同時(shí),隨著大模型朝著多模態(tài)趨勢(shì)的迭代,非結(jié)構(gòu)數(shù)據(jù)的數(shù)量勢(shì)必將呈指數(shù)級(jí)增長(zhǎng)。

根據(jù)IDC、Gartner等市場(chǎng)調(diào)研機(jī)構(gòu)的估算,真實(shí)世界中絕大多數(shù)數(shù)據(jù)(約80%)都為非結(jié)構(gòu)化數(shù)據(jù),只有少量(約20%)為結(jié)構(gòu)化數(shù)據(jù)。然而正如冰山效應(yīng)所喻示的“巨大的冰山往往是八分之一浮在水面上,八分之七沉沒(méi)在水面之下”,非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)復(fù)雜且難處理,反而導(dǎo)致有效利用率遠(yuǎn)低于結(jié)構(gòu)化數(shù)據(jù)。因此,打造面向非結(jié)構(gòu)化數(shù)據(jù)的向量數(shù)據(jù)庫(kù)也變成了一場(chǎng)從0到1的拓荒。

Zilliz成立于2017年,總部位于硅谷,是最早一批探索向量數(shù)據(jù)庫(kù)的先行者。以大模型誕生為分水嶺,公司的成長(zhǎng)歷程可分為“前大模型時(shí)期”和“后大模型時(shí)期”。

在前大模型時(shí)期,向量數(shù)據(jù)庫(kù)的技術(shù)理念并未有統(tǒng)一的定義,市場(chǎng)上也未有同類(lèi)產(chǎn)品模式可作參照。Zilliz起步只能在無(wú)人區(qū)中開(kāi)拓新賽道,客戶、投資、應(yīng)用場(chǎng)景都是未知數(shù)?!拔覀冏鱿蛄繑?shù)據(jù)庫(kù)的前幾年幾乎沒(méi)有任何收入,全靠融資生存,但那時(shí)候說(shuō)服投資人是一件很困難的事情。招聘工程師、找客戶、拉投資,不確定性幾乎來(lái)自方方面面,這也成為Zilliz的常態(tài)?!?/p>

2019年,Zilliz開(kāi)源了全球首個(gè)向量數(shù)據(jù)庫(kù)產(chǎn)品Milvus,目前在GitHub上獲得了超過(guò)2.1萬(wàn)顆Star,是開(kāi)源圈內(nèi)的明星項(xiàng)目,也給公司帶來(lái)了第一批用戶。同時(shí),團(tuán)隊(duì)發(fā)表的向量數(shù)據(jù)庫(kù)相關(guān)的兩篇論文,也在2021和2022連續(xù)兩年入選了數(shù)據(jù)庫(kù)領(lǐng)域國(guó)際頂級(jí)會(huì)議SIGMOD和VLDB。在創(chuàng)始人眼中,Zilliz前幾年所做的工作都在一步步將向量數(shù)據(jù)庫(kù)推向主流視野的關(guān)注范圍內(nèi)。

后大模型時(shí)期,ChatGPT的爆發(fā)則徹底改變了向量數(shù)據(jù)庫(kù)的發(fā)展速度。2023年3月,在英偉達(dá)全球開(kāi)發(fā)者大會(huì)上,黃仁勛力挺向量數(shù)據(jù)庫(kù)對(duì)構(gòu)建專(zhuān)有大型語(yǔ)言模型的重要價(jià)值,同時(shí)點(diǎn)名Milvus。緊接著,Milvus和Zilliz Cloud又成為了OpenAI官方首批plugin合作的向量數(shù)據(jù)庫(kù)。

資本和競(jìng)爭(zhēng)對(duì)手隨即迅速涌入這一賽道。其實(shí),早在2022年8月,Zilliz就完成了累計(jì)超過(guò) 1.03億美元的B輪融資,由沙特阿美Aramco Ventures旗下基金領(lǐng)投,現(xiàn)有股東淡馬錫、高瓴創(chuàng)投、五源資本和云啟資本跟投,估值達(dá)6億美元。另外一家OpenAI官方合作的向量數(shù)據(jù)庫(kù)公司Pinecone最新宣布獲得a16z領(lǐng)投的1億美元,估值達(dá)7.5億美元。今年4月,有4家向量數(shù)據(jù)庫(kù)創(chuàng)業(yè)公司宣布當(dāng)月獲得融資。大模型廠商也紛紛開(kāi)始著手布局自家的向量數(shù)據(jù)庫(kù),騰訊、京東均有對(duì)外公開(kāi)的向量數(shù)據(jù)庫(kù)產(chǎn)品。

參考美國(guó)2022年上市的數(shù)據(jù)庫(kù)公司Snowflake以及還未上市的獨(dú)角獸公司Databricks,融資規(guī)模都已達(dá)到數(shù)十億美元。向量數(shù)據(jù)庫(kù)如今已經(jīng)走完了為賽道“正名”的第一步,目前處在產(chǎn)業(yè)化的開(kāi)端。而數(shù)據(jù)庫(kù)行業(yè)先天具有高資本投入、高技術(shù)門(mén)檻的特點(diǎn),一款數(shù)據(jù)庫(kù)通常需要經(jīng)過(guò)成百上千的工程師研發(fā)迭代,技術(shù)產(chǎn)品的工程積累預(yù)計(jì)將成為該賽道競(jìng)爭(zhēng)的決定性條件。

前大模型時(shí)期通過(guò)搞科研、發(fā)論文、做開(kāi)源為向量數(shù)據(jù)庫(kù)正名后,處于后大模型時(shí)期的Zilliz將2023年視為“商業(yè)化元年”。

在開(kāi)源產(chǎn)品Milvus之外,公司將云服務(wù)產(chǎn)品Zilliz Cloud作為商業(yè)化的關(guān)鍵。Zilliz Cloud可以幫助企業(yè)用戶構(gòu)建十億級(jí)向量數(shù)據(jù)庫(kù),部署和擴(kuò)展向量搜索服務(wù),收費(fèi)模式分為存儲(chǔ)收費(fèi)(按數(shù)據(jù)規(guī)模與存儲(chǔ)時(shí)間)與計(jì)算收費(fèi)(按機(jī)器數(shù)與運(yùn)行的小時(shí)數(shù))。這也是該公司進(jìn)一步穩(wěn)固市場(chǎng)的核心所在。

(文章來(lái)源:界面新聞)

標(biāo)簽:

關(guān)閉
新聞速遞