當(dāng)前熱議!教AI認(rèn)識(shí)世界的人——揭秘智能產(chǎn)業(yè)大火背后的人工智能訓(xùn)練師

2023-04-16 06:08:17

在人工智能領(lǐng)域有一句箴言:有多少人工就有多少智能。據(jù)估計(jì),在中國(guó)有約千萬(wàn)名“人類專家”在給人工智能喂數(shù)據(jù)。

近期,隨著人工智能的大火,全國(guó)多地?cái)?shù)據(jù)標(biāo)注招聘市場(chǎng)火熱、相關(guān)創(chuàng)業(yè)模式也不斷涌現(xiàn),提升數(shù)據(jù)質(zhì)量成為人工智能開(kāi)發(fā)商“彎道超車”的最新策略。


(資料圖)

早在2021年,人社部就發(fā)布了《人工智能訓(xùn)練師》國(guó)家職業(yè)技能標(biāo)準(zhǔn),覆蓋數(shù)據(jù)標(biāo)注員、人工智能算法測(cè)試員兩個(gè)工種,可見(jiàn)當(dāng)時(shí)相關(guān)產(chǎn)業(yè)已經(jīng)成勢(shì)。這份標(biāo)準(zhǔn)將人工智能訓(xùn)練師分為5個(gè)等級(jí),從初級(jí)工到高級(jí)技師。

據(jù)了解,數(shù)據(jù)標(biāo)注員每天的工作就是通過(guò)打標(biāo)簽的方式,輔助人工智能學(xué)習(xí),可以說(shuō)數(shù)據(jù)標(biāo)注師就是人工智能背后的“人工”。

位于濟(jì)南市明水國(guó)家經(jīng)濟(jì)開(kāi)發(fā)區(qū)百度智能云(山東)人工智能基礎(chǔ)數(shù)據(jù)產(chǎn)業(yè)基地,是百度在全國(guó)布局的第二家、山東布局的第一家數(shù)據(jù)標(biāo)注基地,目前已經(jīng)容納了1500名“人工智能訓(xùn)練師”。

人工智能訓(xùn)練師成就業(yè)新方向

中國(guó)工程院院士鄔賀銓曾對(duì)人工智能訓(xùn)練師做過(guò)解釋,他表示:“比如AI訓(xùn)練師會(huì)進(jìn)行智能駕駛的訓(xùn)練。智能駕駛中需要讓汽車自動(dòng)識(shí)別馬路,但如果只是將視頻單純地傳給計(jì)算機(jī),計(jì)算機(jī)無(wú)法識(shí)別,需要人工在視頻中將道路框出,再交由計(jì)算機(jī),計(jì)算機(jī)多次接受此類信息后,才能逐漸學(xué)會(huì)在視頻和照片中識(shí)別出道路?!?/p>

自動(dòng)駕駛是數(shù)據(jù)服務(wù)需求最大的行業(yè)之一,還需要大量的標(biāo)注數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練和調(diào)優(yōu)。同時(shí),除了“聰明的車”,自動(dòng)駕駛同樣需要“智慧的路”,通過(guò)車路協(xié)同的共同數(shù)據(jù)訓(xùn)練,才能實(shí)現(xiàn)降本增效。因此,專業(yè)、高質(zhì)量的數(shù)據(jù)才能夠保證自動(dòng)駕駛的精準(zhǔn)和安全。

實(shí)際上,現(xiàn)在人們生活中常見(jiàn)的小度智能屏、小愛(ài)同學(xué)、天貓精靈等智能產(chǎn)品背后,都有AI訓(xùn)練師的身影。

就像從零搭建一座結(jié)構(gòu)精密的建筑,每個(gè)AI的成長(zhǎng)都會(huì)經(jīng)歷人工訓(xùn)練的過(guò)程。導(dǎo)航語(yǔ)音的生成,智能音箱的應(yīng)答,人臉支付,動(dòng)作捕捉……在業(yè)界有一種說(shuō)法,數(shù)據(jù)標(biāo)注員是“人工智能的老師”,是他們?nèi)諒?fù)一日地拉框,教會(huì)了人工智能理解人類世界。

現(xiàn)在,你去問(wèn)ChatGpt,它也會(huì)“親口”承認(rèn),“在我的訓(xùn)練過(guò)程中,開(kāi)發(fā)者們還使用了一些人工標(biāo)注的數(shù)據(jù)集,以幫助我識(shí)別語(yǔ)言中的關(guān)鍵概念和語(yǔ)法規(guī)則。這些數(shù)據(jù)集通常由人類專家進(jìn)行標(biāo)注,包括注釋句子結(jié)構(gòu)、命名實(shí)體識(shí)別和情感分析等等。這些標(biāo)注數(shù)據(jù)可以幫助我更好地理解自然語(yǔ)言,并使我更準(zhǔn)確地執(zhí)行我的任務(wù)?!?/p>

人工智能的主流方向是深度學(xué)習(xí)

人工智能的三大基石是數(shù)據(jù)、算力與算法,數(shù)量越多質(zhì)量越高的數(shù)據(jù),往往越能夠訓(xùn)練出更“聰明”的模型。

人工智能的主流方向是深度學(xué)習(xí)。在過(guò)去,由人來(lái)告訴機(jī)器,貓身上都有哪些特征,機(jī)器根據(jù)這些特征判斷一個(gè)物體是不是貓;深度學(xué)習(xí)則是通過(guò)“喂養(yǎng)”大量不同貓的圖片,機(jī)器就能自行歸納出貓的特征。這就需要大量經(jīng)人工標(biāo)注的圖片,有多少智能,就得付出多少人工。

數(shù)據(jù)標(biāo)注領(lǐng)域有過(guò)一個(gè)神話——ImageNet項(xiàng)目。這個(gè)項(xiàng)目數(shù)據(jù)庫(kù)擁有超過(guò)1400萬(wàn)張已被標(biāo)注的圖片,其中識(shí)別出的物體種類超過(guò)20000種——包括120個(gè)不同品種的狗。

人工智能的發(fā)展離不開(kāi)數(shù)據(jù)標(biāo)注

“人工智能的發(fā)展離不開(kāi)數(shù)據(jù)標(biāo)注,沒(méi)有數(shù)據(jù)標(biāo)注,就沒(méi)有人工智能。沒(méi)有數(shù)據(jù)標(biāo)注,就沒(méi)有無(wú)人駕駛、刷臉支付、阿爾法狗、智能音箱?!焙幽仙糖鹉彻菊衅笍V告上這樣寫著。

濟(jì)南也有不少公司發(fā)布關(guān)于數(shù)據(jù)標(biāo)注員的招聘需求,其中的招聘薪資為每月3-5千元或4-9千元不等。圖片來(lái)源:網(wǎng)絡(luò)

海報(bào)新聞?dòng)浾咴跒g覽某招聘平臺(tái)時(shí),發(fā)現(xiàn)在濟(jì)南也有不少公司發(fā)布關(guān)于數(shù)據(jù)標(biāo)注員的招聘需求,其中的招聘薪資為每月3-5千元或4-9千元不等。招聘要求的學(xué)歷多為大專以上學(xué)歷,專業(yè)不限。在AI產(chǎn)業(yè)中,這類崗位令人聯(lián)想起電子廠的“流水線”工作。

有個(gè)別公司還在招聘需求里寫了職業(yè)培養(yǎng)方向:數(shù)據(jù)標(biāo)注師—數(shù)據(jù)質(zhì)檢師—項(xiàng)目培訓(xùn)師—項(xiàng)目主管—項(xiàng)目經(jīng)理。

記者發(fā)現(xiàn),除了較大規(guī)模的數(shù)據(jù)標(biāo)注產(chǎn)業(yè)基地,數(shù)據(jù)標(biāo)識(shí)行業(yè)“個(gè)體戶”正大量涌現(xiàn)。在百度貼吧上,大量項(xiàng)目正在召集所謂“團(tuán)隊(duì)”接標(biāo),從發(fā)帖內(nèi)容可以看出,只要有一個(gè)相對(duì)固定人數(shù)、固定工作時(shí)長(zhǎng)的團(tuán)隊(duì),就可以接下大公司分發(fā)下來(lái)的項(xiàng)目標(biāo)。

“如果數(shù)據(jù)量太大,一般公司會(huì)雇外包公司承擔(dān)?!庇袕臉I(yè)人員告訴記者。外包公司將數(shù)據(jù)標(biāo)注變成了算計(jì)件工分的一種工作。有從業(yè)者介紹,刨去場(chǎng)地租賃、電腦和桌椅配置、每月水電費(fèi)、人工開(kāi)支,這種個(gè)體分包商賺取的是中間差價(jià)。

不過(guò),這個(gè)行業(yè)當(dāng)然也正向著規(guī)模化、公司化的方向發(fā)展。行內(nèi)有兩種類型的公司,一種是大型互聯(lián)網(wǎng)公司的內(nèi)部部門、一種是外包公司。后者正成為資本市場(chǎng)上的“香餑餑”。

數(shù)據(jù)標(biāo)注時(shí)薪取決于工作內(nèi)容

按照招聘平臺(tái)上的信息,人工智能訓(xùn)練師是依據(jù)工作內(nèi)容來(lái)定時(shí)薪價(jià)格。時(shí)薪能達(dá)到30元檔的是指3D類工作,一般是對(duì)實(shí)際場(chǎng)景中的特定事物進(jìn)行標(biāo)注,例如對(duì)一條道路上的雷達(dá)車道線、雷達(dá)目標(biāo)拉框。接著是語(yǔ)音類,是指對(duì)音轉(zhuǎn)文、方言轉(zhuǎn)寫、喚醒助手等進(jìn)行標(biāo)注。

2D類被認(rèn)為更簡(jiǎn)單,是指對(duì)平面圖像、文字段落進(jìn)行標(biāo)注,或者是OCR(文字識(shí)別)轉(zhuǎn)寫,例如對(duì)交通違規(guī)圖片里的人和車、紅綠燈、交通標(biāo)示進(jìn)行識(shí)別。

價(jià)格最低的打碼類,是指驗(yàn)證碼里的計(jì)算題、哪些圖片中含有火車這類工作。

據(jù)iResearch數(shù)據(jù),2019年我國(guó)數(shù)據(jù)標(biāo)注市場(chǎng)規(guī)模為30.9億元,預(yù)計(jì)2025年市場(chǎng)規(guī)模突破100億元,年復(fù)合增長(zhǎng)率達(dá)到14.6%。圖片來(lái)源:第一財(cái)經(jīng)

“數(shù)據(jù)標(biāo)注十分枯燥無(wú)味,純體力活,每標(biāo)注200個(gè)就有一種想吐的感覺(jué)?!闭谡憬掣咝Wx研的小何對(duì)記者表示。

以此謀生的數(shù)據(jù)標(biāo)注師,工作強(qiáng)度可能更為難忍,除了需要耐心在電腦前面坐上幾小時(shí)、耗盡眼力,可能還要面對(duì)原始數(shù)據(jù)里的限制級(jí)內(nèi)容,涉及性、暴力、仇恨言論等。

適合低學(xué)歷等人群就業(yè)

在2021年版的《人工智能訓(xùn)練師國(guó)家職業(yè)技能標(biāo)準(zhǔn)》中,對(duì)該職業(yè)的能力特征描述是“具有一定的學(xué)習(xí)能力、表達(dá)能力、計(jì)算能力;空間感、色覺(jué)正?!?,普遍受教育程度寫的是“初中畢業(yè)”。言外之意,這是一份門檻不太高的職業(yè)。

數(shù)據(jù)標(biāo)注產(chǎn)業(yè)促進(jìn)了不少城鎮(zhèn)和農(nóng)村就業(yè),在河南、河北、貴州等地,還出現(xiàn)了一些特色的“數(shù)據(jù)標(biāo)注村”。

“95后”張文濤來(lái)自陜西省銅川市宜君縣,在做人工智能訓(xùn)練師之前,他只去過(guò)一次縣城。14歲那年,他因?yàn)橐馔庠斐闪搜捣鬯樾怨钦郏髞?lái)去縣城辦了殘疾證。

直到2021年4月,26歲的張文濤進(jìn)入宜君縣數(shù)字就業(yè)中心,成了一名人工智能訓(xùn)練師,這是張文濤第二次來(lái)到宜君縣城。

人工智能訓(xùn)練師通過(guò)對(duì)大量文本、圖片、語(yǔ)音、視頻等數(shù)據(jù)進(jìn)行歸類、整理、糾錯(cuò)和批注等,讓機(jī)器人因?yàn)榇罅繑?shù)據(jù)的訓(xùn)練而變得越來(lái)越精準(zhǔn),相當(dāng)于機(jī)器人的“教練”。

張文濤的工作是給高德地圖做數(shù)據(jù)標(biāo)注,從此,每天上億人在用的這款地圖導(dǎo)航APP,背后有了張文濤的貢獻(xiàn)。因?yàn)橥饶_不便很少出門,不能像普通人一樣去很多城市和景點(diǎn),所以他把這項(xiàng)工作看成是自己在線上的“旅游”。

人工智能訓(xùn)練師看上去是人工智能領(lǐng)域一個(gè)“入門”工種:技術(shù)門檻低,招工人群范圍廣泛。他們通過(guò)每天數(shù)千次的重復(fù)動(dòng)作,和最前沿科技的人工智能產(chǎn)生聯(lián)系。也因此,外界給這個(gè)行業(yè)貼上了“AI富士康”的標(biāo)簽。

然而,圍繞著人工智能訓(xùn)練師的低薪、長(zhǎng)期伏案、內(nèi)容重復(fù)和精神壓力,社會(huì)輿論也正圍繞著相關(guān)職業(yè)保護(hù)而發(fā)酵。如果無(wú)法改善其工作環(huán)境、提升價(jià)值,這種職業(yè)的長(zhǎng)久性仍令人存疑。

人工智能發(fā)展或取代數(shù)據(jù)標(biāo)注師

為了訓(xùn)練人工智能,數(shù)據(jù)標(biāo)注行業(yè)帶來(lái)了技術(shù)紅利,但如果人工智能發(fā)展到一定程度,甚至有可能夠取代數(shù)據(jù)標(biāo)注師的工作。

數(shù)據(jù)標(biāo)注看似“無(wú)腦”,但卻因?qū)嶋H落地需要而需要嚴(yán)謹(jǐn)?shù)墓ぷ鲬B(tài)度。比方說(shuō),如果對(duì)自動(dòng)駕駛領(lǐng)域的數(shù)據(jù)標(biāo)注缺乏質(zhì)量把控,那么相關(guān)軟件就無(wú)法令汽車安全地行駛在道路上。

隨著GPT-4和文心一言的陸續(xù)出場(chǎng),人工智能正“升級(jí)換代”,數(shù)據(jù)標(biāo)注行業(yè)也伴隨著新的變化。

目前的人工智能訓(xùn)練,大家更多地聚焦在數(shù)據(jù)加工這件事,但如果再往前看,更多的是數(shù)據(jù)的優(yōu)化、還有一些相關(guān)的解決方案。數(shù)據(jù)標(biāo)注是一個(gè)很好的行業(yè)入門工種,作為從業(yè)人員有機(jī)會(huì)更深度參與到產(chǎn)業(yè)鏈協(xié)作當(dāng)中,例如后續(xù)當(dāng)數(shù)據(jù)標(biāo)注越來(lái)越機(jī)器化,人工和自動(dòng)化之間要有機(jī)的協(xié)同,這也對(duì)員工提出了更高的要求。

但是也有不少學(xué)者對(duì)此表示樂(lè)觀,當(dāng)數(shù)據(jù)標(biāo)注越來(lái)越機(jī)器化,人工智能訓(xùn)練師是一個(gè)轉(zhuǎn)換工種的機(jī)會(huì),標(biāo)注員們現(xiàn)在標(biāo)注數(shù)據(jù),未來(lái)可能向數(shù)據(jù)治理、數(shù)據(jù)解決方案設(shè)計(jì)和項(xiàng)目管理等方向發(fā)展。

“得數(shù)據(jù)者,得人工智能”。未來(lái),隨著AI應(yīng)用場(chǎng)景逐漸多領(lǐng)域化,在行業(yè)內(nèi)部,人工智能訓(xùn)練從業(yè)者也必將隨著AI行業(yè)而一同進(jìn)入細(xì)分市場(chǎng)追逐階段,將迎來(lái)的是機(jī)遇與挑戰(zhàn)并行。

(文章來(lái)源:大眾網(wǎng))

標(biāo)簽:

關(guān)閉
新聞速遞