AI發(fā)電廠——數(shù)據(jù)標(biāo)注公司(國內(nèi)數(shù)據(jù)標(biāo)注公司服務(wù)調(diào)研)

眾所周知,深度學(xué)習(xí)需要大量的標(biāo)記數(shù)據(jù)和高效的運(yùn)算來做支撐。
計(jì)算資源只要從黃老板的公司訂購就可以了,但大規(guī)模的高質(zhì)量有標(biāo)記數(shù)據(jù)卻不是那么容易獲得,讓科研人員頭疼不已。
應(yīng)用時(shí)代而生的就是一大批數(shù)據(jù)眾包公司和平臺(tái)。正好借著一個(gè)數(shù)據(jù)眾包任務(wù),對(duì)于國內(nèi)的數(shù)據(jù)標(biāo)注公司服務(wù)有了更深一步的了解。

原文發(fā)布于個(gè)人博客(好望角),那里有更好的閱讀體驗(yàn)。


AI發(fā)電廠————數(shù)據(jù)標(biāo)注公司

伴隨著AI興起的最關(guān)鍵的技術(shù)莫過于深度學(xué)習(xí),作為深度學(xué)習(xí)的基礎(chǔ),神經(jīng)網(wǎng)絡(luò)是一種以輸入為導(dǎo)向的算法,其結(jié)果的準(zhǔn)確性取決于接近“無窮”量級(jí)的數(shù)據(jù)。
所以摒除那些復(fù)雜的中間環(huán)節(jié),深度學(xué)習(xí)最關(guān)鍵的就是需要大量的數(shù)據(jù)訓(xùn)練,這也是為什么在互聯(lián)網(wǎng)大數(shù)據(jù)的時(shí)代,AI可以崛起。而在數(shù)據(jù)訓(xùn)練之前,又必須先對(duì)大量的數(shù)據(jù)進(jìn)行標(biāo)注,作為機(jī)器學(xué)習(xí)的先導(dǎo)經(jīng)驗(yàn)。

因此,催生了大量數(shù)據(jù)標(biāo)注公司的誕生。

什么是數(shù)據(jù)標(biāo)注

要理解數(shù)據(jù)標(biāo)注,得先理解AI其實(shí)是部分替代人的認(rèn)知功能。
回想一下我們是如何學(xué)習(xí)的,例如我們學(xué)習(xí)認(rèn)識(shí)蘋果,那么就需要有人拿著一個(gè)蘋果到你面前告訴你,這是一個(gè)蘋果。然后以后你遇到了蘋果,你才知道這玩意兒叫做“蘋果”。類比機(jī)器學(xué)習(xí),我們要教他認(rèn)識(shí)一個(gè)蘋果,你直接給它一張?zhí)O果的圖片,它是完全不知道這是個(gè)啥玩意的。我們得先有蘋果的圖片,上面標(biāo)注著“蘋果”兩個(gè)字,然后機(jī)器通過學(xué)習(xí)了大量的圖片中的特征,這時(shí)候再給機(jī)器任意一張?zhí)O果的圖片,它就能認(rèn)出來了。

根據(jù)應(yīng)用場(chǎng)景的不同,數(shù)據(jù)標(biāo)注有許多類型。大體上分為圖像、語音、自然語言三大類。
其中由于圖像研究領(lǐng)域的水文熱潮,圖像標(biāo)注的任務(wù)也尤為眾多。。。無人駕駛、人臉識(shí)別、物體檢測(cè)……
語音和語言相對(duì)來說,數(shù)據(jù)標(biāo)注難度更大一點(diǎn)。價(jià)格也相對(duì)高昂一些。

在進(jìn)行數(shù)據(jù)標(biāo)注之前,我們首先要對(duì)數(shù)據(jù)進(jìn)行清洗,得到符合我們要求的數(shù)據(jù)。數(shù)據(jù)的清洗包括去除無效的數(shù)據(jù)、整理成規(guī)整的格式等等。具體的數(shù)據(jù)要求可以和算法人員確認(rèn)。

眾包標(biāo)注的困難

眾包標(biāo)注由于是非專業(yè)標(biāo)注,自然會(huì)遇到很多問題。這困難主要由以下三個(gè)方面組成:

  1. 標(biāo)注者的水平
    由于標(biāo)注者是眾包標(biāo)注,因此其標(biāo)注者的水平也參差不齊,其背景知識(shí)和行為習(xí)慣可能有較大的差異。這就相當(dāng)于是給若干個(gè)已訓(xùn)練好的模型來做預(yù)測(cè)一樣,其不同的模型有不同的輸出結(jié)果。那么這種情況下,基本上使用多數(shù)投票的方法來解決。
  2. 評(píng)價(jià)困難
    標(biāo)注的內(nèi)容可以分為兩類,一類是有明確標(biāo)簽的,就好比是試卷里的客觀題一樣,盡管各個(gè)標(biāo)注都不同,但是還是在有限集合內(nèi)的。另一類是開放式回答,這種標(biāo)注如同試卷里的主觀題一樣,可能會(huì)有無限種可能的結(jié)果。甚至是截然相反的結(jié)果,比如什么是美,什么是丑,每個(gè)人的評(píng)價(jià)標(biāo)準(zhǔn)是不同的。我們本次想要的數(shù)據(jù)眾包也是這個(gè)類型的。
  3. 標(biāo)注稀疏性
    如果一個(gè)需要標(biāo)注的訓(xùn)練集中的數(shù)據(jù)本身就比較稀疏,而我們又需要把它們分割成一個(gè)個(gè)小塊,這就有可能造成數(shù)據(jù)稀疏。比如,我們要進(jìn)行鳥類圖片標(biāo)注,如果本身鳥類種類很多,而分給每個(gè)人的鳥的種類也很多的話,由于每個(gè)人認(rèn)識(shí)的鳥的種類是不多的,因此可能存在每個(gè)人的標(biāo)注都會(huì)有很高的錯(cuò)誤率。這時(shí)候我們可能就需要讓標(biāo)注者之間有重疊的部分,然后使用多數(shù)表決來解決。

數(shù)據(jù)眾包公司調(diào)研

由于我們需要眾包的數(shù)據(jù)是中文數(shù)據(jù),所以只關(guān)心國內(nèi)的一些數(shù)據(jù)眾包公司。國外的Amazon Mechanical Turk、CrowdFlower、Mighty AI等公司不在考察范圍之內(nèi)。

據(jù)悉,在國內(nèi)的數(shù)據(jù)標(biāo)注行業(yè)實(shí)行這樣一套分工流程:上游的科技巨頭把任務(wù)交給中游的數(shù)據(jù)標(biāo)注公司,再由中游眾包給下游的小公司、小作坊,有的小作坊還會(huì)進(jìn)一步眾包給“散兵游勇”,比如學(xué)生或家庭主婦。
這條產(chǎn)業(yè)鏈上,分包現(xiàn)象越嚴(yán)重,最終落到最底層的數(shù)據(jù)服務(wù)公司的價(jià)格就越低,一層層的“數(shù)據(jù)黃牛”壓縮了利潤空間,所以一些任務(wù)經(jīng)過數(shù)手轉(zhuǎn)包,酬勞已低得驚人。
目前的數(shù)據(jù)標(biāo)注工作主要是集中在河北、河南、山東、山西等勞動(dòng)力密集的地區(qū),這樣的選址也因?yàn)槟軌蛞愿拥土膭趧?dòng)力成本去完成大量的數(shù)據(jù)標(biāo)注工作。

下面是我對(duì)國內(nèi)的數(shù)據(jù)眾包公司做的一些調(diào)研(按照我搜索得知該公司的順序排序)。
不知道是否是我們的標(biāo)注任務(wù)太難的緣故,絕大多數(shù)公司沒有任何反饋。

1.百度數(shù)據(jù)眾包百度云眾包
百度不愧是靠PC端的網(wǎng)頁搜索起家的,其前端技術(shù)還是不錯(cuò),網(wǎng)站做的還是比較精致的。但是我提出了數(shù)據(jù)標(biāo)注任務(wù)之后,貴司的這個(gè)相應(yīng)效率可就有點(diǎn)搞笑了。完全沒有反應(yīng)……

2.泛函科技
第二天下午有反饋, 0.35元/條, 后來漲價(jià)到1.5元/條……而且拿走我的數(shù)據(jù),試標(biāo)結(jié)果都沒有反饋。
但是客戶經(jīng)理態(tài)度還比較好,最后給出這樣一個(gè)方案“您確定一個(gè)期望的價(jià)格,我們也可以把他發(fā)到我們的平臺(tái)上,我們抽取一定傭金后,按您意愿的價(jià)格發(fā)布任務(wù)??词欠裼杏脩粼敢鈽?biāo)注,這樣的工期我們不敢保證?!?,我是不敢采取的,23333。

3.京東眾智
數(shù)據(jù)標(biāo)注的需求申請(qǐng)是真難用!京東公司就沒有一個(gè)會(huì)前端的人嘛?
但是,京東的效率很高,反應(yīng)很快(第二天就有回復(fù)),對(duì)接服務(wù)還比較周到細(xì)致,測(cè)評(píng)試標(biāo)注有標(biāo)注結(jié)果反饋,且效果尚可。最后談妥的價(jià)格是0.55元/條,含6個(gè)點(diǎn)的稅,增值稅普通發(fā)票。關(guān)鍵是,京東平臺(tái)只接受5W元以上的訂單。這一點(diǎn)為什么不在官網(wǎng)說明?浪費(fèi)我那么多的聯(lián)系時(shí)間。

4.數(shù)據(jù)堂
聯(lián)系之后沒有反饋

5.龍貓數(shù)據(jù)
聯(lián)系之后沒有反饋

6.阿里眾包
聯(lián)系之后沒有反饋

7.星辰數(shù)據(jù)
網(wǎng)頁做的很好看,但是聯(lián)系之后沒有反饋

8.愛數(shù)智慧
第二天下午有反應(yīng),但進(jìn)展比較慢。問我要走了樣例數(shù)據(jù)試標(biāo)注卻沒有結(jié)果反饋。難道不需要顧客審查標(biāo)注質(zhì)量么?
最后報(bào)出的定價(jià)是0.45元/條,但是誰知道他們標(biāo)注的質(zhì)量呢?

9.倍賽公司
聯(lián)系之后沒有反饋

10.tagger
聯(lián)系之后沒有反饋

總的來說,我眼中國內(nèi)最靠譜的數(shù)據(jù)標(biāo)注公司是京東眾智。不論是客戶經(jīng)理的對(duì)接工作,還是數(shù)據(jù)的試標(biāo)注反饋,完成的都比較高效和到位。但也有一個(gè)致命的缺陷,它們只接受5W元以上的標(biāo)注任務(wù)訂單,,,這就基本把高校的科研組統(tǒng)統(tǒng)拒之門外了。另外,泛函科技和愛數(shù)智慧的服務(wù)以及價(jià)格尚可,只是沒有京東眾志應(yīng)答迅速,沒有試標(biāo)注的結(jié)果反饋。至于其他一些公司,統(tǒng)統(tǒng)沒有反饋,令人失望。


PS:上文中,BA已經(jīng)出鏡,不給T家一個(gè)機(jī)會(huì)貌似不太公平。那就給他們一個(gè)亮相機(jī)會(huì)吧。

騰訊數(shù)據(jù)標(biāo)注實(shí)習(xí)生招聘

參考文獻(xiàn)

眾包數(shù)據(jù)標(biāo)注中的隱類別分析
談?wù)勅斯ぶ悄軘?shù)據(jù)標(biāo)注那些事兒
數(shù)據(jù)標(biāo)注員,最后一批被AI取代的人

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容