數(shù)據(jù)采集的過程好比是人用眼睛看、用耳朵聽、用鼻子聞、用嘴巴嘗......這些都是感受外界的行為,接收外部信息從而采取措施,做出判斷與決策——AI產(chǎn)品同樣需要這樣的過程。
1、AI數(shù)據(jù)來源有哪些呢?
常見的數(shù)據(jù)獲取方式有以下三種:
(1)直接購買行業(yè)數(shù)據(jù)
有許多專門做行業(yè)研究的組織、公司、機(jī)構(gòu),在某一特定的領(lǐng)域獲取的大量的數(shù)據(jù),他們通過某種方式將數(shù)據(jù)提供給需求者。比如開放的網(wǎng)站(包括科研、算法競賽、政府開發(fā)數(shù)據(jù)、個人組織公開數(shù)據(jù)等)、運(yùn)營商、行業(yè)數(shù)據(jù)分析公司等,通過有償或無償?shù)姆绞焦蚕頂?shù)據(jù)。
例如:
ICPSR(ICPSR),提供全球領(lǐng)先的社會和行為學(xué)研究數(shù)據(jù)。
數(shù)據(jù)堂:http://www.datatang.com/
(2)自行采集
這種方式是通過自身的行業(yè)積累直接獲取數(shù)據(jù),也可以通過爬蟲技術(shù)采集合法的互聯(lián)網(wǎng)數(shù)據(jù)。這種方式的好處是可以按需采集,自定義采集指標(biāo)、字段等。
(3)第三方合作
組織與組織之間合作,交換或購買數(shù)據(jù)來整合行業(yè)資源。比如,我們在某寶上搜了一款商品,在瀏覽另一個平臺時(shí)會看到有關(guān)該類商品的廣告,其實(shí)這是數(shù)據(jù)交換的結(jié)果。
2、如何判斷這些數(shù)據(jù)的質(zhì)量呢?
可以從這四個方面來衡量:關(guān)聯(lián)度(Relevancy)、時(shí)效性(Recency)、范圍(Range)、可信性(Reliability),簡稱4R原則。
(1)關(guān)聯(lián)度
在AI領(lǐng)域,關(guān)聯(lián)度是評價(jià)數(shù)據(jù)的首要指標(biāo),如果關(guān)聯(lián)度不高,其他的數(shù)據(jù)指標(biāo)都毫無意義。比如在自然語言處理的領(lǐng)域中,想讓機(jī)器學(xué)會如何人交流,就需要大量的強(qiáng)關(guān)聯(lián)數(shù)據(jù)作為基礎(chǔ)。
(2)時(shí)效性
數(shù)據(jù)應(yīng)該有較強(qiáng)的是時(shí)效性,特別是資訊類的產(chǎn)品,對這一點(diǎn)有更高的要求。
(3)范圍
有句話說,"不以.......為目的的......,都是耍流氓",目的決定了邊界,決定了行為范圍。在AI領(lǐng)域,范圍也極大影響著數(shù)據(jù)的質(zhì)量,而且數(shù)據(jù)范圍也代表了數(shù)據(jù)的完整度。一般情況下,互聯(lián)網(wǎng)公司的數(shù)據(jù)完整度較好。
(4)可信性
數(shù)據(jù)的可信性是獲取用戶信任的關(guān)鍵。