閑話互聯(lián)網(wǎng)開(kāi)放型數(shù)據(jù)價(jià)值挖掘

題圖

文·blogchong

緣起

早在一兩個(gè)星期前,就一直在思考一個(gè)問(wèn)題,那就是基于互聯(lián)網(wǎng)開(kāi)放型數(shù)據(jù)的價(jià)值挖掘,對(duì)應(yīng)其具體的應(yīng)用場(chǎng)景,以及具體的落地方式。

這一段時(shí)間一直沒(méi)有停止過(guò)探索,以及尋求這個(gè)問(wèn)題的答案,所以,這段時(shí)間一方面在和不同的同行們請(qǐng)教、交流,另一方面自己也在不停的思考這個(gè)話題。

互聯(lián)網(wǎng)開(kāi)放型數(shù)據(jù)。

所謂互聯(lián)網(wǎng)開(kāi)放型數(shù)據(jù),即在互聯(lián)網(wǎng)上遵循公開(kāi)性準(zhǔn)則的前提下的開(kāi)放數(shù)據(jù)。

是的,遵循公開(kāi)準(zhǔn)則的數(shù)據(jù),只要獲取的方式正確,其數(shù)據(jù)的使用也是合法的。

互聯(lián)網(wǎng)開(kāi)放型數(shù)據(jù),是一座開(kāi)放的數(shù)據(jù)金山,只是鮮有人能夠開(kāi)采,俞或者說(shuō)難以挖掘。

早在去年5月份的時(shí)候,曾在阿里研究院投稿并發(fā)表過(guò)一篇文章《DT時(shí)代變革的反思》,文中曾提到過(guò):

前不久,有一個(gè)朋友在群里問(wèn)了一個(gè)比較復(fù)雜問(wèn)題,是關(guān)于數(shù)據(jù)抓取解析方面的。

可能是他問(wèn)的問(wèn)題太深?yuàn)W,也可能是恰巧群里大牛都不在,總之就是沒(méi)有人解決。

有人就問(wèn)了:哥們,你研究這個(gè)這么深干嗎?他回答了一句:抓取數(shù)據(jù)啊,難道你們研究處理的數(shù)據(jù)不是從網(wǎng)上抓取的嗎?

這句話讓我猛然驚醒:有人已經(jīng)開(kāi)始向互聯(lián)網(wǎng)這座公共金山動(dòng)手了。

十幾年的底蘊(yùn),隱藏了多少數(shù)據(jù)財(cái)富?在DT時(shí)代來(lái)臨的今天,必定會(huì)越來(lái)越多的人去挖掘它的價(jià)值,只不過(guò)這需要一定的技術(shù)、一定手段而已。

2015年5月的時(shí)候,可能互聯(lián)網(wǎng)數(shù)據(jù)價(jià)值挖掘這個(gè)話題,還沒(méi)有現(xiàn)在這么清晰。

但現(xiàn)在,不管大大小小的公司,都有或多或少?gòu)幕ヂ?lián)網(wǎng)上爬取并且利用其中的數(shù)據(jù)。

對(duì)于互聯(lián)網(wǎng)數(shù)據(jù)的價(jià)值可利用性,這點(diǎn)我一直是堅(jiān)信不疑的。

而不解的是是否有能夠具體產(chǎn)業(yè)化落地的形式,而不是這種邊邊角角式輔助性挖掘。

1 基于互聯(lián)網(wǎng)數(shù)據(jù)的金融探索。

這段時(shí)間和不少朋友交流,當(dāng)然,更多的可能是請(qǐng)教,關(guān)于互聯(lián)網(wǎng)數(shù)據(jù)在金融方面的落地。

諸如,基于大數(shù)據(jù)的風(fēng)控、征信等等。

我們知道,這兩年互聯(lián)網(wǎng)金融很火爆,當(dāng)然,這個(gè)風(fēng)口也被p2p毀的差不多的。

拋開(kāi)p2p不說(shuō),現(xiàn)在確實(shí)很多人在探索大數(shù)據(jù)在互聯(lián)網(wǎng)金融方面的應(yīng)用。

包括現(xiàn)在國(guó)外很火的fintech,即金融科技。也很大程度上依賴于智能化、數(shù)據(jù)化的能力。

但就從目前來(lái)看,諸如基于大數(shù)據(jù)的風(fēng)控、征信等,看起來(lái)更像是一個(gè)偽命題。

比如貸款的征信報(bào)告,不管是臭名昭著的p2p也好,或者正規(guī)的貸款審核也好,他們更多依賴于芝麻信用分,或者銀行的信用報(bào)告,甚至是一些大型網(wǎng)站的消費(fèi)記錄,或者政府機(jī)構(gòu)的信息平臺(tái)等。

這些基礎(chǔ)信息的可用度遠(yuǎn)大于互聯(lián)網(wǎng)上的開(kāi)放型數(shù)據(jù),不單純是可信度的問(wèn)題(涉及金融,信息可信度尤為重要),其清洗的成本也很高,因?yàn)楹芏嚯[私信息在開(kāi)放集里是相對(duì)難獲取的。

這就容易造成投入與產(chǎn)出不成比例。

基于互聯(lián)網(wǎng)大數(shù)據(jù)的征信、風(fēng)控等,我想,估計(jì)還是有很長(zhǎng)一段路要走的。

2 互聯(lián)網(wǎng)數(shù)據(jù)收集售賣。

這個(gè)就比較好理解了,基本就是數(shù)據(jù)爬取,清洗,規(guī)整,出售的模式了。

典型如數(shù)據(jù)堂,雖然其號(hào)稱有眾包模式的數(shù)據(jù)采集途徑,但網(wǎng)絡(luò)數(shù)據(jù)的獲取依然是其重要的獲取方式途徑。

因?yàn)檫@里除了人力技術(shù)成本,是不需要其他額外成本的。

特別是我相信在早期的時(shí)候,數(shù)據(jù)堂更是以采集數(shù)據(jù)為核心運(yùn)作的。

售賣數(shù)據(jù)這一模式可以行嗎?

人家數(shù)據(jù)堂去年都B輪2.4億融資了,你說(shuō)可不可行。

3 微信生態(tài)的數(shù)據(jù)挖掘。

所謂微信生態(tài),當(dāng)然更多的是指微信公眾號(hào)的生態(tài)。

基于微信公號(hào)新媒體的崛起,更很多深耕于微信公眾號(hào)的自媒體們大放光彩。有人群聚集的地方就有利益的追逐。

現(xiàn)在很多自媒體們尋求著粉絲的變現(xiàn),又稱之為粉絲經(jīng)濟(jì)。最常見(jiàn)的如廣告的投放,再諸如閃購(gòu)式商品售賣。

以廣告投放為例,挖掘自媒體的信息數(shù)據(jù),為廣告投放做指導(dǎo),典型如新榜。

它意圖將自己打造成一個(gè)廣告平臺(tái),于是將微信公眾號(hào)的信息進(jìn)行抽取量化,并進(jìn)行分門別類,意圖將自媒體的廣告能力量化,上接廣告主,下接流量主。

看起來(lái)很行得通。

但是老實(shí)講,新榜的爬蟲能力還是蠻可以的,畢竟要把數(shù)十萬(wàn)個(gè)有質(zhì)量的號(hào)有效的監(jiān)控起來(lái),這不是一個(gè)輕松的活。

但是,它并沒(méi)有對(duì)信息進(jìn)一步的挖掘,諸如提取各種有用的畫像數(shù)據(jù)等,為其業(yè)務(wù)做更進(jìn)一步的指導(dǎo)。

并且據(jù)業(yè)內(nèi)人士說(shuō),廣告更大的核心點(diǎn)在于資源的接入,而這種數(shù)據(jù)的價(jià)值挖掘匹配能力,只是一種輔助的手段。

所以,即使新榜的數(shù)據(jù)挖掘能力再進(jìn)一步,在沒(méi)有引入廣告資源的能力前提下,可能一切還是空中樓閣。

當(dāng)然,我們也不可否認(rèn)微信生態(tài)的數(shù)據(jù)價(jià)值挖掘體現(xiàn)。

在一定的前提下,比如供應(yīng)鏈的保障、廣告主的保障,那么,數(shù)據(jù)挖掘挖掘、畫像的提取將會(huì)是一個(gè)加速的體現(xiàn),會(huì)讓事情變得更好。

4 行業(yè)解決方案,咨詢顧問(wèn)。

基于互聯(lián)網(wǎng)開(kāi)放型數(shù)據(jù)做行業(yè)解決方案、咨詢顧問(wèn)的模式。

這種模式基本算是已經(jīng)被認(rèn)可的互聯(lián)網(wǎng)數(shù)據(jù)價(jià)值落地的模式了。

基于互聯(lián)網(wǎng)的開(kāi)放型數(shù)據(jù),進(jìn)行爬取、清洗,規(guī)整,并且進(jìn)行建模,最終產(chǎn)生諸如分析報(bào)告、結(jié)構(gòu)化參考信息、顧問(wèn)咨詢信息等。

然后,賣這些結(jié)論數(shù)據(jù)。

典型如IT桔子、企查查、天眼查等等。

IT桔子目標(biāo)對(duì)準(zhǔn)于投資顧問(wèn)市場(chǎng),不過(guò)更多的是依賴于媒體信息,通過(guò)清洗出各種投資相關(guān)的信息,進(jìn)行結(jié)構(gòu)化,最終形成有用的參考信息,供投資方參考使用。

而企查查以及天眼查之類的公司,更多的以來(lái)的基礎(chǔ)數(shù)據(jù)是政府的開(kāi)放型數(shù)據(jù)平臺(tái),通過(guò)爬取(政府的信息平臺(tái),不要指望會(huì)開(kāi)放API),清洗等,更大的在于不同平臺(tái)的信息關(guān)系挖掘,關(guān)系鏈的挖掘,最終呈現(xiàn)更具有權(quán)威性的企業(yè)信息。

這方面,我最欣賞的是一面數(shù)據(jù)(免費(fèi)廣告安利,不謝),是一個(gè)小公司,但是其也是立足于互聯(lián)網(wǎng)開(kāi)放型數(shù)據(jù),為企業(yè)等生成行業(yè)解決方案報(bào)告,以數(shù)據(jù)咨詢顧問(wèn)的角色而存在。

感興趣的可以關(guān)注一下“數(shù)據(jù)冰山”,確實(shí)挺有意思的。

再回到這個(gè)話題,以行業(yè)咨詢顧問(wèn)模式的落地,基本算是最通用的方式了。

5 政務(wù)數(shù)據(jù)化。

我們知道,2015年國(guó)務(wù)院出臺(tái)了《國(guó)務(wù)院關(guān)于印發(fā)促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要的通知》,以及后續(xù)陸續(xù)有《關(guān)于全面推進(jìn)政務(wù)公開(kāi)工作的意見(jiàn) 》、《十三五戰(zhàn)略》等,都有提到大數(shù)據(jù)。

拋開(kāi)政府跨部門數(shù)據(jù)共享、數(shù)據(jù)開(kāi)放那部分不談,單論以大數(shù)據(jù)提升政務(wù)執(zhí)行效率。

包括政府治理的精細(xì)化、商事服務(wù)的便捷化、安全保障的高效化等幾個(gè)大方面。

基于互聯(lián)網(wǎng)開(kāi)放型數(shù)據(jù),挖掘民眾輿情、包括各種地方性論壇、社區(qū)、門戶信息等,為政務(wù)更精準(zhǔn)、高效做數(shù)據(jù)化支撐。

2016年,大數(shù)據(jù)更是被國(guó)家進(jìn)一步推進(jìn)。

所以,在未來(lái)的三五年,我想,基于互聯(lián)網(wǎng)開(kāi)放型數(shù)據(jù),是否可以為政務(wù)方面提供更多的幫助。

這或許又是一個(gè)大數(shù)據(jù)能夠獨(dú)立產(chǎn)業(yè)化落地的一種形式。

最后

當(dāng)然,除了上述那些,可能還有一些零零散散的應(yīng)用。

但我更關(guān)注的是能否形成一定的產(chǎn)業(yè)化格局,而不是單純作為輔助,內(nèi)嵌于其他公司,進(jìn)行數(shù)據(jù)化加速。

一直會(huì)持續(xù)關(guān)注這個(gè)話題,自己也在周末的時(shí)候?qū)懥诵┡老x,嘗試爬取政府網(wǎng)站數(shù)據(jù),再結(jié)合地方性門戶、論壇數(shù)據(jù),看看是否能夠挖掘出一些有用的輿情信息。

嘗試探索這個(gè)方向,等有結(jié)論了再分享出來(lái),也歡迎一起交流、探索~~

擴(kuò)展閱讀:

《DT時(shí)代變革的反思》//被阿里研究院收錄發(fā)表

(全文完)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時(shí)請(qǐng)結(jié)合常識(shí)與多方信息審慎甄別。
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容