
文·blogchong
緣起
早在一兩個(gè)星期前,就一直在思考一個(gè)問(wèn)題,那就是基于互聯(lián)網(wǎng)開(kāi)放型數(shù)據(jù)的價(jià)值挖掘,對(duì)應(yīng)其具體的應(yīng)用場(chǎng)景,以及具體的落地方式。
這一段時(shí)間一直沒(méi)有停止過(guò)探索,以及尋求這個(gè)問(wèn)題的答案,所以,這段時(shí)間一方面在和不同的同行們請(qǐng)教、交流,另一方面自己也在不停的思考這個(gè)話題。
互聯(lián)網(wǎng)開(kāi)放型數(shù)據(jù)。
所謂互聯(lián)網(wǎng)開(kāi)放型數(shù)據(jù),即在互聯(lián)網(wǎng)上遵循公開(kāi)性準(zhǔn)則的前提下的開(kāi)放數(shù)據(jù)。
是的,遵循公開(kāi)準(zhǔn)則的數(shù)據(jù),只要獲取的方式正確,其數(shù)據(jù)的使用也是合法的。
互聯(lián)網(wǎng)開(kāi)放型數(shù)據(jù),是一座開(kāi)放的數(shù)據(jù)金山,只是鮮有人能夠開(kāi)采,俞或者說(shuō)難以挖掘。
早在去年5月份的時(shí)候,曾在阿里研究院投稿并發(fā)表過(guò)一篇文章《DT時(shí)代變革的反思》,文中曾提到過(guò):
前不久,有一個(gè)朋友在群里問(wèn)了一個(gè)比較復(fù)雜問(wèn)題,是關(guān)于數(shù)據(jù)抓取解析方面的。
可能是他問(wèn)的問(wèn)題太深?yuàn)W,也可能是恰巧群里大牛都不在,總之就是沒(méi)有人解決。
有人就問(wèn)了:哥們,你研究這個(gè)這么深干嗎?他回答了一句:抓取數(shù)據(jù)啊,難道你們研究處理的數(shù)據(jù)不是從網(wǎng)上抓取的嗎?
這句話讓我猛然驚醒:有人已經(jīng)開(kāi)始向互聯(lián)網(wǎng)這座公共金山動(dòng)手了。
十幾年的底蘊(yùn),隱藏了多少數(shù)據(jù)財(cái)富?在DT時(shí)代來(lái)臨的今天,必定會(huì)越來(lái)越多的人去挖掘它的價(jià)值,只不過(guò)這需要一定的技術(shù)、一定手段而已。
2015年5月的時(shí)候,可能互聯(lián)網(wǎng)數(shù)據(jù)價(jià)值挖掘這個(gè)話題,還沒(méi)有現(xiàn)在這么清晰。
但現(xiàn)在,不管大大小小的公司,都有或多或少?gòu)幕ヂ?lián)網(wǎng)上爬取并且利用其中的數(shù)據(jù)。
對(duì)于互聯(lián)網(wǎng)數(shù)據(jù)的價(jià)值可利用性,這點(diǎn)我一直是堅(jiān)信不疑的。
而不解的是是否有能夠具體產(chǎn)業(yè)化落地的形式,而不是這種邊邊角角式輔助性挖掘。
1 基于互聯(lián)網(wǎng)數(shù)據(jù)的金融探索。
這段時(shí)間和不少朋友交流,當(dāng)然,更多的可能是請(qǐng)教,關(guān)于互聯(lián)網(wǎng)數(shù)據(jù)在金融方面的落地。
諸如,基于大數(shù)據(jù)的風(fēng)控、征信等等。
我們知道,這兩年互聯(lián)網(wǎng)金融很火爆,當(dāng)然,這個(gè)風(fēng)口也被p2p毀的差不多的。
拋開(kāi)p2p不說(shuō),現(xiàn)在確實(shí)很多人在探索大數(shù)據(jù)在互聯(lián)網(wǎng)金融方面的應(yīng)用。
包括現(xiàn)在國(guó)外很火的fintech,即金融科技。也很大程度上依賴于智能化、數(shù)據(jù)化的能力。
但就從目前來(lái)看,諸如基于大數(shù)據(jù)的風(fēng)控、征信等,看起來(lái)更像是一個(gè)偽命題。
比如貸款的征信報(bào)告,不管是臭名昭著的p2p也好,或者正規(guī)的貸款審核也好,他們更多依賴于芝麻信用分,或者銀行的信用報(bào)告,甚至是一些大型網(wǎng)站的消費(fèi)記錄,或者政府機(jī)構(gòu)的信息平臺(tái)等。
這些基礎(chǔ)信息的可用度遠(yuǎn)大于互聯(lián)網(wǎng)上的開(kāi)放型數(shù)據(jù),不單純是可信度的問(wèn)題(涉及金融,信息可信度尤為重要),其清洗的成本也很高,因?yàn)楹芏嚯[私信息在開(kāi)放集里是相對(duì)難獲取的。
這就容易造成投入與產(chǎn)出不成比例。
基于互聯(lián)網(wǎng)大數(shù)據(jù)的征信、風(fēng)控等,我想,估計(jì)還是有很長(zhǎng)一段路要走的。
2 互聯(lián)網(wǎng)數(shù)據(jù)收集售賣。
這個(gè)就比較好理解了,基本就是數(shù)據(jù)爬取,清洗,規(guī)整,出售的模式了。
典型如數(shù)據(jù)堂,雖然其號(hào)稱有眾包模式的數(shù)據(jù)采集途徑,但網(wǎng)絡(luò)數(shù)據(jù)的獲取依然是其重要的獲取方式途徑。
因?yàn)檫@里除了人力技術(shù)成本,是不需要其他額外成本的。
特別是我相信在早期的時(shí)候,數(shù)據(jù)堂更是以采集數(shù)據(jù)為核心運(yùn)作的。
售賣數(shù)據(jù)這一模式可以行嗎?
人家數(shù)據(jù)堂去年都B輪2.4億融資了,你說(shuō)可不可行。
3 微信生態(tài)的數(shù)據(jù)挖掘。
所謂微信生態(tài),當(dāng)然更多的是指微信公眾號(hào)的生態(tài)。
基于微信公號(hào)新媒體的崛起,更很多深耕于微信公眾號(hào)的自媒體們大放光彩。有人群聚集的地方就有利益的追逐。
現(xiàn)在很多自媒體們尋求著粉絲的變現(xiàn),又稱之為粉絲經(jīng)濟(jì)。最常見(jiàn)的如廣告的投放,再諸如閃購(gòu)式商品售賣。
以廣告投放為例,挖掘自媒體的信息數(shù)據(jù),為廣告投放做指導(dǎo),典型如新榜。
它意圖將自己打造成一個(gè)廣告平臺(tái),于是將微信公眾號(hào)的信息進(jìn)行抽取量化,并進(jìn)行分門別類,意圖將自媒體的廣告能力量化,上接廣告主,下接流量主。
看起來(lái)很行得通。
但是老實(shí)講,新榜的爬蟲能力還是蠻可以的,畢竟要把數(shù)十萬(wàn)個(gè)有質(zhì)量的號(hào)有效的監(jiān)控起來(lái),這不是一個(gè)輕松的活。
但是,它并沒(méi)有對(duì)信息進(jìn)一步的挖掘,諸如提取各種有用的畫像數(shù)據(jù)等,為其業(yè)務(wù)做更進(jìn)一步的指導(dǎo)。
并且據(jù)業(yè)內(nèi)人士說(shuō),廣告更大的核心點(diǎn)在于資源的接入,而這種數(shù)據(jù)的價(jià)值挖掘匹配能力,只是一種輔助的手段。
所以,即使新榜的數(shù)據(jù)挖掘能力再進(jìn)一步,在沒(méi)有引入廣告資源的能力前提下,可能一切還是空中樓閣。
當(dāng)然,我們也不可否認(rèn)微信生態(tài)的數(shù)據(jù)價(jià)值挖掘體現(xiàn)。
在一定的前提下,比如供應(yīng)鏈的保障、廣告主的保障,那么,數(shù)據(jù)挖掘挖掘、畫像的提取將會(huì)是一個(gè)加速的體現(xiàn),會(huì)讓事情變得更好。
4 行業(yè)解決方案,咨詢顧問(wèn)。
基于互聯(lián)網(wǎng)開(kāi)放型數(shù)據(jù)做行業(yè)解決方案、咨詢顧問(wèn)的模式。
這種模式基本算是已經(jīng)被認(rèn)可的互聯(lián)網(wǎng)數(shù)據(jù)價(jià)值落地的模式了。
基于互聯(lián)網(wǎng)的開(kāi)放型數(shù)據(jù),進(jìn)行爬取、清洗,規(guī)整,并且進(jìn)行建模,最終產(chǎn)生諸如分析報(bào)告、結(jié)構(gòu)化參考信息、顧問(wèn)咨詢信息等。
然后,賣這些結(jié)論數(shù)據(jù)。
典型如IT桔子、企查查、天眼查等等。
IT桔子目標(biāo)對(duì)準(zhǔn)于投資顧問(wèn)市場(chǎng),不過(guò)更多的是依賴于媒體信息,通過(guò)清洗出各種投資相關(guān)的信息,進(jìn)行結(jié)構(gòu)化,最終形成有用的參考信息,供投資方參考使用。
而企查查以及天眼查之類的公司,更多的以來(lái)的基礎(chǔ)數(shù)據(jù)是政府的開(kāi)放型數(shù)據(jù)平臺(tái),通過(guò)爬取(政府的信息平臺(tái),不要指望會(huì)開(kāi)放API),清洗等,更大的在于不同平臺(tái)的信息關(guān)系挖掘,關(guān)系鏈的挖掘,最終呈現(xiàn)更具有權(quán)威性的企業(yè)信息。
這方面,我最欣賞的是一面數(shù)據(jù)(免費(fèi)廣告安利,不謝),是一個(gè)小公司,但是其也是立足于互聯(lián)網(wǎng)開(kāi)放型數(shù)據(jù),為企業(yè)等生成行業(yè)解決方案報(bào)告,以數(shù)據(jù)咨詢顧問(wèn)的角色而存在。
感興趣的可以關(guān)注一下“數(shù)據(jù)冰山”,確實(shí)挺有意思的。
再回到這個(gè)話題,以行業(yè)咨詢顧問(wèn)模式的落地,基本算是最通用的方式了。
5 政務(wù)數(shù)據(jù)化。
我們知道,2015年國(guó)務(wù)院出臺(tái)了《國(guó)務(wù)院關(guān)于印發(fā)促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要的通知》,以及后續(xù)陸續(xù)有《關(guān)于全面推進(jìn)政務(wù)公開(kāi)工作的意見(jiàn) 》、《十三五戰(zhàn)略》等,都有提到大數(shù)據(jù)。
拋開(kāi)政府跨部門數(shù)據(jù)共享、數(shù)據(jù)開(kāi)放那部分不談,單論以大數(shù)據(jù)提升政務(wù)執(zhí)行效率。
包括政府治理的精細(xì)化、商事服務(wù)的便捷化、安全保障的高效化等幾個(gè)大方面。
基于互聯(lián)網(wǎng)開(kāi)放型數(shù)據(jù),挖掘民眾輿情、包括各種地方性論壇、社區(qū)、門戶信息等,為政務(wù)更精準(zhǔn)、高效做數(shù)據(jù)化支撐。
2016年,大數(shù)據(jù)更是被國(guó)家進(jìn)一步推進(jìn)。
所以,在未來(lái)的三五年,我想,基于互聯(lián)網(wǎng)開(kāi)放型數(shù)據(jù),是否可以為政務(wù)方面提供更多的幫助。
這或許又是一個(gè)大數(shù)據(jù)能夠獨(dú)立產(chǎn)業(yè)化落地的一種形式。
最后
當(dāng)然,除了上述那些,可能還有一些零零散散的應(yīng)用。
但我更關(guān)注的是能否形成一定的產(chǎn)業(yè)化格局,而不是單純作為輔助,內(nèi)嵌于其他公司,進(jìn)行數(shù)據(jù)化加速。
一直會(huì)持續(xù)關(guān)注這個(gè)話題,自己也在周末的時(shí)候?qū)懥诵┡老x,嘗試爬取政府網(wǎng)站數(shù)據(jù),再結(jié)合地方性門戶、論壇數(shù)據(jù),看看是否能夠挖掘出一些有用的輿情信息。
嘗試探索這個(gè)方向,等有結(jié)論了再分享出來(lái),也歡迎一起交流、探索~~
擴(kuò)展閱讀:
《DT時(shí)代變革的反思》//被阿里研究院收錄發(fā)表
(全文完)