互聯(lián)網(wǎng)公司的爭奪和大數(shù)據(jù)應(yīng)用

圖片發(fā)自簡書App

今天,各個搜索引擎都有一個度量用戶點擊數(shù)據(jù)和搜索結(jié)果相關(guān)性的模型,通常被稱為「點擊模型」。隨著數(shù)據(jù)量的積累,點擊模型對搜索結(jié)果排名的預(yù)測越來越準(zhǔn)確,它的重要性也越來越大。今天,它在搜索排序中至少占70%~80%的權(quán)重,也就是說搜索算法中其他所有的因素加起來都不如它重要。換句話說,在今天的搜索引擎中,因果關(guān)系已經(jīng)沒有數(shù)據(jù)的相關(guān)性重要了。

當(dāng)然,點擊模型的準(zhǔn)確性取決于數(shù)據(jù)量的大小。對于常見的搜索,比如「虛擬現(xiàn)實」,積累足夠多的用戶點擊數(shù)據(jù)并不需要太長的時間。但是,對于那些不太常見的搜索(通常也被稱為長尾搜索),比如「畢加索早期作品介紹」,需要很長的時間才能收集到「足夠多的數(shù)據(jù)」來訓(xùn)練模型。一個搜索引擎使用的時間越長,數(shù)據(jù)的積累就越充分,對于這些長尾搜索就做得越準(zhǔn)確。微軟的搜索引擎在很長的時間里做不過Google的主要原因并不在于算法本身,而是因為缺乏數(shù)據(jù)。同樣的道理,在中國,搜狗等小規(guī)模的搜索引擎相對百度最大的劣勢也在于數(shù)據(jù)量上。

當(dāng)整個搜索行業(yè)都意識到點擊數(shù)據(jù)的重要性后,這個市場上的競爭就從技術(shù)競爭變成了數(shù)據(jù)競爭。這時,各公司的商業(yè)策略和產(chǎn)品策略就都圍繞著獲取數(shù)據(jù)、建立相關(guān)性而開展了。后進入搜索市場的公司要想不坐以待斃,唯一的辦法就是快速獲得數(shù)據(jù)。

比如微軟通過接手雅虎的搜索業(yè)務(wù),將必應(yīng)的搜索量從原來Google的10%左右陡然提升到Google的20%?30%,點擊模型估計得準(zhǔn)確了許多,搜索質(zhì)量迅速提高。但是即使做到這一點還是不夠的,因此一些公司想出了更激進的辦法,通過搜索條(Toolbar)、瀏覽器甚至輸入法來收集用戶的點擊行為。這種辦法的好處在于它不僅可以收集到用戶使用該公司搜索引擎本身的點擊數(shù)據(jù),而且還能收集用戶使用其他搜索引擎的數(shù)據(jù),比如微軟通過舊瀏覽器收集用戶使用Google搜索時的點擊情況。

這樣一來,如果一家公司能夠在瀏覽器市場占很大的份額,即使它的搜索量很小,也能收集大量的數(shù)據(jù)。有了這些數(shù)據(jù),尤其是用戶在更好的搜索引擎上的點擊數(shù)據(jù),一家搜索引擎公司可以快速改進長尾搜索的質(zhì)量。當(dāng)然,有人詬病必應(yīng)的這種做法是「抄」Google的搜索結(jié)果,其實它并沒有直接抄,而是用Google的數(shù)據(jù)改進自己的點擊模型。這種事情在中國市場上也是一樣,因此,搜索質(zhì)量的競爭就成了瀏覽器或者其他客戶端軟件市場占有率的競爭。雖然在外人看來這些互聯(lián)網(wǎng)公司競爭的是技術(shù),但更準(zhǔn)確地講,它們是在數(shù)據(jù)層面競爭。

很多時候,落后與先進的差距,不是購買一些機器或者引進一些技術(shù)就能夠彌補的,落后最可怕的地方是思維方式的落后。西方在近代走在了世界前列,很大程度上靠的是思維方式全面領(lǐng)先。

機械思維曾經(jīng)是改變了人類工作方式的革命性的方法論,并且在工業(yè)革命和后來全球工業(yè)化的過程中起到了決定性的作用,今天它在很多地方依然能指導(dǎo)我們的行動。如果我們能夠找到確定性(或者可預(yù)測性)和因果關(guān)系,這依然是最好的結(jié)果。但是,今天我們面臨的復(fù)雜情況,已經(jīng)不是機械時代用幾個定律就能講清楚的了,不確定性,或者說難以找到確定性,是今天社會的常態(tài)。在無法確定因果關(guān)系時,數(shù)據(jù)為我們提供了解決問題的新方法,數(shù)據(jù)中所包含的信息可以幫助我們消除不確定性,而數(shù)據(jù)之間的相關(guān)性在某種程度上可以取代原來的因果關(guān)系,幫助我們得到我們想知道的答案,這便是大數(shù)據(jù)思維的核心。

大數(shù)據(jù)思維和原有機械思維并非完全對立,它更多的是對后者的補充。在新的時代,一定需要新的方法論,也一定會產(chǎn)生新的方法論。

在有大數(shù)據(jù)之前,我們尋找一個規(guī)律常常是很困難的,經(jīng)常要經(jīng)歷「假設(shè)——求證——再假設(shè)——再求證」這樣一個漫長的過程,而在找到規(guī)律后,應(yīng)用到個案上的成本可能也是很高的。但是,有了大數(shù)據(jù)之后,這一類問題就變得簡單了。

比如通過對大量數(shù)據(jù)的統(tǒng)計直接找到正常用電模式和納稅模式,然后圈定那些用電模式異常的大麻種植者,或者有嫌疑的偷漏稅者。由于這種方法采用的是機器學(xué)習(xí),依靠的是機器智能,大大降低了人工成本,因此執(zhí)行的成本非常低。在美國有大量類似的報道,在各種媒體上都可以看到。

在大數(shù)據(jù)出現(xiàn)之前,并非我們得不到信息直接的關(guān)聯(lián)性,而是需要花費很長的時間才能收集到足夠多的數(shù)據(jù),然后再花費更長的時間來驗證它,這也是過去大部分傳統(tǒng)的企業(yè)對于細節(jié)數(shù)據(jù)的收集和處理不是很重視的原因,相比之下他們更看重經(jīng)驗和宏觀數(shù)據(jù)。但是到了大數(shù)據(jù)時代,這些企業(yè)的觀念也在慢慢轉(zhuǎn)變。

亞馬遜的優(yōu)勢在于它擁有顧客全面的信息。比如張三上周買了一臺數(shù)碼相機,之前他還購買了幾個玩具,同一個地址的李四前兩天買了嬰兒用的浴液。那么可以聯(lián)想到張三和李四是一家人,他們有個出生不久的嬰兒,張三買數(shù)碼相機或許是為了給孩子照相。他們或許會對在線沖印照片(并做成賀年卡),或者電子相框有興趣。如果將他們的地址和美國個人住宅信息網(wǎng)站zillow.com聯(lián)系起來,很容易了解到他們的住房價值,進而估計出他們的收入。這些條件是沃爾瑪不具備的。亞馬遜的第三個優(yōu)勢在于它的任何市場策略都能馬上實現(xiàn),比如它能夠隨時捆綁商品,并且隨時調(diào)整價格進行促銷;而美國所有的實體店,調(diào)整價格都需要在晚上關(guān)門之后進行,因此即使它們數(shù)據(jù)挖掘的速度和亞馬遜一樣快(當(dāng)然這是不可能的),在市場上的反應(yīng)也跟不上亞馬遜這樣的電商公司。

前面的幾個例子無一不是先從大數(shù)據(jù)找到普遍規(guī)律,然后再應(yīng)用于每一個具體的用戶,并且影響到每一個具體的操作。以抓毒品種植和偷漏稅為例,警察局或者稅務(wù)局首先需要根據(jù)大數(shù)據(jù)了解用電或者納稅普遍的模式,然后要準(zhǔn)確地估算出每一個地址正常的模式,這樣就能夠發(fā)現(xiàn)每一個異常的情況。

對于互聯(lián)網(wǎng)公司的那些應(yīng)用也如此,那些公司可以對每一個用戶提供不同的服務(wù),甚至做到每一次的服務(wù)都不相同。比如電商公司在用戶瀏覽打印機或者電動牙刷時,如果發(fā)現(xiàn)他們在閱讀產(chǎn)品介紹和評價,那么可能用戶尚未完成購買,推薦相應(yīng)的產(chǎn)品給用戶是合理的;而當(dāng)用戶完成購買后,再搜索或瀏覽這些產(chǎn)品,推薦給用戶打印機墨盒或電動牙刷頭等耗材,就比推薦那些耐用產(chǎn)品本身更合理了。經(jīng)常在亞馬遜上購物的人對這一點會有體會,不僅不同的人看到的網(wǎng)頁內(nèi)容是不一樣的,而且同一個人今天和昨天看到的內(nèi)容也是不一樣的,尤其是在完成一些購買行為之后。這種精細到每一次交易,甚至每一次內(nèi)容展示的服務(wù),在過去是想都不敢想的,但是靠大數(shù)據(jù)今天這已經(jīng)變成了可能,而且它還代表著未來商業(yè)的趨勢。

通過這件事我們也能進一步體會大數(shù)據(jù)完備性的特點。在過去,統(tǒng)計學(xué)家們一直試圖尋找好的采樣方法,以便在有限的樣本中找到覆蓋盡可能全的規(guī)律,但是在大數(shù)據(jù)時代,這些努力都不需要了,因此樣本集可以等于全集。另外,我們還可以從這個案例中看到大數(shù)據(jù)時效性的特點。對于新的、過去沒有見過的情況,Google的服務(wù)器反應(yīng)是非常及時的,即在第二次就能把新鮮的數(shù)據(jù)提供給用戶使用,這在大數(shù)據(jù)時代之前也是做不到的。

Google在數(shù)據(jù)上的優(yōu)勢,是大學(xué)和各個研究所并不具備的。即使是全球著名的汽車公司,包括豐田、大眾和美國通用,也不具備如此多的數(shù)據(jù)。因此,它們雖然在自動駕駛汽車研制方面早起步幾十年,但是很快就被Google超越。另外,計算機學(xué)習(xí)「經(jīng)驗」的速度遠遠比人快得多,這也是大數(shù)據(jù)多維度的優(yōu)勢,因此Google自動駕駛汽車的進步才能如此快。這并非說明Google的科研能力超過了過去那么多大學(xué)、研究所和公司的總和,反而是體現(xiàn)出大數(shù)據(jù)的威力,以及采用大數(shù)據(jù)思維的重要性。

讓我們談?wù)劷痫L(fēng)公司的故事。在和我進行了多次關(guān)于大數(shù)據(jù)時代商業(yè)模式的探討后,該公司決定向IBM學(xué)習(xí),在商業(yè)模式上做根本性的轉(zhuǎn)變,主營業(yè)務(wù)從風(fēng)力發(fā)電機的制造,轉(zhuǎn)變成發(fā)電設(shè)備的運營和服務(wù)。當(dāng)然,并非什么公司想做服務(wù)就能做得好并賺到錢,金風(fēng)公司有底氣轉(zhuǎn)型,源于其在宏觀上對全球風(fēng)能市場的了解,在微觀上對每一臺風(fēng)能發(fā)電機運營細節(jié)的了解,加上通過大數(shù)據(jù)對發(fā)電機可能出現(xiàn)的問題的分析,能夠比一般工程公司更有效地維護發(fā)電機。至于發(fā)電機的生產(chǎn),該公司只負(fù)責(zé)研制,然后將設(shè)備制造交給其他公司去做。這樣一來,金風(fēng)公司就在風(fēng)力發(fā)電領(lǐng)域成功地復(fù)制了IBM服務(wù)的模式。大多數(shù)亞洲制造企業(yè)雖然在全球市場上占的份額不小,但是通常競爭的手段就是壓低利潤降價,最后把整個行業(yè)變得都沒有利潤。金風(fēng)公司轉(zhuǎn)型的做法,或許能給這些企業(yè)一些啟發(fā),當(dāng)然如果沒有大數(shù)據(jù)這樣的機遇,這種轉(zhuǎn)型是非常困難的。

與金風(fēng)公司面臨類似情況的還有諸多的電器生產(chǎn)廠商。這些電器無論是高端的還是低端的,廠家只能賺到一次錢,而且由于亞洲制造業(yè)同行相互壓價,利潤也不可能很高。為了解決利潤的問題,一些對新技術(shù)敏感的公司想到了利用大數(shù)據(jù)和移動互聯(lián)網(wǎng)來改變商業(yè)模式。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
【社區(qū)內(nèi)容提示】社區(qū)部分內(nèi)容疑似由AI輔助生成,瀏覽時請結(jié)合常識與多方信息審慎甄別。
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

相關(guān)閱讀更多精彩內(nèi)容

友情鏈接更多精彩內(nèi)容